27 items tagged "data science"

  • ‘Vooruitgang in BI, maar let op ROI’

    5601405Business intelligence (bi) werd door Gartner al benoemd tot hoogste prioriteit voor de cio in 2016. Ook de Computable-experts voorspellen dat er veel en grote stappen genomen gaan worden binnen de bi. Tegelijkertijd moeten managers ook terug kijken en nadenken over hun businessmodel bij de inzet van big data: hoe rechtvaardig je de investeringen in big data?

    Kurt de Koning, oprichter van Dutch Offshore ICT Management
    Business intelligence/analytics is door Gartner op nummer één gezet voor 2016 op de prioriteitenlijst voor de cio. Gebruikers zullen in 2016 hun beslissingen steeds meer laten afhangen van stuurinformatie die uit meerdere bronnen komt. Deze bronnen zullen deels bestaan uit ongestructureerde data. De bi-tools zullen dus niet alleen visueel de informatie aantrekkelijk moeten opmaken en een goede gebruikersinterface moeten bieden. Bij het ontsluiten van de data zullen die tools zich onderscheiden , die in staat zijn om orde en overzicht te scheppen uit de vele verschijningsvormen van data.

    Laurent Koelink, senior interim BI professional bij Insight BI
    Big data-oplossingen naast traditionele bi
    Door de groei van het aantal smart devices hebben organisaties steeds meer data te verwerken. Omdat inzicht (in de breedste zin) een van de belangrijkste succesfactoren van de toekomst gaat zijn voor veel organisaties die flexibel in willen kunnen spelen op de vraag van de markt, zullen zijn ook al deze nieuwe (vormen) van informatie moeten kunnen analyseren. Ik zie big data niet als vervangen van traditionele bi-oplossingen, maar eerder als aanvulling waar het gaat om analytische verwerking van grote hoeveelheden (vooral ongestructureerde) data.

    In-memory-oplossingen
    Organisaties lopen steeds vaker aan tegen de performance-beperkingen van traditionele database systemen als het gaat om grote hoeveelheden data die ad hoc moeten kunnen worden geanalyseerd. Specifieke hybride database/hardware-oplossingen zoals die van IBM, SAP en TeraData hebben hier altijd oplossingen voor geboden. Daar komen nu steeds vaker ook in-memory-oplossingen bij. Enerzijds omdat deze steeds betaalbaarder en dus toegankelijker worden, anderzijds doordat dit soort oplossingen in de cloud beschikbaar komen, waardoor de kosten hiervan goed in de hand te houden zijn.

    Virtual data integration
    Daar waar data nu nog vaak fysiek wordt samengevoegd in aparte databases (data warehouses) zal dit, waar mogelijk, worden vervangen door slimme metadata-oplossingen, die (al dan niet met tijdelijke physieke , soms in memory opslag) tijdrovende data extractie en integratie processen overbodig maken.

    Agile BI development
    Organisaties worden meer en meer genoodzaakt om flexibel mee te bewegen in en met de keten waar ze zich in begeven. Dit betekent dat ook de inzichten om de bedrijfsvoering aan te sturen (de bi-oplossingen) flexibel moeten mee bewegen. Dit vergt een andere manier van ontwikkelen van de bi-ontwikkelteams. Meer en meer zie je dan ook dat methoden als Scrum ook voor bi-ontwikkeling worden toegepast.

    Bi voor de iedereen
    Daar waar bi toch vooral altijd het domein van organisaties is geweest zie je dat ook consumenten steeds meer en vaker gebruik maken van bi-oplossingen. Bekende voorbeelden zijn inzicht in financiën en energieverbruik. De analyse van inkomsten en uitgaven op de webportal of in de app van je bank, maar ook de analyse van de gegevens van slimme energiemeters zijn hierbij sprekende voorbeelden. Dit zal in de komende jaren alleen maar toenemen en geïntegreerd worden.

    Rein Mertens, head of analytical platform bij SAS
    Een belangrijke trend die ik tot volwassenheid zie komen in 2016 is ‘streaming analytics’. Vandaag de dag is big data niet meer weg te denken uit onze dagelijkse praktijk. De hoeveelheid data welke per seconde wordt gegenereerd blijft maar toenemen. Zowel in de persoonlijke als zakelijke sfeer. Kijk maar eens naar je dagelijkse gebruik van het internet, e-mails, tweets, blog posts, en overige sociale netwerken. En vanuit de zakelijke kant: klantinteracties, aankopen, customer service calls, promotie via sms/sociale netwerken et cetera.

    Een toename van volume, variatie en snelheid van vijf Exabytes per twee dagen wereldwijd. Dit getal is zelfs exclusief data vanuit sensoren, en overige IoT-devices. Er zit vast interessante informatie verstopt in het analyseren van al deze data, maar hoe doe je dat? Een manier is om deze data toegankelijk te maken en op te slaan in een kosteneffectief big data-platform. Onvermijdelijk komt een technologie als Hadoop dan aan de orde, om vervolgens met data visualisatie en geavanceerde analytics aan de gang te gaan om verbanden en inzichten uit die data berg te halen. Je stuurt als het ware de complexe logica naar de data toe. Zonder de data allemaal uit het Hadoop cluster te hoeven halen uiteraard.

    Maar wat nu, als je op basis van deze grote hoeveelheden data ‘real-time’ slimme beslissingen zou willen nemen? Je hebt dan geen tijd om de data eerst op te slaan, en vervolgens te gaan analyseren. Nee, je wilt de data in-stream direct kunnen beoordelen, aggregeren, bijhouden, en analyseren, zoals vreemde transactie patronen te detecteren, sentiment in teksten te analyseren en hierop direct actie te ondernemen. Eigenlijk stuur je de data langs de logica! Logica, die in-memory staat en ontwikkeld is om dat heel snel en heel slim te doen. En uiteindelijke resultaten op te slaan. Voorbeelden van meer dan honderdduizend transacties zijn geen uitzondering hier. Per seconde, welteverstaan. Stream it, score it, store it. Dat is streaming analytics!

    Minne Sluis, oprichter van Sluis Results
    Van IoT (internet of things) naar IoE (internet of everything)
    Alles wordt digitaal en connected. Meer nog dan dat we ons zelfs korte tijd geleden konden voorstellen. De toepassing van big data-methodieken en -technieken zal derhalve een nog grotere vlucht nemen.

    Roep om adequate Data Governance zal toenemen
    Hoewel het in de nieuwe wereld draait om loslaten, vertrouwen/vrijheid geven en co-creatie, zal de roep om beheersbaarheid toch toenemen. Mits vooral aangevlogen vanuit een faciliterende rol en zorgdragend voor meer eenduidigheid en betrouwbaarheid, bepaald geen slechte zaak.

    De business impact van big data & data science neemt toe
    De impact van big data & data science om business processen, diensten en producten her-uit te vinden, verregaand te digitaliseren (en intelligenter te maken), of in sommige gevallen te elimineren, zal doorzetten.

    Consumentisering van analytics zet door
    Sterk verbeterde en echt intuïtieve visualisaties, geschraagd door goede meta-modellen, dus data governance, drijft deze ontwikkeling. Democratisering en onafhankelijkheid van derden (anders dan zelfgekozen afgenomen uit de cloud) wordt daarmee steeds meer werkelijkheid.

    Big data & data science gaan helemaal doorbreken in de non-profit
    De subtiele doelstellingen van de non-profit, zoals verbetering van kwaliteit, (patiënt/cliënt/burger) veiligheid, punctualiteit en toegankelijkheid, vragen om big data toepassingen. Immers, voor die subtiliteit heb je meer goede informatie en dus data, sneller, met meer detail en schakering nodig, dan wat er nu veelal nog uit de traditionelere bi-omgevingen komt. Als de non-profit de broodnodige focus van de profit sector, op ‘winst’ en ‘omzetverbetering’, weet te vertalen naar haar eigen situatie, dan staan succesvolle big data initiatieven om de hoek! Mind you, deze voorspelling geldt uiteraard ook onverkort voor de zorg.

    Hans Geurtsen, business intelligence architect data solutions bij Info Support
    Van big data naar polyglot persistence
    In 2016 hebben we het niet meer over big, maar gewoon over data. Data van allerlei soorten en in allerlei volumes die om verschillende soorten opslag vragen: polyglot persistence. Programmeurs kennen de term polyglot al lang. Een applicatie anno 2015 wordt vaak al in meerdere talen geschreven. Maar ook aan de opslag kant van een applicatie is het niet meer alleen relationeel wat de klok zal slaan. We zullen steeds meer andere soorten databases toepassen in onze data oplossingen, zoals graph databases, document databases, etc. Naast specialisten die alles van één soort database afweten, heb je dan ook generalisten nodig die precies weten welke database zich waarvoor leent.

    De doorbraak van het moderne datawarehouse
    ‘Een polyglot is iemand met een hoge graad van taalbeheersing in verschillende talen’, aldus Wikipedia. Het gaat dan om spreektalen, maar ook in het it-vakgebied, kom je de term steeds vaker tegen. Een applicatie die in meerdere programmeertalen wordt gecodeerd en data in meerdere soorten databases opslaat. Maar ook aan de business intelligence-kant volstaat één taal, één omgeving niet meer. De dagen van het traditionele datawarehouse met een etl-straatje, een centraal datawarehouse en één of twee bi-tools zijn geteld. We zullen nieuwe soorten data-platformen gaan zien waarin allerlei gegevens uit allerlei bronnen toegankelijk worden voor informatiewerkers en data scientists die allerlei tools gebruiken.

    Business intelligence in de cloud
    Waar vooral Nederlandse bedrijven nog steeds terughoudend zijn waar het de cloud betreft, zie je langzaam maar zeker dat de beweging richting cloud ingezet wordt. Steeds meer bedrijven realiseren zich dat met name security in de cloud vaak beter geregeld is dan dat ze zelf kunnen regelen. Ook cloud leveranciers doen steeds meer om Europese bedrijven naar hun cloud te krijgen. De nieuwe data centra van Microsoft in Duitsland waarbij niet Microsoft maar Deutsche Telekom de controle en toegang tot klantgegevens regelt, is daar een voorbeeld van. 2016 kan wel eens hét jaar worden waarin de cloud écht doorbreekt en waarin we ook in Nederland steeds meer complete BI oplossingen in de cloud zullen gaan zien.

    Huub Hillege, principal data(base) management consultant bij Info-Shunt
    Big data
    De big data-hype zal zich nog zeker voortzetten in 2016 alleen het succes bij de bedrijven is op voorhand niet gegarandeerd. Bedrijven en pas afgestudeerden blijven elkaar gek maken over de toepassing. Het is onbegrijpelijk dat iedereen maar Facebook, Twitter en dergelijke data wil gaan ontsluiten terwijl de data in deze systemen hoogst onbetrouwbaar is. Op elke conferentie vraag ik waar de business case, inclusief baten en lasten is, die alle investeringen rondom big data rechtvaardigen. Zelfs bi-managers van bedrijven moedigen aan om gewoon te beginnen. Dus eigenlijk: achterom kijken naar de data die je hebt of kunt krijgen en onderzoeken of je iets vindt waar je iets aan zou kunnen hebben. Voor mij is dit de grootste valkuil, zoals het ook was met de start van Datawarehouses in 1992. Bedrijven hebben in de huidige omstandigheden beperkt geld. Zuinigheid is geboden.

    De analyse van big data moet op de toekomst zijn gericht vanuit een duidelijke business-strategie en een kosten/baten-analyse: welke data heb ik nodig om de toekomst te ondersteunen? Bepaal daarbij:

    • Waar wil ik naar toe?
    • Welke klantensegmenten wil ik erbij krijgen?
    • Gaan we met de huidige klanten meer 'Cross selling' (meer producten) uitvoeren?
    • Gaan we stappen ondernemen om onze klanten te behouden (Churn)?

    Als deze vragen met prioriteiten zijn vastgelegd moet er een analyse worden gedaan:

    • Welke data/sources hebben we hierbij nodig?
    • Hebben we zelf de data, zijn er 'gaten' of moeten we externe data inkopen?

    Databasemanagementsysteem
    Steeds meer databasemanagementsysteem (dbms)-leveranciers gaan ondersteuning geven voor big data-oplossingen zoals bijvoorbeeld Oracle/Sun Big Data Appliance, Teradata/Teradata Aster met ondersteuning voor Hadoop. De dbms-oplossingen zullen op de lange termijn het veld domineren. big data-software-oplossingen zonder dbms zullen het uiteindelijk verliezen.

    Steeds minder mensen, ook huidige dbma's, begrijpen niet meer hoe het technisch diep binnen een database/DBMS in elkaar zit. Steeds meer zie je dat fysieke databases uit logische data modelleer-tools worden gegeneerd. Formele fysieke database-stappen/-rapporten blijven achterwege. Ook ontwikkelaars die gebruik maken van etl-tools zoals Informatica, AbInitio, Infosphere, Pentaho et cetera, genereren uiteindelijk sgl-scripts die data van sources naar operationele datastores en/of datawarehouse brengen.

    Ook de bi-tools zoals Microstrategy, Business Objects, Tableau et cetera genereren sql-statements.
    Meestal zijn dergelijke tools initieel ontwikkeld voor een zeker dbms en al gauw denkt men dat het dan voor alle dbms'en toepasbaar is. Er wordt dan te weinig gebruik gemaakt van specifieke fysieke dbms-kenmerken.

    De afwezigheid van de echte kennis veroorzaakt dan performance problemen die in een te laat stadium worden ontdekt. De laatste jaren heb ik door verandering van databaseontwerp/indexen en het herstructureren van complexe/gegenereerde sql-scripts, etl-processen van zes tot acht uur naar één minuut kunnen krijgen en queries die 45 tot 48 uur liepen uiteindelijk naar 35 tot veertig minuten kunnen krijgen.

    Advies
    De benodigde data zal steeds meer groeien. Vergeet de aanschaf van allerlei hype software pakketten. Zorg dat je zeer grote, goede, technische, Database-/dbms-expertise in huis haalt om de basis van onderen goed in te richten in de kracht van je aanwezige dbms. Dan komt er tijd en geld vrij (je kan met kleinere systemen uit de voeten omdat de basis goed in elkaar zit) om, na een goede business case en ‘proof of concepts’, de juiste tools te selecteren.

  • 4 Tips om doodbloedende Big Data projecten te voorkomen

    projectmanagers

    Investeren in big data betekent het verschil tussen aantrekken of afstoten van klanten, tussen winst of verlies. Veel retailers zien hun initiatieven op het vlak van data en analytics echter doodbloeden. Hoe creëer je daadwerkelijk waarde uit data en voorkom je een opheffingsuitverkoop? Vier tips.

    Je investeert veel tijd en geld in big data, exact volgens de boodschap die retailgoeroes al enkele jaren verkondigen. Een team van data scientists ontwikkelt complexe datamodellen, die inderdaad interessante inzichten opleveren. Met kleine ‘proofs of value’ constateert u dat die inzichten daadwerkelijk ten gelde kunnen worden gemaakt. Toch gebeurt dat vervolgens niet. Wat is er aan de hand?

    Tip 1: Pas de targets aan

    Dat waardevolle inzichten niet in praktijk worden gebracht, heeft vaak te maken met de targets die uw medewerkers hebben meegekregen. Neem als voorbeeld het versturen van mailingen aan klanten. Op basis van bestaande data en klantprofielen kunnen we goed voorspellen hoe vaak en met welke boodschap elke klant moet worden gemaild. En stiekem weet elke marketeer donders goed dat niet elke klant op een dagelijkse email zit te wachten.

    Toch trapt menigeen in de valkuil en stuurt telkens weer opnieuw een mailing uit naar het hele klantenbestand. Het resultaat: de interesse van een klant ebt snel weg en de boodschap komt niet langer aan. Waarom doen marketeers dat? Omdat ze louter en alleen worden afgerekend op de omzet die ze genereren, niet op de klanttevredenheid die ze realiseren. Dat nodigt uit om iedereen zo vaak mogelijk te mailen. Op korte termijn groeit met elk extra mailtje immers de kans op een verkoop.

    Tip 2: Plaats de analisten in de business

    Steeds weer zetten retailers het team van analisten bij elkaar in een kamer, soms zelfs als onderdeel

    van de IT-afdeling. De afstand tot de mensen uit de business die de inzichten in praktijk moeten brengen, is groot. En te vaak blijkt die afstand onoverbrugbaar. Dat leidt tot misverstanden, onbegrepen analisten en waardevolle inzichten die onbenut blijven.

    Beter is om de analisten samen met de mensen uit de business bij elkaar te zetten in multidisciplinaire teams, die werken met scrum-achtige technieken. Organisaties die succesvol zijn, beseffen dat ze continu in verandering moeten zijn en werken in dat soort teams. Dat betekent dat business managers in een vroegtijdig stadium worden betrokken bij de bouw van datamodellen, zodat analisten en de business van elkaar kunnen leren. Klantkennis zit immers in data én in mensen.

    Tip 3: Neem een business analist in dienst

    Data-analisten halen hun werkplezier vooral uit het maken van fraaie analyses en het opstellen van goede, misschien zelfs overontwikkelde datamodellen. Voor hun voldoening is het vaak niet eens nodig om de inzichten uit die modellen in praktijk te brengen. Veel analisten zijn daarom ook niet goed in het interpreteren van data en het vertalen daarvan naar de concrete impact op de retailer. 

    Het kan verstandig zijn om daarom een business analist in te zetten. Dat is iemand die voldoende affiniteit heeft met analytics en enigszins snapt hoe datamodellen tot stand komen, maar ook weet wat de uitdagingen van de business managers zijn. Hij kan de kloof tussen analytics en business overbruggen door vragen uit de business te concretiseren en door inzichten uit datamodellen te vertalen naar kansen voor de retailer.

    Tip 4: Analytics is een proces, geen project

    Nog te veel retailers kijken naar alle inspanningen op het gebied van data en analytics alsof het een project met een kop en een staart betreft. Een project waarvan vooraf duidelijk moet zijn wat het gaat opleveren. Dat is vooral het geval bij retailorganisaties die worden geleid door managers uit de ‘oude generatie’ die onvoldoende gevoel en affiniteit met de nieuwe wereld hebben Het commitment van deze managers neemt snel af als investeringen in data en analytics niet snel genoeg resultaat opleveren.

    Analytics is echter geen project, maar een proces waarin retailers met vallen en opstaan steeds handiger en slimmer worden. Een proces waarvan de uitkomst vooraf onduidelijk is, maar dat wel moet worden opgestart om vooruit te komen. Want alle ontwikkelingen in de retailmarkt maken één ding duidelijk: stilstand is achteruitgang.

    Auteur: EY, Simon van Ulden, 5 oktober 2016

  • A new quantum approach to big data

    MIT-Quantum-Big-Data 0From gene mapping to space exploration, humanity continues to generate ever-larger sets of data — far more information than people can actually process, manage, or understand.
    Machine learning systems can help researchers deal with this ever-growing flood of information. Some of the most powerful of these analytical tools are based on a strange branch of geometry called topology, which deals with properties that stay the same even when something is bent and stretched every which way.


    Such topological systems are especially useful for analyzing the connections in complex networks, such as the internal wiring of the brain, the U.S. power grid, or the global interconnections of the Internet. But even with the most powerful modern supercomputers, such problems remain daunting and impractical to solve. Now, a new approach that would use quantum computers to streamline these problems has been developed by researchers at MIT, the University of Waterloo, and the University of Southern California.
    The team describes their theoretical proposal this week in the journal Nature Communications. Seth Lloyd, the paper’s lead author and the Nam P. Suh Professor of Mechanical Engineering, explains that algebraic topology is key to the new method. This approach, he says, helps to reduce the impact of the inevitable distortions that arise every time someone collects data about the real world.


    In a topological description, basic features of the data (How many holes does it have? How are the different parts connected?) are considered the same no matter how much they are stretched, compressed, or distorted. Lloyd explains that it is often these fundamental topological attributes “that are important in trying to reconstruct the underlying patterns in the real world that the data are supposed to represent.”


    It doesn’t matter what kind of dataset is being analyzed, he says. The topological approach to looking for connections and holes “works whether it’s an actual physical hole, or the data represents a logical argument and there’s a hole in the argument. This will find both kinds of holes.”
    Using conventional computers, that approach is too demanding for all but the simplest situations. Topological analysis “represents a crucial way of getting at the significant features of the data, but it’s computationally very expensive,” Lloyd says. “This is where quantum mechanics kicks in.” The new quantum-based approach, he says, could exponentially speed up such calculations.


    Lloyd offers an example to illustrate that potential speedup: If you have a dataset with 300 points, a conventional approach to analyzing all the topological features in that system would require “a computer the size of the universe,” he says. That is, it would take 2300 (two to the 300th power) processing units — approximately the number of all the particles in the universe. In other words, the problem is simply not solvable in that way.
    “That’s where our algorithm kicks in,” he says. Solving the same problem with the new system, using a quantum computer, would require just 300 quantum bits — and a device this size may be achieved in the next few years, according to Lloyd.


    “Our algorithm shows that you don’t need a big quantum computer to kick some serious topological butt,” he says.
    There are many important kinds of huge datasets where the quantum-topological approach could be useful, Lloyd says, for example understanding interconnections in the brain. “By applying topological analysis to datasets gleaned by electroencephalography or functional MRI, you can reveal the complex connectivity and topology of the sequences of firing neurons that underlie our thought processes,” he says.


    The same approach could be used for analyzing many other kinds of information. “You could apply it to the world’s economy, or to social networks, or almost any system that involves long-range transport of goods or information,” says Lloyd, who holds a joint appointment as a professor of physics. But the limits of classical computation have prevented such approaches from being applied before.


    While this work is theoretical, “experimentalists have already contacted us about trying prototypes,” he says. “You could find the topology of simple structures on a very simple quantum computer. People are trying proof-of-concept experiments.”


    Ignacio Cirac, a professor at the Max Planck Institute of Quantum Optics in Munich, Germany, who was not involved in this research, calls it “a very original idea, and I think that it has a great potential.” He adds “I guess that it has to be further developed and adapted to particular problems. In any case, I think that this is top-quality research.”
    The team also included Silvano Garnerone of the University of Waterloo in Ontario, Canada, and Paolo Zanardi of the Center for Quantum Information Science and Technology at the University of Southern California. The work was supported by the Army Research Office, Air Force Office of Scientific Research, Defense Advanced Research Projects Agency, Multidisciplinary University Research Initiative of the Office of Naval Research, and the National Science Foundation.

    Source:MIT news

  • A Shortcut Guide to Machine Learning and AI in The Enterprise

    advanced-predictive-proactive-etc-Two-men-fighting

    Predictive analytics / machine learning / artificial intelligence is a hot topic – what’s it about?

    Using algorithms to help make better decisions has been the “next big thing in analytics” for over 25 years. It has been used in key areas such as fraud the entire time. But it’s now become a full-throated mainstream business meme that features in every enterprise software keynote — although the industry is battling with what to call it.

    It appears that terms like Data Mining, Predictive Analytics, and Advanced Analytics are considered too geeky or old for industry marketers and headline writers. The term Cognitive Computing seemed to be poised to win, but IBM’s strong association with the term may have backfired — journalists and analysts want to use language that is independent of any particular company. Currently, the growing consensus seems to be to use Machine Learning when talking about the technology and Artificial Intelligence when talking about the business uses.

    Whatever we call it, it’s generally proposed in two different forms: either as an extension to existing platforms for data analysts; or as new embedded functionality in diverse business applications such as sales lead scoring, marketing optimization, sorting HR resumes, or financial invoice matching.

    Why is it taking off now, and what’s changing?

    Artificial intelligence is now taking off because there’s a lot more data available and affordable, powerful systems to crunch through it all. It’s also much easier to get access to powerful algorithm-based software in the form of open-source products or embedded as a service in enterprise platforms.

    Organizations today have also more comfortable with manipulating business data, with a new generation of business analysts aspiring to become “citizen data scientists.” Enterprises can take their traditional analytics to the next level using these new tools.

    However, we’re now at the “Peak of Inflated Expectations” for these technologies according to Gartner’s Hype Cycle — we will soon see articles pushing back on the more exaggerated claims. Over the next few years, we will find out the limitations of these technologies even as they start bringing real-world benefits.

    What are the longer-term implications?

    First, easier-to-use predictive analytics engines are blurring the gap between “everyday analytics” and the data science team. A “factory” approach to creating, deploying, and maintaining predictive models means data scientists can have greater impact. And sophisticated business users can now access some the power of these algorithms without having to become data scientists themselves.

    Second, every business application will include some predictive functionality, automating any areas where there are “repeatable decisions.” It is hard to think of a business process that could not be improved in this way, with big implications in terms of both efficiency and white-collar employment.

    Third, applications will use these algorithms on themselves to create “self-improving” platforms that get easier to use and more powerful over time (akin to how each new semi-autonomous-driving Tesla car can learn something new and pass it onto the rest of the fleet).

    Fourth, over time, business processes, applications, and workflows may have to be rethought. If algorithms are available as a core part of business platforms, we can provide people with new paths through typical business questions such as “What’s happening now? What do I need to know? What do you recommend? What should I always do? What can I expect to happen? What can I avoid? What do I need to do right now?”

    Fifth, implementing all the above will involve deep and worrying moral questions in terms of data privacy and allowing algorithms to make decisions that affect people and society. There will undoubtedly be many scandals and missteps before the right rules and practices are in place.

    What first steps should companies be taking in this area?
    As usual, the barriers to business benefit are more likely to be cultural than technical.

    Above all, organizations need to make sure they have the right technical expertise to be able to navigate the confusion of new vendors offers, the right business knowledge to know where best to apply them, and the awareness that their technology choices may have unforeseen moral implications.

    Source: timoelliot.com, October 24, 2016

     

  • About how Uber and Netflex turn Big Data into real business value

    client-logo-netflix-logo-png-netflix-logo-png-netflix-logo-qlHSS6-clipart

    From the way we go about our daily lives to the way we treat cancer and protect our society from threats, big data will transform every industry, every aspect of our lives. We can say this with authority because it is already happening.

    Some believe big data is a fad, but they could not be more wrong. The hype will fade, and even the name may disappear, but the implications will resonate and the phenomenon will only gather momentum. What we currently call big data today will simply be the norm in just a few years’ time.

    Big data refers generally to the collection and utilization of large or diverse volumes of data. In my work as a consultant, I work every day with companies and government organizations on big data projects that allow them to collect, store, and analyze the ever-increasing volumes of data to help improve what they do.

    In the course of that work, I’ve seen many companies doing things wrong — and a few getting big data very right, including Netflix and Uber.

    Netflix: Changing the way we watch TV and movies

    The streaming movie and TV service Netflix are said to account for one-third of peak-time Internet traffic in the US, and the service now have 65 million members in over 50 countries enjoying more than 100 million hours of TV shows and movies a day. Data from these millions of subscribers is collected and monitored in an attempt to understand our viewing habits. But Netflix’s data isn’t just “big” in the literal sense. It is the combination of this data with cutting-edge analytical techniques that makes Netflix a true Big Data company.

    Although Big Data is used across every aspect of the Netflix business, their holy grail has always been to predict what customers will enjoy watching. Big Data analytics is the fuel that fires the “recommendation engines” designed to serve this purpose.

    At first, analysts were limited by the lack of information they had on their customers. As soon as streaming became the primary delivery method, many new data points on their customers became accessible. This new data enabled Netflix to build models to predict the perfect storm situation of customers consistently being served with movies they would enjoy.

    Happy customers, after all, are far more likely to continue their subscriptions.

    Another central element to Netflix’s attempt to give us films we will enjoy is tagging. The company pay people to watch movies and then tag them with elements the movies contain. They will then suggest you watch other productions that were tagged similarly to those you enjoyed. 

    Netflix’s letter to shareholders in April 2015 shows their Big Data strategy was paying off. They added 4.9 million new subscribers in Q1 2015, compared to four million in the same period in 2014. In Q1 2015 alone, Netflix members streamed 10 billion hours of content. If Netflix’s Big Data strategy continues to evolve, that number is set to increase.

    Uber: Disrupting car services in the sharing economy

    Uber is a smartphone app-based taxi booking service which connects users who need to get somewhere with drivers willing to give them a ride. 

    Uber’s entire business model is based on the very Big Data principle of crowdsourcing: anyone with a car who is willing to help someone get to where they want to go can offer to help get them there. This gives greater choice for those who live in areas where there is little public transport, and helps to cut the number of cars on our busy streets by pooling journeys.

    Uber stores and monitors data on every journey their users take, and use it to determine demand, allocate resources and set fares. The company also carry out in-depth analysis of public transport networks in the cities they serve, so they can focus coverage in poorly served areas and provide links to buses and trains.

    Uber holds a vast database of drivers in all of the cities they cover, so when a passenger asks for a ride, they can instantly match you with the most suitable drivers. The company have developed algorithms to monitor traffic conditions and journey times in real time, meaning prices can be adjusted as demand for rides changes, and traffic conditions mean journeys are likely to take longer. This encourages more drivers to get behind the wheel when they are needed – and stay at home when demand is low. 

    The company have applied for a patent on this method of Big Data-informed pricing, which they call “surge pricing”. This is an implementation of “dynamic pricing” – similar to that used by hotel chains and airlines to adjust price to meet demand – although rather than simply increasing prices at weekends or during public holidays it uses predictive modelling to estimate demand in real time.

    Data also drives (pardon the pun) the company’s UberPool service. According to Uber’s blog, introducing this service became a no-brainer when their data told them the “vast majority of [Uber trips in New York] have a look-a-like trip – a trip that starts near, ends near and is happening around the same time as another trip”. 

    Other initiatives either trialed or due to launch in the future include UberChopper, offering helicopter rides to the wealthy, Uber-Fresh for grocery deliveries and Uber Rush, a package courier service.

    These are just two companies using Big Data to generate a very real advantage and disrupt their markets in incredible ways. I’ve compiled dozens more examples of Big Data in practice in my new book of the same name, in the hope that it will inspire and motivate more companies to similarly innovate and take their fields into the future. 

    Thank you for reading my post. Here at LinkedIn and at Forbes I regularly write about management, technology and Big Data. If you would like to read my future posts then please click 'Follow' and feel free to also connect via TwitterFacebookSlideshare, and The Advanced Performance Institute.

    You might also be interested in my new and free ebook on Big Data in Practice, which includes 3 Amazing use cases from NASA, Dominos Pizza and the NFL. You can download the ebook from here: Big Data in Practice eBook.

    Author: Bernard Marr

    Source: Linkedin Blog

  • Big data can’t bring objectivity to a subjective world

    justiceIt seems everyone is interested in big data these days. From social scientists to advertisers, professionals from all walks of life are singing the praises of 21st-century data science.
     
    In the social sciences, many scholars apparently believe it will lend their subject a previously elusive objectivity and clarity. Sociology books like An End to the Crisis of Empirical Sociology? and work from bestselling authors are now talking about the superiority of “Dataism” over other ways of understanding humanity. Professionals are stumbling over themselves to line up and proclaim that big data analytics will enable people to finally see themselves clearly through their own fog.
     
    However, when it comes to the social sciences, big data is a false idol. In contrast to its use in the hard sciences, the application of big data to the social, political and economic realms won’t make these area much clearer or more certain.
     
    Yes, it might allow for the processing of a greater volume of raw information, but it will do little or nothing to alter the inherent subjectivity of the concepts used to divide this information into objects and relations. That’s because these concepts — be they the idea of a “war” or even that of an “adult” — are essentially constructs, contrivances liable to change their definitions with every change to the societies and groups who propagate them.
     
    This might not be news to those already familiar with the social sciences, yet there are nonetheless some people who seem to believe that the simple injection of big data into these “sciences” should somehow make them less subjective, if not objective. This was made plain by a recent article published in the September 30 issue of Science.
     
    Authored by researchers from the likes of Virginia Tech and Harvard, “Growing pains for global monitoring of societal events” showed just how off the mark is the assumption that big data will bring exactitude to the large-scale study of civilization.
     
    The systematic recording of masses of data alone won’t be enough to ensure the reproducibility and objectivity of social studies.
    More precisely, it reported on the workings of four systems used to build supposedly comprehensive databases of significant events: Lockheed Martin’s International Crisis Early Warning System (ICEWS), Georgetown University’s Global Data on Events Language and Tone (GDELT), the University of Illinois’ Social, Political, and Economic Event Database (SPEED) and the Gold Standard Report (GSR) maintained by the not-for-profit MITRE Corporation.
     
    Its authors tested the “reliability” of these systems by measuring the extent to which they registered the same protests in Latin America. If they or anyone else were hoping for a high degree of duplication, they were sorely disappointed, because they found that the records of ICEWS and SPEED, for example, overlapped on only 10.3 percent of these protests. Similarly, GDELT and ICEWS hardly ever agreed on the same events, suggesting that, far from offering a complete and authoritative representation of the world, these systems are as partial and fallible as the humans who designed them.
     
    Even more discouraging was the paper’s examination of the “validity” of the four systems. For this test, its authors simply checked whether the reported protests actually occurred. Here, they discovered that 79 percent of GDELT’s recorded events had never happened, and that ICEWS had gone so far as entering the same protests more than once. In both cases, the respective systems had essentially identified occurrences that had never, in fact, occurred.
     
    They had mined troves and troves of news articles with the aim of creating a definitive record of what had happened in Latin America protest-wise, but in the process they’d attributed the concept “protest” to things that — as far as the researchers could tell — weren’t protests.
     
    For the most part, the researchers in question put this unreliability and inaccuracy down to how “Automated systems can misclassify words.” They concluded that the examined systems had an inability to notice when a word they associated with protests was being used in a secondary sense unrelated to political demonstrations. As such, they classified as protests events in which someone “protested” to her neighbor about an overgrown hedge, or in which someone “demonstrated” the latest gadget. They operated according to a set of rules that were much too rigid, and as a result they failed to make the kinds of distinctions we take for granted.
     
    As plausible as this explanation is, it misses the more fundamental reason as to why the systems failed on both the reliability and validity fronts. That is, it misses the fact that definitions of what constitutes a “protest” or any other social event are necessarily fluid and vague. They change from person to person and from society to society. Hence, the systems failed so abjectly to agree on the same protests, since their parameters on what is or isn’t a political demonstration were set differently from each other by their operators.
     
    Make no mistake, the basic reason as to why they were set differently from each other was not because there were various technical flaws in their coding, but because people often differ on social categories. To take a blunt example, what may be the systematic genocide of Armenians for some can be unsystematic wartime killings for others. This is why no amount of fine-tuning would ever make such databases as GDELT and ICEWS significantly less fallible, at least not without going to the extreme step of enforcing a single worldview on the people who engineer them.
     
    It’s unlikely that big data will bring about a fundamental change to the study of people and society.
    Much the same could be said for the systems’ shortcomings in the validity department. While the paper’s authors stated that the fabrication of nonexistent protests was the result of the misclassification of words, and that what’s needed is “more reliable event data,” the deeper issue is the inevitable variation in how people classify these words themselves.
     
    It’s because of this variation that, even if big data researchers make their systems better able to recognize subtleties of meaning, these systems will still produce results with which other researchers find issue. Once again, this is because a system might perform a very good job of classifying newspaper stories according to how one group of people might classify them, but not according to how another would classify them.
     
    In other words, the systematic recording of masses of data alone won’t be enough to ensure the reproducibility and objectivity of social studies, because these studies need to use often controversial social concepts to make their data significant. They use them to organize “raw” data into objects, categories and events, and in doing so they infect even the most “reliable event data” with their partiality and subjectivity.
     
    What’s more, the implications of this weakness extend far beyond the social sciences. There are some, for instance, who think that big data will “revolutionize” advertising and marketing, allowing these two interlinked fields to reach their “ultimate goal: targeting personalized ads to the right person at the right time.” According to figures in the advertising industry “[t]here is a spectacular change occurring,” as masses of data enable firms to profile people and know who they are, down to the smallest preference.
     
    Yet even if big data might enable advertisers to collect more info on any given customer, this won’t remove the need for such info to be interpreted by models, concepts and theories on what people want and why they want it. And because these things are still necessary, and because they’re ultimately informed by the societies and interests out of which they emerge, they maintain the scope for error and disagreement.
     
    Advertisers aren’t the only ones who’ll see certain things (e.g. people, demographics, tastes) that aren’t seen by their peers.
     
    If you ask the likes of Professor Sandy Pentland from MIT, big data will be applied to everything social, and as such will “end up reinventing what it means to have a human society.” Because it provides “information about people’s behavior instead of information about their beliefs,” it will allow us to “really understand the systems that make our technological society” and allow us to “make our future social systems stable and safe.”
     
    That’s a fairly grandiose ambition, yet the possibility of these realizations will be undermined by the inescapable need to conceptualize information about behavior using the very beliefs Pentland hopes to remove from the equation. When it comes to determining what kinds of objects and events his collected data are meant to represent, there will always be the need for us to employ our subjective, biased and partial social constructs.
     
    Consequently, it’s unlikely that big data will bring about a fundamental change to the study of people and society. It will admittedly improve the relative reliability of sociological, political and economic models, yet since these models rest on socially and politically interested theories, this improvement will be a matter of degree rather than kind. The potential for divergence between separate models won’t be erased, and so, no matter how accurate one model becomes relative to the preconceptions that birthed it, there will always remain the likelihood that it will clash with others.
     
    So there’s little chance of a big data revolution in the humanities, only the continued evolution of the field.
  • Big data defeats dengue

    mosquito-aedes-albopictusNumbers have always intrigued Wilson Chua, a big data analyst hailing from Dagupan, Pangasinan and currently residing in Singapore. An accountant by training, he crunches numbers for a living, practically eats them for breakfast, and scans through rows and rows of excel files like a madman.
     
    About 30 years ago, just when computer science was beginning to take off, Wilson stumbled upon the idea of big data. And then he swiftly fell in love. He came across the story of John Snow, the English physician who solved the cholera outbreak in London in 1854, which fascinated him with the idea even further. “You can say he’s one of the first to use data analysis to come out with insight,” he says.
     
    In 1850s-London, everybody thought cholera was airborne. Nobody had any inkling, not one entertained the possibility that the sickness was spread through water. “And so what John Snow did was, he went door to door and made a survey. He plotted the survey scores and out came a cluster that centered around Broad Street in the Soho District of London.
     
    “In the middle of Broad Street was a water pump. Some of you already know the story, but to summarize it even further, he took the lever of the water pump so nobody could extract water from that anymore. The next day,” he pauses for effect, “no cholera.”
     
    The story had stuck with him ever since, but never did he think he could do something similar. For Wilson, it was just amazing how making sense of numbers saved lives.
     
    A litany of data
     
    In 2015 the province of Pangasinan, from where Wilson hails, struggled with rising cases of dengue fever. There were enough dengue infections in the province—2,940 cases were reported in the first nine months of 2015 alone—for it to be considered an epidemic, had Pangasinan chosen to declare it.
     
    Wilson sat comfortably away in Singapore while all this was happening. But when two of his employees caught the bug—he had business interests in Dagupan—the dengue outbreak suddenly became a personal concern. It became his problem to solve.
     
    “I don’t know if Pangasinan had the highest number of dengue cases in the Philippines,” he begins, “but it was my home province so my interests lay there,” he says. He learned from the initial data released by the government that Dagupan had the highest incident of all of Pangasinan. Wilson, remembering John Snow, wanted to dig deeper.
     
    Using his credentials as a technology writer for Manila Bulletin, he wrote the Philippine Integrated Diseases Surveillance and Response team (PIDSR) of the Department of Health, requesting for three years worth of data on Pangasinan.
     
    The DOH acquiesced and sent him back a litany of data on an Excel sheet: 81,000 rows of numbers or around 27,000 rows of data per year. It’s an intimidating number but one “that can fit in a hard disk,” Wilson says.
     
    He then set out to work. Using tools that converted massive data into understandable patterns—graphs, charts, the like—he looked for two things: When dengue infections spiked and where those spikes happened.
     
    “We first determined that dengue was highly related to the rainy season. It struck Pangasinan between August and November,” Wilson narrates. “And then we drilled down the data to uncover the locations, which specific barangays were hardest hit.”
     
    The Bonuan district of the city of Dagupan, which covers the barangays of Bonuan Gueset, Bonuan Boquig, and Bonuan Binloc, accounted for a whopping 29.55 percent—a third of all the cases in Dagupan for the year 2015.
     
    The charts showed that among the 30 barangays, Bonuan Gueset was number 1 in all three years. “It means to me that Bonuan Gueset was the ground zero, the focus of infection.”
     
    But here’s the cool thing: After running the data on analytics, Wilson learned that the PIDS sent more than they had hoped for. They also included the age of those affected. According to the data, dengue in Bonuan was prevalent among school children aged 5-15 years old.
     
    “Now given the background of Aedes aegypti, the dengue-carrying mosquito—they bite after sunrise and a few hours before sunset. So it’s easily to can surmise that the kids were bitten while in school.”
     
    It excited him so much he fired up Google Maps and switched it to satellite image. Starting with Barangay Bonuan Boquig, he looked for places that had schools that had stagnant pools of water nearby. “Lo and behold, we found it,” he says.
     
    Sitting smack in the middle of Lomboy Elementary School and Bonuan Boquig National High School were large pools of stagnant water.
    Like hitting jackpot, Wilson quickly posted his findings on Facebook, hoping someone would take up the information and make something out of it. Two people hit him up immediately: Professor Nicanor Melecio, the project director of the e-Smart Operation Center of Dagupan City Government, and Wesley Rosario, director at the Bureau of Fisheries and Aquatic Resources, a fellow Dagupeño.
     
    A social network
     
    Unbeknownst to Wilson, back in Dagupan, the good professor had been busy, conducting studies on his own. The e-Smart Center, tasked with crisis, flooding, disaster-type of situation, had been looking into the district’s topography vis-a-vis rainfall in Bonuan district. “We wanted to detect the catch basins of the rainfall,” he says, “the elevation of the area, the landscape. Basically, we wanted to know the deeper areas where rainfall could possibly stagnate.”
     
    Like teenage boys, the two excitedly messaged each other on Facebook. “Professor Nick had lieder maps of Dagupan, and when he showed me those, it confirmed that these areas, where we see the stagnant water, during rainfall, are those very areas that would accumulate rainfall without exit points,” Wilson says. With no sewage system, the water just sat there and accumulated.
     
    With Wilson still operating remotely in Singapore, Professor Melecio took it upon himself to do the necessary fieldwork. He went to the sites, scooped up water from the stagnant pools, and confirmed they were infested with kiti-kiti or wriggling mosquito larvae.
     
    Professor Melecio quickly coordinated with Bonuan Boquig Barangay Captain Joseph Maramba to involve the local government of Bonuan Boquig on their plan to conduct vector control measures.
     
    A one-two punch
     
    Back in Singapore, Wilson found inspiration from the Tiger City’s solution to its own mosquito problem. “They used mosquito dunks that contained BTI, the bacteria that infects mosquitoes and kills its eggs,” he says.
     
    He used his own money to buy a few of those dunks, imported them to Dagupan, and on Oct. 6, had his team scatter them around the stagnant pools of Bonuan Boquig. The solution was great, dream-like even, except it had a validity period. Beyond 30 days, the bacteria is useless.
     
    Before he even had a chance to even worry about the solution’s sustainability, BFAR director Wesley Rosario pinged him on Facebook saying the department had 500 mosquito fish for disposal. “Would we want to send somebody to his office, get the fish, and release them into the pools?”
     
    The Gambezi earned its nickname because it eats, among other things, mosquito larvae. In Wilson’s and Wesley’s mind, the mosquito fish can easily make a home out of the stagnant pools and feast on the very many eggs present. When the dry season comes, the fish will be left to die. Except, here’s the catch: mosquito fish is edible.
     
    “The mosquito fish solution was met with a few detractors,” Wilson admits. “There are those who say every time you introduce a new species, it might become invasive. But it’s not really new as it is already endemic to the Philippines. Besides we are releasing them in a landlocked area, so wala namang ibang ma-a-apektuhan.”
     
    The critics, however, were silenced quickly. Four days after deploying the fish, the mosquito larvae were either eaten or dead. Twenty days into the experiment, with the one-two punch of the dunks and the fish, Barangay Boquig reported no new infections of dengue.
     
    “You know, we were really only expecting the infections to drop 50 percent,” Wilson says, rather pleased. More than 30 days into the study and Barangay Bonuan Boquig still has no reports of new cases. “We’re floored,” he added.
     
    At the moment, nearby barangays are already replicating what Wilson, Professor Melecio, and Wesley Rosario have done with Bonuan Boquig. Michelle Lioanag of the non-profit Inner Wheel Club of Dagupan has already taken up the cause to do the same for Bonuan Gueset, the ground zero for dengue in Dagupan.
     
    According to Wilson, what they did in Bonuan Boquig is just a proof of concept, a cheap demonstration of what big data can do. “It was so easy to do,” he said. “Everything went smoothly,” adding all it needed was cooperative and open-minded community leaders who had nothing more than sincere public service in their agenda.
     
    “You know, big data is multi-domain and multi-functional. We can use it for a lot of industries, like traffic for example. I was talking with the country manager of Waze…” he fires off rapidly, excited at what else his big data can solve next.
     
    Source: news.mb.com, November 21, 2016
  • Big Data Experiment Tests Central Banking Assumptions

    centrale bank van nederland(Bloomberg) -- Central bankers may do well to pay less attention to the bond market and their own forecasts than they do to newspaper articles.That’s the somewhat heretical finding of a new algorithm-based index being tested at Norway’s central bank in Oslo. Researchers fed 26 years of news (or 459,745 news articles) from local business daily Dagens Naringsliv into a macroeconomic model to create a “newsy coincident index of business cycles” to help it gauge the state of the economy.

    Leif-Anders Thorsrud, a senior researcher at the bank who started the project while getting his Ph.D. at the Norwegian Business School, says the “hypothesis is quite simple: the more that is written on a subject at a time, the more important the subject could be.”

    He’s already working on a new paper (yet to be published) showing it’s possible to make trades on the information. According to Thorsrud, the work is part of a broader “big data revolution.”

    Big data and algorithms have become buzzwords for hedge funds and researchers looking for an analytical edge when reading economic and political trends. For central bankers, the research could provide precious input to help them steer policy through an unprecedented era of monetary stimulus, with history potentially a serving as a poor guide in predicting outcomes.

    At Norway’s central bank, researchers have found a close correlation between news and economic developments. Their index also gives a day-to-day picture of how the economy is performing, and do so earlier than lagging macroeconomic data.

    But even more importantly, big data can be used to predict where the economy is heading, beating the central bank’s own forecasts by about 10 percent, according to Thorsrud. The index also showed it was a better predictor of the recession in the early 2000s than market indicators such as stocks or bonds.

    The central bank has hired machines, which pore daily through articles from Dagens Naringsliv and divide current affairs into topics and into words with either positive or negative connotations. The data is then fed into a macroeconomic model employed by the central bank, which spits out a proxy of GDP.

    Thorsrud says the results of the index are definitely “policy relevant,” though it’s up to the operative policy makers whether they will start using the information. Other central bank such as the Bank of England are looking at similar tools, he said.

    While still in an experimental stage, the bank has set aside more resources to continue the research, Thorsrud said. “In time this could be a useful in the operative part of the bank.”

    Bron: Informatie Management
  • Big Data gaat onze zorg verbeteren

    Hij is een man met een missie. En geen geringe: hij wil samen met patiënten, de zorgverleners en verzekeraars een omslag in de gezondheidszorg bewerkstelligen, waarbij de focus verlegd wordt van het managen van ziekte naar het managen van gezondheid. Jeroen Tas, CEO Philips Connected Care & Health Informatics, over de toekomst van de zorg.

    big-data-healthcare-2Wat is er mis met het huidige systeem?

    “In de ontwikkelde wereld wordt gemiddeld 80 procent van het budget voor zorg besteed aan het behandelen van chronische ziektes, zoals hart- en vaatziektes, longziektes, diabetes en verschillende vormen van kanker. Slechts 3 procent van dat budget wordt besteed aan preventie, aan het voorkomen van die ziektes. Terwijl we weten dat 80 procent van hart- en vaatziekten, 90 procent van diabetes type 2 en 50 procent van kanker te voorkomen zijn. Daarbij spelen sociaaleconomische factoren mee, maar ook voeding, wel of niet roken en drinken, hoeveel beweging je dagelijks krijgt en of je medicatie goed gebruikt. We sturen dus met het huidige systeem lang niet altijd op op de juiste drivers om de gezondheid van mensen te bevorderen en hun leven daarmee beter te maken. 50 procent van de patiënten neemt hun medicatie niet of niet op tijd in. Daar liggen mogelijkheden voor verbetering.”

    Dat systeem bestaat al jaren - waarom is het juist nu een probleem?
    “De redenen zijn denk ik alom bekend. In veel landen, waaronder Nederland, vergrijst de bevolking en neemt daarmee het aantal chronisch zieken toe, en dus ook de druk op de zorg. Daarbij verandert ook de houding van de burger ten aanzien van zorg: beter toegankelijk, geïntegreerd en 24/7, dat zijn de grote wensen. Tot slot nemen de technologische mogelijkheden sterk toe. Mensen kunnen en willen steeds vaker zelf actieve rol spelen in hun gezondheid: zelfmeting, persoonlijke informatie en terugkoppeling over voortgang. Met Big Data zijn we nu voor het eerst in staat om grote hoeveelheden data snel te analyseren, om daarin patronen te ontdekken en meer te weten te komen over ziektes voorspellen en voorkomen. Kortom, we leven in een tijd waarin er binnen korte tijd heel veel kan en gaat veranderen. Dan is het belangrijk om op de juiste koers te sturen.”

    Wat moet er volgens jou veranderen?
    “De zorg is nog steeds ingericht rond (acute) gebeurtenissen. Gezondheid is echter een continu proces en begint met gezond leven en preventie. Als mensen toch ziek worden, volgt er diagnose en behandeling. Vervolgens worden mensen beter, maar hebben ze misschien nog wel thuis ondersteuning nodig. En hoop je dat ze weer verder gaan met gezond leven. Als verslechtering optreedt is tijdige interventie wenselijk. De focus van ons huidige systeem ligt vrijwel volledig op diagnose en behandeling. Daarop is ook het vergoedingssysteem gericht: een radioloog wordt niet afgerekend op zijn bijdrage aan de behandeling van een patiënt maar op de hoeveelheid beelden die hij maakt en beoordeelt. Terwijl we weten dat er heel veel winst in termen van tijd, welzijn en geld te behalen valt als we juist meer op gezond leven en preventie focussen. 

    Er moeten ook veel meer verbanden komen tussen de verschillende pijlers in het systeem en terugkoppeling over de effectiviteit van diagnose en behandeling. Dat kan bijvoorbeeld door het delen van informatie te stimuleren. Als een cardioloog meer gegevens heeft over de thuissituatie van een patiënt, bijvoorbeeld over hoe hij zijn medicatie inneemt, eet en beweegt, dan kan hij een veel beter behandelplan opstellen, toegesneden op de specifieke situatie van de patiënt. Als de thuiszorg na behandeling van die patiënt ook de beschikking heeft over zijn data, weet men waarop er extra gelet moet worden voor optimaal herstel. En last maar zeker not least, de patiënt moet ook over die data beschikken, om zo gezond mogelijk te blijven. Zo ontstaat een patiëntgericht systeem gericht op een optimale gezondheid.”

    Dat klinkt heel logisch. Waarom gebeurt het dan nog niet?
    “Alle verandering is lastig – en zeker verandering in een sector als de zorg, die om begrijpelijke redenen conservatief is en waarin er complexe processen spelen. Het is geen kwestie van technologie: alle technologie die we nodig hebben om de omslag tot stand te brengen, is er. We hebben sensoren om data automatisch te generen, die in de omgeving van de patiënt kunnen worden geïnstalleerd, die hij kan dragen – denk aan een Smarthorloge – en die zelfs in zijn lichaam kunnen zitten, in het geval van slimme geneesmiddelen. Daarmee komt de mens centraal te staan in het systeem, en dat is waar we naartoe willen.
    Er moet een zorgnetwork om ieder persoon komen, waarin onderling data wordt gedeeld ten behoeve van de persoonlijke gezondheid. Dankzij de technologie kunnen veel behandelingen ook op afstand gebeuren, via eHealth oplossingen. Dat is veelal sneller en vooral efficiënter dan mensen standaard doorsturen naar het ziekenhuis. Denk aan thuismonitoring, een draagbaar echo apparaat bij de huisarts of beeldbellen met een zorgverlener. We kunnen overigens al hartslag, ademhaling en SPo2 meten van een videobeeld. 

    De technologie is er. We moeten het alleen nog combineren, integreren en vooral: implementeren. Implementatie hangt af van de bereidheid van alle betrokkenen om het juiste vergoedingsstelsel en samenwerkingsverband te vinden: overheid, zorgverzekeraars, ziekenhuis, artsen, zorgverleners en de patiënt zelf. Daarover ben ik overigens wel positief gestemd: ik zie de houding langzaam maar zeker veranderen. Er is steeds meer bereidheid om te veranderen.”

    Is die bereidheid de enige beperkende factor?
    “We moeten ook een aantal zaken regelen op het gebied van data. Data moet zonder belemmeringen kunnen worden uitgewisseld, zodat alle gegevens van een patiënt altijd en overal beschikbaar zijn. Dat betekent uiteraard ook dat we ervoor moeten zorgen dat die gegevens goed beveiligd zijn. We moeten ervoor zorgen dat we dat blijvend kunnen garanderen. En tot slot moeten we werken aan het vertrouwen dat nodig is om gegevens te standaardiseren en te delen, bij zorgverleners en vooral bij de patiënt.Dat klinkt heel zwaar en ingewikkeld maar we hebben het eerder gedaan. Als iemand je twintig jaar geleden had verteld dat je via internet al je bankzaken zou regelen, zou je hem voor gek hebben versleten: veel te onveilig. Inmiddels doen we vrijwel niet anders.
    De shift in de zorg nu vraagt net als de shift in de financiële wereld toen om een andere mindset. De urgentie is er, de technologie is er, de bereidheid ook steeds meer – daarom zie ik de toekomst van de zorg heel positief in.”

     Bron: NRC
  • Business Intelligence Trends for 2017

    businessintelligence 5829945be5abcAnalyst and consulting firm, Business Application Research Centre (BARC), has come out with the top BI trends based on a survey carried out on 2800 BI professionals. Compared to last year, there were no significant changes in the ranking of the importance of BI trends, indicating that no major market shifts or disruptions are expected to impact this sector.
     
    With the growing advancement and disruptions in IT, the eight meta trends that influence and affect the strategies, investments and operations of enterprises, worldwide, are Digitalization, Consumerization, Agility, Security, Analytics, Cloud, Mobile and Artificial Intelligence. All these meta trends are major drivers for the growing demand for data management, business intelligence and analytics (BI). Their growth would also specify the trend for this industry.The top three trends out of 21 trends for 2017 were:
    • Data discovery and visualization,
    • Self-service BI and
    • Data quality and master data management
    • Data labs and data science, cloud BI and data as a product were the least important trends for 2017.
    Data discovery and visualization, along with predictive analytics, are some of the most desired BI functions that users want in a self-service mode. But the report suggested that organizations should also have an underlying tool and data governance framework to ensure control over data.
     
    In 2016, BI was majorly used in the finance department followed by management and sales and there was a very slight variation in their usage rates in that last 3 years. But, there was a surge in BI usage in production and operations departments which grew from 20% in 2008 to 53% in 2016.
     
    "While BI has always been strong in sales and finance, production and operations departments have traditionally been more cautious about adopting it,” says Carsten Bange, CEO of BARC. “But with the general trend for using data to support decision-making, this has all changed. Technology for areas such as event processing and real-time data integration and visualization has become more widely available in recent years. Also, the wave of big data from the Internet of Things and the Industrial Internet has increased awareness and demand for analytics, and will likely continue to drive further BI usage in production and operations."
     
    Customer analysis was the #1 investment area for new BI projects with 40% respondents investing their BI budgets on customer behavior analysis and 32% on developing a unified view of customers.
    • “With areas such as accounting and finance more or less under control, companies are moving to other areas of the enterprise, in particular to gain a better understanding of customer, market and competitive dynamics,” said Carsten Bange.
    • Many BI trends in the past, have become critical BI components in the present.
    • Many organizations were also considering trends like collaboration and sensor data analysis as critical BI components. About 20% respondents were already using BI trends like collaboration and spatial/location analysis.
    • About 12% were using cloud BI and more were planning to employ it in the future. IBM's Watson and Salesforce's Einstein are gearing to meet this growth.
    • Only 10% of the respondents used social media analysis.
    • Sensor data analysis is also growing driven by the huge volumes of data generated by the millions of IoT devices being used by telecom, utilities and transportation industries. According to the survey, in 2017, the transport and telecoms industries would lead the leveraging of sensor data.
    The biggest new investments in BI are planned in the manufacturing and utilities industries in 2017.
     
    Source: readitquick.com, November 14, 2016
  • Data Science implementeren is geen ‘Prutsen en Pielen zonder pottenkijkers’

    Belastingdienst

    Van fouten bij de Belastingdienst kunnen we veel leren

    De belastingdienst verkeert opnieuw in zwaar weer. Na de negatieve berichtgeving in 2016 was in Zembla te zien hoe de belastingdienst invulling gaf aan Data Analytics. De broedkamer waarin dat gebeurde stond intern bekend als domein om te 'prutsen en pielen zonder pottenkijkers'.

    Wetgeving met voeten getreden

    Een overheidsdienst die privacy- en aanbestedingswetgeving met voeten treedt staat natuurlijk garant voor tumult en kijkcijfers. En terecht natuurlijk. Vanuit oorzaak en gevolg denken is het echter de vraag of die wetsovertredingen nou wel het meest interessant zijn. Want hoe kon het gebeuren dat een stel whizzkids in datatechnologie onder begeleiding van een extern bureau (Accenture) in een ‘kraamkamer’ werden gezet. En zo, apart van de gehele organisatie, een vrijbrief kregen voor…….Ja voor wat eigenlijk?

    Onder leiding van de directeur van de belastingdienst Hans Blokpoel is er een groot data en analytics team gestart. Missie: alle bij de belastingdienst bekende gegevens te combineren, om zo efficiënter te kunnen werken, fraude te kunnen detecteren en meer belastingopbrengsten te genereren. En zo dus waarde voor de Belastingdienst te genereren. Dit lijkt op een data science strategie. Maar wist de belastingdienst wel echt waar ze mee bezig was? Vacatureteksten die werden gebruikt om data scientists te werven spreken van ‘prutsen en pielen zonder pottenkijkers’.

    De klacht van Zembla is dat het team het niveau van ‘prutsen en pielen’ feitelijk niet ontsteeg. Fysieke beveiliging, authenticatie en autorisatie waren onvoldoende. Het was onmogelijk te zien wie bij de financiële gegevens van 11 miljoen burgers en 2 miljoen bedrijven geweest was, en of deze gedownload of gehackt waren. Er is letterlijk niet aan de wetgeving voldaan.

    Problemen met data science

    Wat bij de Belastingdienst misgaat gebeurt bij heel erg veel bedrijven en organisaties. Een directeur, manager of bestuurder zet data en analytics in om (letterlijk?) slimmer te zijn dan de rest. Geïsoleerd van de rest van de organisatie worden slimme jongens en meisjes zonder restricties aan de slag gezet met data. Uit alle experimenten en probeersels komen op den duur aardige resultaten. Resultaten die de belofte van de 'data driven organisatie' mogelijk moeten maken.

    De case van de belastingdienst maakt helaas eens te meer duidelijk dat er voor een 'data driven organisatie' veel meer nodig is dan de vaardigheid om data te verzamelen en te analyseren. Tot waarde brengen van data vergt visie (een data science strategie), een organisatiewijze die daarop aansluit (de ene data scientist is de andere niet) maar ook kennis van de restricties. Daarmee vraagt het om een cultuur waarin privacy en veiligheid gewaarborgd worden. Voor een adequate invulling van de genoemde elementen heb je een groot deel van de ‘oude’ organisatie nodig alsmede een adequate inbedding van de nieuwe eenheid of funct

    ie.

    Strategie en verwachtingen

    Data science schept verwachtingen. Meer belastinginkomsten met minder kosten, hogere omzet of minder fraude. Efficiency in operatie maar ook effectiviteit in klanttevredenheid. Inzicht in (toekomstige) marktontwikkelingen. Dit zijn hoge verwachtingen. Implementatie van data science vraagt echter ook om investeringen. Stevige investeringen in technologie en hoogopgeleide mensen. Schaarse mensen bovendien met kennis van IT, statistiek, onderzoeksmethodologie etc. Hoge verwachtingen die gepaard gaan met stevige investeringen leiden snel tot teleurstellingen. Teleurstellingen leiden tot druk. Druk leidt niet zelden tot het opzoeken van grenzen. En het opzoeken van grenzen leidt tot problemen. De functie van een strategie is deze dynamiek te voorkomen.

    Het managen van de verhouding tussen verwachtingen en investeringen begint bij een data science strategie. Een antwoord op de vraag: Wat willen we in welke volgorde volgens welke tijdspanne met de implementatie van data science bereiken? Gaan we de huidige processen optimaliseren (business executie strategie) of transformeren (business transformatie strategie)? Of moet het data science team nieuwe wijzen van werken faciliteren (enabling strategie)? Deze vragen zou een organisatie zichzelf moeten stellen alvorens met data science te beginnen. Een helder antwoord op de strategie vraag stuurt de governance (waar moeten we op letten? Wat kan er fout gaan?) maar ook de verwachtingen. Bovendien weten we dan wie er bij de nieuwe functie moet worden betrokken en wie zeker niet.

     

    Governance en excessen

    Want naast een data science strategie vraag adequate governance om een organisatie die in staat is om domeinkennis en expertise uit het veld te kunnen combineren met data. Dat vereist het in kunnen schatten van 'wat kan' en 'wat niet'. En daarvoor heb je een groot deel van de 'oude' organisatie nodig. Lukt dat, dan is de 'data driven organisatie' een feit. Lukt het niet dan kun je wachten op brokken. In dit geval dus een mogelijke blootstelling van alle financiele data van alle 11 miljoen belastingplichtige burgers en 2 miljoen bedrijven. Een branchevreemde data scientist is als een kernfysicus die in experimenten exotische (en daarmee ook potentieel gevaarlijke) toepassingen verzint. Wanneer een organisatie niet stuurt op de doelstellingen en dus data science strategie dan neemt de kans op excessen toe.

     

    Data science is veelmeer dan technologie

    Ervaringsdeskundigen weten al lang dat data science veelmeer is dat het toepassen van moderne technologie op grote hoeveelheden data. Er zijn een aantal belangrijke voorwaarden voor succes. In de eerste plaats gaat het om een visie op hoe data en data technologie tot waarde kunnen worden gebracht. Vervolgens gaat het om de vraag hoe je deze visie organisatorisch wilt realiseren. Pas dan ontstaat een kader waarin data en technologie gericht kunnen worden ingezet. Zo kunnen excessen worden voorkomen en wordt waarde gecreëerd voor de organisatie. Precies deze stappen lijken bij de Belastingdienst te zijn overgeslagen.

     

    Zembla

    De door Zembla belichtte overtreding van wetgeving is natuurlijk een stuk spannender. Vanuit het credo ‘voorkomen is beter dan genezen’ blijft het jammer dat het goed toepassen van data science in organisaties in de uitzending is onderbelicht.

     

    Bron: Business Data Science Leergang Radboud Management Academy http://www.ru.nl/rma/leergangen/bds/

    Auteurs: Alex Aalberts / Egbert Philips

  • Exploring the risks of artificial intelligence

    shutterstock 117756049“Science has not yet mastered prophecy. We predict too much for the next year and yet far too little for the next ten.”

    These words, articulated by Neil Armstrong at a speech to a joint session of Congress in 1969, fit squarely into most every decade since the turn of the century, and it seems to safe to posit that the rate of change in technology has accelerated to an exponential degree in the last two decades, especially in the areas of artificial intelligence and machine learning.

    Artificial intelligence is making an extreme entrance into almost every facet of society in predicted and unforeseen ways, causing both excitement and trepidation. This reaction alone is predictable, but can we really predict the associated risks involved?

    It seems we’re all trying to get a grip on potential reality, but information overload (yet another side affect that we’re struggling to deal with in our digital world) can ironically make constructing an informed opinion more challenging than ever. In the search for some semblance of truth, it can help to turn to those in the trenches.

    In my continued interview with over 30 artificial intelligence researchers, I asked what they considered to be the most likely risk of artificial intelligence in the next 20 years.

    Some results from the survey, shown in the graphic below, included 33 responses from different AI/cognitive science researchers. (For the complete collection of interviews, and more information on all of our 40+ respondents, visit the original interactive infographic here on TechEmergence).

    Two “greatest” risks bubbled to the top of the response pool (and the majority are not in the autonomous robots’ camp, though a few do fall into this one). According to this particular set of minds, the most pressing short- and long-term risks is the financial and economic harm that may be wrought, as well as mismanagement of AI by human beings.

    Dr. Joscha Bach of the MIT Media Lab and Harvard Program for Evolutionary Dynamics summed up the larger picture this way:

    “The risks brought about by near-term AI may turn out to be the same risks that are already inherent in our society. Automation through AI will increase productivity, but won’t improve our living conditions if we don’t move away from a labor/wage based economy. It may also speed up pollution and resource exhaustion, if we don’t manage to install meaningful regulations. Even in the long run, making AI safe for humanity may turn out to be the same as making our society safe for humanity.”

    Essentially, the introduction of AI may act as a catalyst that exposes and speeds up the imperfections already present in our society. Without a conscious and collaborative plan to move forward, we expose society to a range of risks, from bigger gaps in wealth distribution to negative environmental effects.

    Leaps in AI are already being made in the area of workplace automation and machine learning capabilities are quickly extending to our energy and other enterprise applications, including mobile and automotive. The next industrial revolution may be the last one that humans usher in by their own direct doing, with AI as a future collaborator and – dare we say – a potential leader.

    Some researchers believe it’s a matter of when and not if. In Dr. Nils Nilsson’s words, a professor emeritus at Stanford University, “Machines will be singing the song, ‘Anything you can do, I can do better; I can do anything better than you’.”

    In respect to the drastic changes that lie ahead for the employment market due to increasingly autonomous systems, Dr. Helgi Helgason says, “it’s more of a certainty than a risk and we should already be factoring this into education policies.”

    Talks at the World Economic Forum Annual Meeting in Switzerland this past January, where the topic of the economic disruption brought about by AI was clearly a main course, indicate that global leaders are starting to plan how to integrate these technologies and adapt our world economies accordingly – but this is a tall order with many cooks in the kitchen.

    Another commonly expressed risk over the next two decades is the general mismanagement of AI. It’s no secret that those in the business of AI have concerns, as evidenced by the $1 billion investment made by some of Silicon Valley’s top tech gurus to support OpenAI, a non-profit research group with a focus on exploring the positive human impact of AI technologies.

    “It’s hard to fathom how much human-level AI could benefit society, and it’s equally hard to imagine how much it could damage society if built or used incorrectly,” is the parallel message posted on OpenAI’s launch page from December 2015. How we approach the development and management of AI has far-reaching consequences, and shapes future society’s moral and ethical paradigm.

    Philippe Pasquier, an associate professor at Simon Fraser University, said “As we deploy more and give more responsibilities to artificial agents, risks of malfunction that have negative consequences are increasing,” though he likewise states that he does not believe AI poses a high risk to society on its own.

    With great responsibility comes great power, and how we monitor this power is of major concern.

    Dr. Pei Wang of Temple University sees major risk in “neglecting the limitations and restrictions of hot techniques like deep learning and reinforcement learning. It can happen in many domains.” Dr. Peter Voss, founder of SmartAction, expressed similar sentiments, stating that he most fears “ignorant humans subverting the power and intelligence of AI.”

    Thinking about the risks associated with emerging AI technology is hard work, engineering potential solutions and safeguards is harder work, and collaborating globally on implementation and monitoring of initiatives is the hardest work of all. But considering all that’s at stake, I would place all my bets on the table and argue that the effort is worth the risk many times over.

    Source: Tech Crunch

  • Five Mistakes That Can Kill Analytics Projects

    Launching an effective digital analytics strategy is a must-do to understand your customers. But many organizations are still trying to figure out how to get business values from expensive analytics programs. Here are 5 common analytics mistakes that can kill any predictive analytics effort.

    Why predictive analytics projects fail

    failure of analytics

    Predictive Analytics is becoming the next big buzzword in the industry. But according to Mike Le, co-founder and chief operating officer at CB/I Digital in New York, implementing an effective digital analytics strategy has proven to be very challenging for many organizations. “First, the knowledge and expertise required to setup and analyze digital analytics programs is complicated,” Le notes. “Second, the investment for the tools and such required expertise could be high. Third, many clients see unclear returns from such analytics programs. Learning to avoid common analytics mistakes will help you save a lot of resources to focus on core metrics and factors that can drive your business ahead.” Here are 5 common mistakes that Le says cause many predictive analytics projects to fail.

    Mistake 1: Starting digital analytics without a goal

    “The first challenge of digital analytics is knowing what metrics to track, and what value to get out of them,” Le says. “As a result, we see too many web businesses that don’t have basic conversion tracking setup, or can’t link the business results with the factors that drive those results. This problem happens because these companies don’t set a specific goal for their analytics. When you do not know what to ask, you cannot know what you'll get. The purpose of analytics is to understand and to optimize. Every analytics program should answer specific business questions and concerns. If your goal is to maximize online sales, naturally you’ll want to track the order volume, cost-per-order, conversion rate and average order value. If you want to optimize your digital product, you’ll want to track how users are interact with your product, the usage frequency and the churn rate of people leaving the site. When you know your goal, the path becomes clear.”

    Mistake 2: Ignoring core metrics to chase noise

    “When you have advanced analytics tools and strong computational power, it’s tempting to capture every data point possible to ‘get a better understanding’ and ‘make the most of the tool,’” Le explains. “However, following too many metrics may dilute your focus on the core metrics that reveal the pressing needs of the business. I've seen digital campaigns that fail to convert new users, but the managers still setup advanced tracking programs to understand user 

    behaviors in order to serve them better. When you cannot acquire new users, your targeting could be wrong, your messaging could be wrong or there is even no market for your product - those problems are much bigger to solve than trying to understand your user engagement. Therefore, it would be a waste of time and resources to chase fancy data and insights while the fundamental metrics are overlooked. Make sure you always stay focus on the most important business metrics before looking broader.”

    Mistake 3: Choosing overkill analytics tools

    “When selecting analytics tools, many clients tend to believe that more advanced and expensive tools can give deeper insights and solve their problems better,” Le says. “Advanced analytics tools may offer more sophisticated analytic capabilities over some fundamental tracking tools. But whether your business needs all those capabilities is a different story. That's why the decision to select an analytics tool should be based on your analytics goals and business needs, not by how advanced the tools are. There’s no need to invest a lot of money on big analytics tools and a team of experts for an analytics program while some advanced features of free tools like Google Analytics can already give you the answers you need.”

    Mistake 4: Creating beautiful reports with little business value

    “Many times you see reports that simply present a bunch of numbers exported from tools, or state some ‘insights’ that has little relevance to the business goal,” Le notes. “This problem is so common in the analytics world, because a lot of people create reports for the sake of reporting. They don’t think about why those reports should exist, what questions they answer and how those reports can add value to the business. Any report must be created to answer a business concern. Any metrics that do not help answer business questions should be left out. Making sense of data is hard. Asking right questions early will

    help.”

    Mistake 5: Failing to detect tracking errors

    “Tracking errors can be devastating to businesses, because they produce unreliable data and misleading analysis,” Le cautions. “But many companies do not have the skills to setup tracking properly, and worse, to detect tracking issues when they happen. There are many things that can go wrong, such as a developer mistakenly removing the tracking pixels, transferring incorrect values, the tracking code firing unstably or multiple times, wrong tracking rule's logic, etc. The difference could be so subtle that the reports look normal, or are only wrong in certain scenarios. Tracking errors easily go undetected because it takes a mix of marketing and tech skills. Marketing teams usually don’t understand how tracking works, and development teams often don’t know what ‘correct’ means. To tackle this problem, you should frequently check your data accuracy and look for unusual signs in reports. Analysts should take an extra step to learn the technical aspect of tracking, so they can better sense the problems and raise smart questions for the technical team when the data looks suspicious.”

    Author: Mike Le

    Source: Information Management

  • Harnessing the value of Big Data

    big dataTo stay competitive and grow in today’s market, it becomes necessary for organizations to closely correlate both internal and external data, and draw meaningful insights out of it.

    During the last decade a tremendous amount of data has been produced by internal and external sources in the form of structured, semi-structured and unstructured data. These are large quantities of human or machine generated data produced by heterogeneous sources like social media, field devices, call centers, enterprise applications, point of sale etc., in the form of text, image, video, PDF and more.

    The “Volume”, “Varity” and “Velocity” of data have posed a big challenge to the enterprise. The evolution of “Big Data” technology has been a boon to the enterprise towards effective management of large volumes of structured and unstructured data. Big data analytics is expected to correlate this data and draw meaningful insights out of it.

    However, it has been seen that, a siloed big data initiative has failed to provide ROI to the enterprise. A large volume of unstructured data can be more a burden than a benefit. That is the reason that several organizations struggle to turn data into dollars.

    On the other hand, an immature MDM program limits an organization’s ability to extract meaningful insights from big data. It is therefore of utmost importance for the organization to improve the maturity of the MDM program to harness the value of big data.

    MDM helps towards the effective management of master information coming from big data sources, by standardizing and storing in a central repository that is accessible to business units.

    MDM and Big Data are closely coupled applications complementing each other. There are many ways in which MDM can enhance big data applications, and vice versa. These two types of data pertain to the context offered by big data and the trust provided by master data.

    MDM and big data – A matched pair

    At first hand, it appears that MDM and big data are two mutually exclusive systems with a degree of mismatch. Enterprise MDM initiative is all about solving business issues and improving data trustworthiness through the effective and seamless integration of master information with business processes. Its intent is to create a central trusted repository of structured master information accessible by enterprise applications.

    The big data system deals with large volumes of data coming in unstructured or semi-structured format from heterogeneous sources like social media, field devises, log files and machine generated data.  The big data initiative is intended to support specific analytics tasks within a given span of time after that it is taken down. In Figure 1 we see the characteristics of MDM and big data.  

     

    MDM

    Big Data

    Business Objective

      Provides a single version of trust of Master and Reference information.

      Acts as a system of record / system of reference for enterprise.

      Provides cutting edge analytics and offer a competitive advantage

    Volume of Data and Growth

      Deals with Master Data sets which are smaller in volume

      Grow with relatively slower rate.

      Deal with enormous large volumes of data, so large that current databases struggle to handle it.

      The growth of Big Data is very fast.

    Nature of Data

      Permanent and long lasting

      Ephemeral in nature; disposable if not useful.

    Types of Data (Structure and Data Model)

      It is more towards containing structured data in a definite format with a pre-defined data model.

      Majority of Big Data is either semi-structured or unstructured, lacking in a fixed data model.

    Source of Data

      Oriented around internal enterprise centric data.

      Platform to integrate the data coming from multiple internal and external sources including social media, cloud, mobile, machine generated data etc.

    Orientation

      Supports both analytical and operational environment.

      Fully analytical oriented

    Despite apparent differences there are many ways in which MDM and big data complement each other.

    Big data offers context to MDM

    Big data can act as an external source of master information for the MDM hub and can help enrich internal Master Data in the context of the external world.  MDM can help aggregate the required and useful information coming from big data sources with  internal master records.

    An aggregated view and profile of master information can help  link the customer correctly and in turn help perform effective analytics and campaign. MDM can act as a hub between the system of records and system of engagement.

    However, not all data coming from big data sources will be relevant for MDM. There should be a mechanism to process the unstructured data and distinguish the relevant master information and the associated context. NoSQL offering, Natural Language Processing, and other semantic technologies can be leveraged towards distilling the relevant master information from a pool of unstructured/semi-structured data.

    MDM offers trust to big data

    MDM brings a single integrated view of master and reference information with unique representations for an enterprise. An organization can leverage MDM system to gauge the trustworthiness of data coming from big data sources.

    Dimensional data residing in the MDM system can be leveraged towards linking the facts of big data. Another way is to leverage the MDM data model backbone (optimized for entity resolution) and governance processes to bind big data facts.

    The other MDM processes like data cleansing, standardization, matching and duplicate suspect processing can be additionally leveraged towards increasing the uniqueness and trustworthiness of big data.

    MDM system can support big data by:

    • Holding the “attribute level” data coming from big data sources e.g. social media Ids, alias, device Id, IP address etc.
    • Maintaining the code and mapping of reference information. 
    • Extracting and maintaining the context of transactional data like comments, remarks, conversations, social profile and status etc. 
    • Facilitating entity resolution.
    • Maintaining unique, cleansed golden master records
    • Managing the hierarchies and structure of the information along with linkages and traceability. E.g. linkages of existing customer with his/her Facebook id linked-in Id, blog alias etc.
    • MDM for big data analytics – Key considerations

    Traditional MDM implementation, in many cases, is not sufficient to accommodate big data sources. There is a need for the next generation MDM system to incorporate master information coming from big data systems. An organization needs to take the following points into consideration while defining Next Gen MDM for big data:

    Redefine information strategy and topology

    The overall information strategy needs to get reviewed and redefined in the context of big data and MDM. The impact of changes in topology needs to get accessed thoroughly. It is necessary to define the linkages between these two systems (MDM and big data), and how they operate with internal and external data. For example, the data coming from social media needs to get linked with internal customer and prospect data to provide an integrated view at the enterprise level.

    Information strategy should address following:

    Integration point between MDM and big data - How big data and MDM systems are going to interact with each other.
    Management of master data from different sources - How the master data from internal and external sources is going to be managed.
     Definition and classification of master data - How the master data coming from big data sources gets defined and classified.
    Process of unstructured and semi-structured master data - How master data from big data sources in the form of unstructured and semi-structured data is going to be processed.
    Usage of master data - How the MDM environment are going to support big data analytics and other enterprise applications.

    Revise data architecture and strategy

    The overall data architecture and strategy needs to be revised to accommodate changes with respect to the big data. The MDM data model needs to get enhanced to accommodate big data specific master attributes. For example the data model should accommodate social media and / or IoT specific attributes such as social media Ids, aliases, contacts, preferences, hierarchies, device Ids, device locations, on-off period etc. Data strategy should get defined towards effective storage and management of internal and external master data.

    The revised data architecture strategy should ensure that:

    • The MDM data model accommodates all big data specific master attributes
    • The local and global master data attributes should get classified and managed as per the business needs
    • The data model should have necessary provision to interlink the external (big data specifics) and internal master data elements. The necessary provisions should be made to accommodate code tables and reference data.

     Define advanced data governance and stewardship

     A significant amount of challenges are associated towards governing Master Data coming from big data sources because of the unstructured nature and data flowing from various external sources. The organization needs to define advance policy, processes and stewardship structure that enable big data specifics governance.

    Data governance process for MDM should ensure that:

    Right level of data security, privacy and confidentiality to be maintained for customer and other confidential master data.
    Right level of data integrity to be maintained between internal master data and master data from big data sources. 
    Right level of linkages between reference data and master data to exist.
    Policies and processes need to be redefined/enhanced to support big data and related business transformation rules and control access for data sharing and distribution, establishing the ongoing monitoring and measurement mechanisms and change.
    A dedicated group of big data stewards available for master data review, monitoring and conflict management.

    Enhance integration architecture

     The data integration architecture needs to be enhanced to accommodate the master data coming from big data sources. The MDM hub should have the right level of integration capabilities to integrate with big data using Ids, reference keys and other unique identifiers.

    The unstructured, semi-structured and multi-structured data will get parsed using big data parser in the form of logical data objects. This data will get processed further, matched, merged and get loaded with the appropriate master information to the MDM hub.

    The enhanced integration architecture should ensure that:

    The MDM environment has the ability to parse, transform and integrate the data coming from the big data platform.
    The MDM environment has the intelligence built to analyze the relevance of master data coming from big data environment, and accept or reject accordingly.

    Enhance match and merge engine

     MDM system should enhance the “Match & Merge” engine so that master information coming from big data sources can correctly be identified and integrated into the MDM hub. A blend of probabilistic and deterministic matching algorithm can be adopted.

    For example, the successful identification of the social profile of existing customers and making it interlinked with existing data in the MDM hub. The context of data quality will be more around the information utility for the consumer of the data than objective “quality”.

    The enhanced match and merge engine should ensure that:

    • The master data coming from big data sources get effectively matched with internal data residing in the MDM Hub.
    • The “Duplicate Suspect” master records get identified and processed effectively.
    • The engine should recommend the “Accept”, “Reject”, “Merge” or “Split” of the master records coming from big data sources.

     

    In this competitive era, organizations are striving hard to retain their customers.  It is of utmost importance for an enterprise to keep a global view of customers and understand their needs, preferences and expectations.

    Big data analytics coupled with MDM backbone is going to offer the cutting edge advantage to enterprise towards managing the customer-centric functions and increasing profitability. However, the pairing of MDM and big data is not free of complications. The enterprise needs to work diligently on the interface points so to best harness these two technologies.

    Traditional MDM systems needs to get enhanced to accommodate the information coming from big data sources, and draw a meaningful context. The big data system should leverage MDM backbone to interlink data and draw meaningful insights.

    Bron: Information Management, 2017, Sunjay Kumar

  • Hoe werkt augmented intelligence?

    artificial-intelligenceComputers en apparaten die met ons meedenken zijn al lang geen sciencefiction meer. Artificial intelligence (AI) is terug te vinden in wasmachines die hun programma aanpassen aan de hoeveelheid was en computerspellen die zich aanpassen aan het niveau van de spelers. Hoe kunnen computers mensen helpen slimmer te beslissen? Deze uitgebreide whitepaper beschrijft welke modellen in het analyseplatform HPE IDOL worden toegepast.

    Mathematische modellen zorgen voor menselijke maat

    Processors kunnen in een oogwenk een berekening uitvoeren waar mensen weken tot maanden mee bezig zouden zijn. Daarom zijn computers betere schakers dan mensen, maar slechter in poker waarin de menselijke maat een grotere rol speelt. Hoe zorgt een zoek- en analyseplatform ervoor dat er meer ‘mens’ in de analyse terechtkomt? Dat wordt gerealiseerd door gebruik te maken van verschillende mathematische modellen.

    Analyses voor tekst, geluid, beeld en gezichten

    De kunst is om uit data actiegerichte informatie te verkrijgen. Dat lukt door patroonherkenning in te zetten op verschillende datasets. Daarnaast spelen classificatie, clustering en analyse een grote rol bij het verkrijgen van de juiste inzichten. Niet alleen teksten worden geanalyseerd, steeds vaker worden ook geluidsbestanden en beelden, objecten en gezichten geanalyseerd.

    Artificial intelligence helpt de mens

    De whitepaper beschrijft uitvoerig hoe patronen worden gevonden in tekst, audio en beelden. Hoe snapt een computer dat de video die hij analyseert over een mens gaat? Hoe wordt van platte beelden een geometrisch 3d-beeld gemaakt en hoe beslist een computer wat hij ziet? Denk bijvoorbeeld aan een geautomatiseerd seintje naar de controlekamer als het te druk is op een tribune of een file ontstaat. Hoe helpen theoretische modellen computers als mensen waarnemen en onze beslissingen ondersteunen? Dat en meer leest u in de whitepaper Augmented intelligence Helping humans make smarter decisions. Zie hiervoor AnalyticsToday

    Analyticstoday.nl, 12 oktober 2016

  • How Nike And Under Armour Became Big Data Businesses

    960x0Like the Yankees vs the Mets, Arsenal vs Tottenham, or Michigan vs Ohio State, Nike and Under Armour are some of the biggest rivals in sports.
     
    But the ways in which they compete — and will ultimately win or lose — are changing.
     
    Nike and Under Armour are both companies selling physical sports apparel and accessories products, yet both are investing heavily in apps, wearables, and big data.  Both are looking to go beyond physical products and create lifestyle brands athletes don’t want to run without.
     
    Nike
     
    Nike is the world leader in multiple athletic shoe categories and holds an overall leadership position in the global sports apparel market. It also boasts a strong commitment to technology, in design, manufacturing, marketing, and retailing.
     
    It has 13 different lines, in more than 180 countries, but how it segments and serves those markets is its real differentiator. Nike calls it “category offense,” and divides the world into sporting endeavors rather than just geography. The theory is that people who play golf, for example, have more in common than people who simply happen to live near one another.
     
    And that philosophy has worked, with sales reportedly rising more than 70% since the company shifted to this strategy in 2008. This retail and marketing strategy is largely driven by big data.
     
    Another place the company has invested big in data is with wearables and technology.  Although it discontinued its own FuelBand fitness wearable in 2014, Nike continues to integrate with many other brands of wearables including Apple which has recently announced the Apple Watch Nike+.How Nike And Under Armour Became Big Data Businesses
     
    But the company clearly has big plans for its big data as well. In a 2015 call with investors about Nike’s partnership with the NBA, Nike CEO Mark Parker said, “I’ve talked with commissioner Adam Silver about our role enriching the fan experience. What can we do to digitally connect the fan to the action they see on the court? How can we learn more about the athlete, real-time?”
     
    Under Armour
     
    Upstart Under Armour is betting heavily that big data will help it overtake Nike. The company has recently invested $710 million in acquiring three fitness app companies, including MyFitnessPal, and their combined community of more than 120 million athletes — and their data.
     
    While it’s clear that both Under Armour and Nike see themselves as lifestyle brands more than simply apparel brands, the question is how this shift will play out.
     
    Under Armour CEO Kevin Plank has explained that, along with a partnership with a wearables company, these acquisitions will drive a strategy that puts Under Armour directly in the path of where big data is headed: wearable tech that goes way beyond watches
     
    In the not-too-distant future, wearables won’t just refer to bracelets or sensors you clip on your shoes, but rather apparel with sensors built in that can report more data more accurately about your movements, your performance, your route and location, and more.
     
    “At the end of the day we kept coming back to the same thing. This will help drive our core business,” Plank said in a call with investors. “Brands that do not evolve and offer the consumer something more than a product will be hard-pressed to compete in 2015 and beyond.”
     
    The company plans to provide a full suite of activity and nutritional tracking and expertise in order to help athletes improve, with the assumption that athletes who are improving buy more gear.
     
    If it has any chance of unseating Nike, Under Armour has to innovate, and that seems to be exactly where this company is planning to go. But it will have to connect its data to its innovations lab and ultimately to the products it sells for this investment to pay off.
     
     
    Source: forbes.com, November 15, 2016
  • Kunstmatige intelligentie leert autorijden met GTA

    Zelfrijdende auto toekomst-geschiedenis

    Wie ooit Grand Theft Auto (GTA) heeft gespeeld, weet dat de game niet is gemaakt om je aan de regels te houden. Toch kan GTA volgens onderzoekers van de Technische Universiteit Darmstadt een kunstmatige intelligentie helpen om te leren door het verkeer te rijden. Dat schrijft het universiteitsmagazine van MIT, Technology Review.

    Onderzoekers gebruiken het spel daarom ook om algoritmes te leren hoe ze zich in het verkeer moeten gedragen. Volgens de universiteit is de realistische wereld van computerspelletjes zoals GTA heel erg geschikt om de echte wereld beter te begrijpen. Virtuele werelden worden al gebruikt om data aan algoritmes te geven, maar door games te gebruiken hoeven die werelden niet specifiek gecreëerd te worden.

    Het leren rijden in Grand Theft Auto werkt ongeveer gelijk als in de echte wereld. Voor zelfrijdende auto’s worden objecten en mensen, zoals voetgangers, gelabeld. Die labels kunnen aan het algoritme, waardoor die in staat is om in zowel de echte wereld als de videogame onderscheid te maken tussen verschillende voorwerpen of medeweggebruikers.

    Het is niet de eerste keer dat kunstmatige intelligentie wordt ingezet om computerspelletjes te spelen. Zo werkte onderzoekers al aan een slimme Mario en wordt Minecraft voor eenzelfde doeleinde gebruikt als GTA. Microsoft gebruikt de virtuele wereld namelijk om personages te leren hoe ze zich door de omgeving moeten manoeuvreren. De kennis die wordt opgedaan kan later gebruikt worden om robots in de echte wereld soortgelijke obstakels te laten overwinnen.

    Bron: numrush.nl, 12 september 2016

     

  • Lessons From The U.S. Election On Big Data And Algorithms

    The failure to accurately predict the outcome of the elections has caused some backlash against big data and algorithms. This is misguided. The real issue is failure to build unbiased models that will identify trends that do not fit neatly into our present understanding. This is one of the most urgent challenges for big data, advanced analytics and algorithms.  When speaking with retailers on this subject I focus on two important considerations.  The first is that convergence of what we believe to be true and what is actually true is getting smaller.

    things-you-know-300x179

    This is because people, consumers, have more personal control than ever before.  They source opinions from the web, social media, groups and associations that in the past where not available to them.  For retailers this is critical because the historical view that the merchandising or marketing group holds about consumers is likely growing increasingly out of date.  Yet well meaning business people performing these tasks continue to disregard indicators and repeat the same actions.  Before consumers had so many options this was not a huge problem since change happened more slowly.  Today if you fail to catch a trend there are tens or hundreds of other companies out there ready to capitalize on the opportunity.  While it is difficult to accept, business people must learn a new skill, leveraging analytics to improve their instincts.

    The second is closely related to the first but with an important distinction; go where the data leads. I describe this as the KISS that connects big data to decisions.
    The KISS is about extracting knowledge, testing innovations, developing strategies, and doing all this at high speed. The KISS is what allows the organization to safely travel down the path of discovery – going where the data leads – without falling down a rabbit hole.
    KISS1-300x164
    Getting back to the election prognosticators, there were a few that did identify the trend.  They were repeatedly laughed at and disregarded. This is the foundation of the problem, organizations must foster environments where new ideas are embraced and safely explored.  This is how we will grow the convergence of things we know. 
     
    Source: Gartner, November 10, 2016
  • Localization uses Big Data to Drive Big Business

    There’s growing interest in using big data for business localization now, although the use of customer data for optimal orientation of busi

    localization

    ness locations and promotions has been around for at least a decade.

    There’s growing interest in using big data for business localization now, although the use of customer data for optimal orientation of business locations and promotions has been around for at least a decade.

    In 2006, the Harvard Business Review declared the endof big-box retail standardization in favor of catering to customers’ local and regional tastes, fostering innovation, and – not incidentally – making it harder for competitors to copy their store formats by changing up the one-size-fits-all approach. A decade later, analytics are affordable for businesses of all sizes, giving smaller players in a variety of industries the ability to localize as well.

    An example of early localization of items sold comes from Macy’s. Executive search firm Caldwell Partners describes the department-store chain’s vast localization project, which began in the mid-2000s to differentiate store inventories for customer preferences, beginning in markets such as Miami, Columbus, and Atlanta. This strategy has helped Macy’s remain profitable despite ongoing major declines in department-store sales in recent years.

    Localization for stronger consumer appeal, better product offerings

    In hospitality, hotel chains now use localization strategies to compete with locally owned boutique hotels and with Airbnb rentals that promise a “live like a local” experience.

    Visual News reports that Millennials’ tastes and preferences are driving this trend. These younger travel enthusiasts want a unique experience at each destination, even if they’re staying in properties owned by the same hotel brand.

    Hospitality Technology notes that today’s customer profile data gives hotel chains a “360 degree view of customer spending behavior across industries, channels, and over time,” for more precise location orientation and targeted marketing.

    In fact, any consumer-facing business can benefit from using local-market data. GIS firm ESRI has described how individual bank branches can orient their loan offerings to match the needs and risk profiles of customers in the immediate area. Other elements that can be localized to suit area customers’ tastes and spending power include product prices, menu items, location hours, staffing levels, décor, and product displays.

    Localization for more effective marketing

    Outside the store itself, localization is a powerful tool for improving the return on marketing. By using detailed data about local customer behavior, retailers, restaurants and other businesses can move from overly broad promotions to segmented offers that closely align with each segment’s preferences.

    In some cases, this type of marketing localization can reduce expenses (for example, by lowering the total number of direct-mail pieces required for a campaign) while generating higher redemption rates.

    Localization of marketing efforts goes beyond cost savings to the establishment of customer loyalty and competitive advantage. Study after study shows that consumers expect and respond well to offers based on their preferences, but companies have been slow to provide what customers want.

    An international study reported by Retailing Today in June found that 78% of consumers make repeat purchases when they receive a personalized promotion, and 74% buy something new. Despite this, the study found that less than 30% of the companies surveyed were investing heavily in personalization.

    A similar 2015 study focusing on North American consumers, described by eMarketer, found that more than half of the consumers surveyed wanted promotions tailored to their product preferences, age range, personal style, and geographic location. That study found that although 71% of the regional retailers in the survey say they localize and personalize promotional emails, half the consumers said they got promotional emails that didn’t align with their preferences.

    Clearly, there’s room for improvement in the execution of localized marketing, and businesses that get it right will have an advantage with customers whose expectations are going unmet right now.

    Smart localization and orientation involve understanding the available data and knowing how to use it in cost-effective ways to give customers the information they want. It also involves rethinking the way businesses and consumers interact, and the role geography plays in business.

    Localization and careful audience targeting may be the keys to business survival. A 2013 Forrester report proclaimed that in the digital age, “the only sustainable competitive advantage is knowledge of and engagement with customers.”

    With so much power of choice in the hands of consumers, it’s up to retailers, restaurants and other businesses to earn their loyalty by delivering what they want in real time, no matter where they’re located.

    Author: Charles Hogan

    Charles Hogan is co-founder and CEO at Tranzlogic. He has over 20 years of experience in fintech, data analytics, retail services and payment processing industries. Follow on twitter @Tranzlogic)

  • Noord-Nederland bundelt krachten in unieke opleiding Data Science

    HanzeHogeschool logo-300x169Op 7 maart start de opleiding Data Science in Noord-Nederland. Om de al maar groeiende hoeveelheid data te managen leidt IT Academy Noord-Nederland professionals uit het Noorden op tot data scientist. Met geaccrediteerde vakken van de Hanzehogeschool Groningen en de Rijksuniversiteit Groningen slaat de opleiding een brug tussen toegepast en wetenschappelijk onderwijs. De opleiding is opgezet in samenwerking met het bedrijfsleven.

    Er liggen steeds meer kansen voor bedrijven en instellingen om met enorme hoeveelheden data op innovatieve wijze nieuwe producten en diensten aan te bieden. Hoe kunnen bedrijven omgaan met deze data en hoe zit het met privacy en het eigendom van data? Het verzamelen van data is stap één, maar het kunnen ordenen en analyseren creëert waarde. Een bekend voorbeeld is Uber die door het gebruik van Big Data een compleet nieuw (disruptive) business model voor de vervoerssector heeft gecreëerd.


    De vraag naar data scientists neemt toe. De opleiding Data Science is de eerste van zijn soort in Noord-Nederland. Het RDW speelde met haar data-intensieve bedrijfsvoering en roep om een opleiding op het gebied van Big Data een cruciale rol in de ontwikkelfase van de opleiding. Om het programma met de juiste elementen te laden bundelde de IT Academy de krachten van de Hanzehogeschool en de RUG. Hoogleraren en docenten van beide instellingen zullen delen van het programma verzorgen. Daarnaast zorgen gastsprekers van andere kennisinstellingen en het bedrijfsleven voor casuïstiek uit de praktijk om de opgedane kennis gelijk toe te passen.

    IT Academy Noord-Nederland
    IT Academy Noord-Nederland biedt state-of-the-art onderwijs, doet onderzoek door middel van open samenwerking tussen bedrijven, kennisinstellingen en organisaties om zo in Noord-Nederland het innovatief vermogen te versterken, werkgelegenheid in ICT te stimuleren en een aantrekkelijke landingsplaats voor talent te zijn. IT Academy Noord-Nederland is een initiatief van de Hanzehogeschool Groningen, Rijksuniversiteit, Samenwerking Noord en IBM Client Innovation Center.

    Source: Groninger krant

  • Predictive modelling in Market Intelligence is hot

    IRCMSTR14533 Global Predictive Analytics Market 500x457

    Market intelligence is nog steeds een functie in bedrijven die onderbelicht is. Hoe vaak hebben bedrijven accuraat en actueel in beeld hoe groot hun markt precies is? En of deze groeit of krimp vertoont?

    B2C bedrijven kunnen tegen aanzienlijke bedragen nog dure rapporten kopen bij de informatiemakelaars van deze wereld. En als ze dan het geluk hebben dat voor hen relevante segmentaties zijn gebruikt kan dat inderdaad wat opleveren. B2B bedrijven hebben een veel grotere uitdaging. Markt data is doorgaans niet commercieel beschikbaar en zal moeten worden geproduceerd (al dan niet met behulp van B2C data). Waarmee markt data voor deze bedrijven eigenlijk nog duurder wordt.

    Bovenstaande discussie gaat bovendien nog slechts om data over de marktomvang en –waarde. De basis zou je kunnen zeggen. Data over concurrenten, marktaandelen, productontwikkelingen en marktbepalende trends is minstens zo relevant om een goede koers te kunnen bepalen maar ook tactische (inkoop, pricing, distributie) beslissingen te kunnen nemen.

    Toch zijn er mogelijkheden! Ook met behulp van schaarse data is het mogelijk marktdata te gaan reconstrueren. Het uitgangspunt: Als we op zoek gaan in die markten waar we wel data hebben naar voorspellende variabelen dan kunnen andere marktdata wellicht worden ‘benaderd’ of ‘geschat’. Een vorm van statistische reconstructie van marktdata die vaak betrouwbaarder blijkt dat dan die van surveys of expert panels. Meer en meer wordt deze techniek toegepast in market intelligence. Dus ook in dit vakgebied doet data science haar intrede.

    Als dit gemeengoed is, is de stap naar het voorspellen van markten natuurlijk niet ver meer weg. Meer en meer wordt die vraag natuurlijk gesteld. Kunnen we ook in kaart brengen hoe de markt er over 5 of misschien zelfs 10 jaar uitziet? Dit kan! En de kwaliteit van die voorspellingen neemt toe. En daarmee het gebruik. Market intelligence wordt er alleen maar leuker van! En het spel om de knikkers natuurlijk alleen maar interessanter.

    Source: Hammer, market intelligence

    http://www.hammer-intel.com

     

     

  • SAS Academy for Data Science in september van start in Nederland

    downloadVoor toekomstige en praktiserende data scientists zijn er weinig mogelijkheden om officiële papieren te halen voor hun werkveld. SAS introduceert daarom de SAS Academy for Data Science. Voor Europese deelnemers gaat deze opleiding in september van start in Nederland. In het programma van de SAS Academy for Data Science wordt kennisontwikkeling voor technologieën als big data, advanced analytics en machine learning gecombineerd met essentiële communicatieve vaardigheden voor data scientists.

    “De sleutel om concurrentievoordeel te behalen uit de enorme hoeveelheden data zijn analytics en de mensen die ermee kunnen werken”, vertelt Pascal Lubbe, Manager Education bij SAS. “De Academy for Data Science biedt kansen aan professionals die starten op dit gebied of hun capaciteiten verder willen ontwikkelen. Ook kunnen bedrijven een speciaal in-house programma laten ontwikkelen voor hun medewerkers. De studenten werken voor de opleiding met SAS-software, maar zijn bij het afronden van de opleiding breed gekwalificeerd als data scientist.”

    De tracks van de SAS Academy for Data Science bestaan uit verschillende elementen; een klassikale instructie, een hands-on case of team project, certificeringsexamens en coaching. Iedere track neemt zes weken in beslag. Door de examens succesvol af te leggen kunnen studenten een of twee diploma’s behalen: SAS Certified Big Data Professional en/of SAS Certified Data Scientist.

    Krachtige mix

    De SAS Academy for Data Science onderscheidt zich door de krachtige mix van praktische ervaring met analytics, computing, statistics en zakelijke kennis en presentatievaardigheden. De lessen worden geleid door experts, begeleid door een coach en studenten krijgen de beschikking tot de SAS-omgeving.

    De opleiding kent twee levels: in het eerste level worden studenten opgeleid om de ‘SAS Certified Big Data Professional credential’ te behalen. Ze leren hoe ze big data kunnen beheren en opschonen en de data te visualiseren met SAS en Hadoop. Level 2 is de opleiding tot gecertificeerd SAS Data Scientist, met predictive modeling, machine learning, segmentatie en text analytics. Ook wordt ingegaan hoe SAS samenwerkt met open source programmeertalen. En minstens zo belangrijk: studenten leren hoe ze met onmisbare communicatieve capaciteiten betekenis geven aan data voor stakeholders.

    Analytics-talent

    “SAS is bijna 40 jaar actief in het data science-vakgebied waarbij we telkens hebben ingespeeld op de behoeften van klanten. Nu vragen onze klanten om analytics-talent”, zegt Jim Goodnight, CEO van SAS. “Werkgevers vertrouwen gecertificeerde SAS-professionals niet alleen voor het beheren en analyseren van de data, maar ook om de betekenis en gevolgen voor de business te begrijpen. Door de analyseresultaten duidelijk te communiceren kunnen betere beslissingen genomen worden.”

    Source: Emerce

  • The Top 5 Trends in Big Data for 2017

    Last year the big data market centered squarely on technology around the Hadoop ecosystem. Since then, it’s been all about ‘putting big data to work’ thro

    top 5ugh use cases shown to generate ROI from increased revenue and productivity and lower risk.

    Now, big data continues its march beyond the crater. Next year we can expect to see more mainstream companies adopting big data and IoT, with traditionally conservative and skeptic organizations starting to take the plunge.

    Data blending will be more important compared to a few years ago when we were just getting started with Hadoop. The combination of social data, mobile apps, CRM records and purchase histories via advanced analytics platforms allow marketers a glimpse into the future by bringing hidden patterns and valuable insights on current and future buying behaviors into light.

    The spread of self-service data analytics, along with widespread adoption of the cloud and Hadoop, are creating industry-wide change that businesses will either take advantage of or ignore at their peril. The reality is that the tools are still emerging, and the promise of the (Hadoop) platform is not at the level it needs to be for business to rely on it.

    As we move forward, there will be five key trends shaping the world of big -Data:

    The Internet of Things (IoT)

    Businesses are increasingly looking to derive value from all data; large industrial companies that make, move, sell and support physical things are plugging sensors attached to their ‘things’ into the Internet. Organizations will have to adapt technologies to map with IoT data. This presents countless new challenges and opportunities in the areas of data governance, standards, health and safety, security and supply chain, to name a few.

    IoT and big data are two sides of the same coin; billions of internet-connected 'things' will generate massive amounts of data. However, that in itself won't usher in another industrial revolution, transform day-to-day digital living, or deliver a planet-saving early warning system. Data from outside the device is the way enterprises can differentiate themselves. Capturing and analyzing this type of data in context can unlock new possibilities for businesses.

    Research has indicated that predictive maintenance can generate savings of up to 12 percent over scheduled repairs, leading to a 30 percent reduction in maintenance costs and a 70 percent cut in downtime from equipment breakdowns. For a manufacturing plant or a transport company, achieving these results from data-driven decisions can add up to significant operational improvements and savings opportunities.

    Deep Learning

    Deep learning, a set of machine-learning techniques based on neural networking, is still evolving, but shows great potential for solving business problems. It enables computers to recognize items of interest in large quantities of unstructured and binary data, and to deduce relationships without needing specific models or programming instructions.

    These algorithms are largely motivated by the field of artificial intelligence, which has the general goal of emulating the human brain’s ability to observe, analyze, learn, and make decisions, especially for extremely complex problems. A key concept underlying deep learning methods is distributed representations of the data, in which a large number of possible configurations of the abstract features of the input data are feasible, allowing for a compact representation of each sample and leading to a richer generalization.

    Deep learning is primarily useful for learning from large amounts of unlabeled/unsupervised data, making it attractive for extracting meaningful representations and patterns from Big Data. For example, it could be used to recognize many different kinds of data, such as the shapes, colors and objects in a video — or even the presence of a cat within images, as a neural network built by Google famously did in 2012.

    As a result, the enterprise will likely see more attention placed on semi-supervised or unsupervised training algorithms to handle the large influx of data.

    In-Memory Analytics

    Unlike conventional business intelligence (BI) software that runs queries against data stored on server hard drives, in-memory technology queries information loaded into RAM, which can significantly accelerate analytical performance by reducing or even eliminating disk I/O bottlenecks. With big data, it is the availability of terabyte systems and massive parallel processing that makes in-memory more interesting.

    At this stage of the game, big data analytics is really about discovery. Running iterations to see correlations between data points doesn't happen without millisec

    onds of latency, multiplied by millions/billions of iterations. Working in memory is at three orders of magnitude faster than going to disk.

    In 2014, Gartner coined the term HTAP - Hybrid Transaction/Analytic Processing, to describe a new technology that allows transactions and analytic processing to reside in the same in-memory database. It allows application leaders to innovate via greater situation awareness and improved business agility, however entails an upheaval in the established architectures, technologies and skills driven by use of in-memory computing technologies as enablers.

    Many businesses are already leveraging hybrid transaction/analytical processing (HTAP); for example, retailers are able to quickly identify items that are trending as bestsellers within the past hour and immediately create customized offers for that item.

    But there’s a lot of hype around HTAP, and businesses have been overusing it. For systems where the user needs to see the same data in the same way many times during the day, and there’s no significant change in the data, in-memory is a waste of money. And while you can perform analytics faster with HTAP, all of the transactions must reside within the same database. The problem is, that most analytics efforts today are about putting transactions from many different systems together.

    It’s all on Cloud

    Hybrid and public cloud services continue to rise in popularity, with investors claiming their stakes. The key to big data success is in running the (Hadoop) platform on an elastic infrastructure.

    We will see the convergence of data storage and analytics, resulting in new smarter storage systems that will be optimized for storing, managing and sorting massive petabytes of data sets. Going forward, we can expect to see the cloud-based big data ecosystem continue its momentum in the overall market at more than just the “early adopter” margin.

    Companies want a platform that allows them to scale, something that cannot be delivered through a heavy investment on a data center that is frozen in time. For example, the Human Genome Project started as a gigabyte-scale project but quickly got into terabyte and petabyte scale. Some of the leading enterprises have already begun to split workloads in a bi-modal fashion and run some data workloads in the cloud. Many expect this to accelerate strongly as these solutions move further along the adoption cycle.

     

    There is a big emphasis on APIs to unlock data and capabilities in a reusable way, with many companies looking to run their APIs in the cloud and in the data center. On-premises APIs offer a seamless way to unlock legacy systems and connect them with cloud applications, which is crucial for businesses that want to make a cloud-first strategy a reality.

    More businesses will run their APIs in the cloud, providing elasticity to better cope with spikes in demand and make efficient connections, enabling them to adopt and innovate faster than competition.

    Apache Spark

    Apache Spark is lighting up big data. The popular Apache Spark project provides Spark Streaming to handle processing in near real time through a mostly in-memory, micro-batching approach. It has moved from being a component of the Hadoop ecosystem to the big data platform of choice for a number of enterprises.

    Now the largest big data open source project, Spark provides dramatically increased data processing speed compared to Hadoop, and as a result, is much more natural, mathematical, and convenient for programmers. It provides an efficient, general-purpose framework for parallel execution.

    Spark Streaming, which is the prime part of Spark, is used to stream large chunks of data with help from the core by breaking the large data into smaller packets and then transforming them, thereby accelerating the creation of the RDD. This is very useful in today’s world where data analysis often requires the resources of a fleet of machines working together.

    However, it’s important to note that Spark is meant to enhance, not replace, the Hadoop stack. In order to gain even greater value from big data, companies consider using Hadoop and Spark together for better analytics and storage capabilities.

    Increasingly sophisticated big data demands means the pressure to innovate will remain high. If they haven’t already, businesses will begin to see that cus

    tomer success is a data job. Companies that are not capitalizing on data analytics will start to go out of business, with successful enterprises realizing that the key to growth is data refinement and predictive analytics.

    Information Management, 2016; Brad Chivukala

  • Tips for Creating a Winning Data Scientist Team

    Finding the right mix of support to do more with your data is no easy task. Data scientist teamData scientists remain in high-demand, and fetch top dollar. Here are some tips on how to assemble a winning team.

    So much data, so little time

    Organizations continue to struggle with how to get more out of their data. “It’s not a new challenge, but the problem is only exacerbated as more data is exchanged and created at petabyte scale,” confirms Dermot O’Connor, cofounder and vice president at Boxever. “The proliferation of data and the pressure for organizations to turn data into business value has increased demand for data science professionals.” Approximately 10 percent of the workforce at Boxever is data scientists, and O’Connor shared his views on how to best assemble a data science team.

    Seeking the ‘total package’

    “When a company seeks to hire a data scientist, it's typically seeking someone with skills in advanced programming and statistical analysis, along with expertise in a particular industry segment,” O’Connor explains. “The need is great, and the skills gap is widening: A study by McKinsey predicts that ‘by 2018, the U.S. alone may face a 50 percent to 60 percent gap between supply and requisite demand of deep analytic talent.’ Good data scientists are often referred to as ‘unicorns’ because it is so rare to find professionals who possess all the right skills to meet today’s requirements.”

    Still the top job in America

    “As the ‘top job in America in 2016,’ data scientists don’t come cheap,” O'Connor confirms. “How can today’s organizations harness the brains behind data science to get the most out of their investment, whether in talent or technology? Here are some things to consider when building your data science team…”

    Data science is a team sport

    “There are many facets to creating successful data science teams in a practical, operational sense,” O’Connor says. “It’s rare to hire just one or two on staff, so remember that for data scientists as much as any other role, strength comes in numbers.”

    Outsource to innovate

    “If you do the math, a team of seasoned data scientists – let’s say only five – will cost you well over $1 million annually in fixed costs,” O’Connor notes. “And like many in IT functions, they’re likely to be pulled in many directions. Having a dedicated resource to optimize your systems with networks getting increasingly smarter with every interaction via machine learning is one way to ensure that projects are efficient while blending technology platform costs with the costs for data science talent that drives them.”

    Balance functional and strategic tasks

    “Part of the reason data scientists are so in demand is because they have concrete skills in predictive analytics that others – in IT and business roles – lack,” O’Connor explains. “That being said, you’ll need sufficient talent and resources to both write and maintain software and algorithms while also gathering insights from internal teams and customers to customize and optimize the logic behind them.”

    Set data scientists up for success with the right data management systems

    “High volume, omni-channel systems are very complex – and time consuming – to manage,” says O’Connor. “Having a hub where data at the individual customer level is aggregated helps set the foundation for data scientists to really shine. Finding ways to automate processes so that the right data is available on demand will make any data scientist’s life easier and will make more possible under their strategic guidance.”

    Expect to ‘see inside the black box’ of AI

    “A data scientist should be tasked with explaining the process of machine learning and artificial intel

    ligence in layman’s terms to bring in others into their realm throughout the enterprise,” O’Connor explains. “This is essential for gathering insights that make predictions stronger and actions more focused by design. And as marketers take on greater oversight of data, it’s important that CMOs and other decision-makers find complementary talent and technology to help them see the big picture to explore all that’s possible with their data.”

    Bron: Information Management, 2016

  • Van Business Intelligence naar Data Science

    691283Organisaties die al jaren ervaring hebben met de inzet van datawarehouses en Business Intelligence gaan steeds vaker Data Science-toepassingen ontwikkelen. Dat is logisch, want data heeft een impact op iedere organisatie; van retailer, reisorganisatie en financiële instelling tot ziekenhuis. Er wordt zelfs beweerd dat we momenteel in een vierde industriële revolutie zijn aanbeland, waarbij data als productiefactor is toegevoegd aan het lijstje mensen, kapitaal en grondstoffen. Hoe verhouden BI en Data Science zich tot elkaar en op welke manier maak je als BI-organisatie de stap naar Data Science-toepassingen?


    Algoritmes en Data
    Big Data is in een aantal jaar razendsnel opgekomen. Inmiddels zijn we van de Big Data-hype terechtgekomen in een tijd waarin het juist gaat over het voorspellen, de tijd van Data Science, waarin machine learning, artificial intelligence en deep learning een steeds grotere rol spelen. We komen terecht in een wereld waarin singularity, het moment waarop systemen intelligenter zijn dan de mens, steeds dichterbij komt. Of we dit punt ooit zullen bereiken weet niemand, wat er zal gebeuren op dat moment is nog onzekerder. Maar wat wel een feit is, is dat de wereld om ons heen steeds meer gedomineerd wordt door algoritmes en data. 
    Hadoop heeft met zijn andere manier om data op te slaan en doorzoekbaar te maken een cruciale rol gespeeld in de Big Data-revolutie. Door de toegenomen rekenkracht en de afgenomen kosten van opslagcapaciteit is het tegenwoordig mogelijk om vrijwel onbeperkte hoeveelheden data op te slaan en beschikbaar te maken, waardoor data en technologie steeds minder een belemmering zijn voor innovatie.

    Data en Technologie
    Innoveren met data draait vanzelfsprekend om data en om technologie, maar deze komen steeds meer en gemakkelijker beschikbaar. Denk aan bijvoorbeeld de opkomst van open source technologie, waardoor je de technologie kan zoeken bij de toepassing. Dit was vroeger wel anders, toen waren het de grote organisaties die zich een licentie op dure software konden veroorloven om concurrentievoordeel mee op te bouwen. Open source is natuurlijk niet gratis, maar de kosten groeien lineair naarmate je een technologie meer gebruikt en niet zoals bij licensed producten, exponentieel.

    Verdwijnt Business Intelligence?
    Zowel Business Intelligence als Data Science draaien om slim gebruik van data. Business intelligence zorgt voor rapportages, zoals financiële rapporten, die een accuraat beeld schetsen van wat er heeft plaatsgevonden. Bij Data Science draait het om vooruitkijken met het vergroten van bedrijfswaarde als doel. Vanwege het experimentele karakter van Data Science hoeven uitkomsten niet altijd raak te zijn.  
    In de praktijk dragen dashboards, visualisaties en rapporten vaak bij aan de bewustwording over de waarde van data. Het is niet ongebruikelijk dat een directie een visie en strategie gericht op datagedreven toepassingen gaat ontwikkelen op basis van datavisualisaties en dashboards. 

    Voldoen bestaande organisatiestructuren nog wel?
    Organisaties die aan de slag gaan met datagedreven toepassingen doen er goed aan hun organisatie eens goed onder de loep te nemen. Innoveren draait niet om het schrijven van een Project Initiation Document (oftewel PID), maar om het simpelweg starten. Projectresultaten leiden niet altijd tot een valide business case, bij innovatie hoort ook falen. Kijk naar Google, toch een van de meest succesvolle organisaties wat betreft datatoepassingen, daar falen ook veel projecten. Het is zaak om te experimenteren en in korte iteraties te bepalen of je verder gaat of niet. Fail fast!

    Innoveren als een startup
    Waar Google, Microsoft en Apple de technologie zelf ontwikkelden in hun garage, zijn het nu startups die vaak starten met behulp van state-of-the art technologie die beschikbaar is als open source product. Studenten leren op de universiteit te werken met open source, technologie die ze ook thuis kunnen gebruiken. Organisaties die talent willen aantrekken zullen ook open source moeten adopteren om interessant te blijven als werkgever.
    Het nadeel van bestaande organisaties is dat de werkwijze zich vaak niet goed leent voor innovatie. Bij een online retailer werd een afdeling verantwoordelijk voor conversie. Vol enthousiasme ging de afdeling ‘Conversie’ aan de slag met het ontwikkelen van productaanbevelingen. Al vrij snel bleek het succes van de afdeling afhankelijk te zijn van de prestaties van andere afdelingen die andere targets nastreefden. De inkoper kocht volgens eigen KPI’s producten in en de marketeer bepaalde op zijn eigen manier de prijzen. De engineers en front-end developers bepaalden op basis van eigen testen de gebruikerservaring. Door de afhankelijkheid van andere afdelingen en conflicterende doelen per afdeling had de afdeling ‘Conversie’ dus feitelijk geen controle over zijn eigen succes.

    De enige manier om deze kloof te slechten is door te gaan werken in multidisciplinaire teams, die verantwoordelijk zijn voor features en niet voor processen. Deze teams kennen een heel andere dynamiek doordat verschillende disciplines samenwerken en samen dezelfde verantwoordelijkheid dragen, zoals bijvoorbeeld conversie. Startups hebben het wat dat betreft gemakkelijk, zij hebben geen bestaande organisatie, zij beginnen met het aantrekken van de juiste mensen en bouwen de skills gaandeweg op. Waar vroeger de systemen het kostbaarst waren, zijn het tegenwoordig de mensen die van de grootste waarde zijn.

    De rol van de Data Scientist
    Data Science heeft een centrale rol in teams die zich richten op innovatie en de ontwikkeling van datagedreven producten. Data Science is hiermee echt een businessafdeling en zeker geen ondersteunende afdeling die voor de business werkt. Een Data Scientist heeft over het algemeen ook een ander profiel dan een BI-specialist.
    Een Data Scientist is een soort van schaap met vijf poten. Een Data Scientist beschikt over het algemeen over een statistische achtergrond, heeft kennis van machine learning en bouwt naast modellen ook applicaties. Daarnaast is een Data Scientist communicatief vaardig en van nature nieuwsgierig, waardoor hij graag experimenteert en onderzoekt. Josh Wills, destijds verantwoordelijk voor Data Science bij Cloudera omschreef het als volgt: “Een Data Scientist is iemand die beter is in statistiek dan een software engineer en beter in software engineering dan een statisticus”. 

    Van BI naar Data Scientist
    Veel datawarehouse- en Business Intelligence-specialisten hebben programmeerervaring en zouden de stap naar Data Science kunnen zetten door zich bijvoorbeeld te verdiepen in Python en R en statistiek. Het helpt ook als organisaties functies creëren voor Data Scientists, niet alleen zodat externe consultancy-organisaties kennis kunnen overdragen maar ook zodat het voor bestaande medewerkers eenvoudiger wordt om door te groeien. Zodra organisaties de waarde erkennen van Data Science zal duidelijk worden dat het de mensen zijn die het verschil maken in de razendsnelle ontwikkeling van datatoepassingen en technologische innovatie.

    Bron: biplatform.nl

     

  • Van data driven naar data-informed besluitvorming

    intuitie 855x500Veel organisaties starten net met het data driven maken van hun besluitvorming, anderen zijn al verder gevorderd. De prominentere plaats van Big Data en algoritmen in besluitvorming van organisaties lijkt op het eerste gezicht alleen maar een positieve ontwikkeling. Wie wil er nou niet de customer journey kunnen volgen, de lead time verkorten en maximaal wendbaar zijn? Wie wil er geen slimme algoritmen waardoor complex speurwerk én moeilijke beslissingen geautomatiseerd worden?

    Besluitvorming, gedreven door Big Data en algoritmen, kent echter een aantal valkuilen: beslissingen, die teveel steunen op data, bevorderen een cultuur waarin medewerkers minder kritisch zijn, minder verantwoordelijkheid nemen en minder vertrouwen op hun eigen kennis en ervaring. Deze valkuilen zijn vooral van toepassing als de data en algoritmen nog niet ver genoeg ontwikkeld zijn, wat bij veel organisaties het geval is. Daarom pleiten wij voor ‘data-informed’ besluitvorming, waarin organisaties een balans vinden tussen enerzijds data en algoritmen, en anderzijds intuïtie, gestoeld op kennis en ervaring. In deze werkwijze is de medewerker nog in control. Hij verschuilt zich niet achter data en algoritmen, maar gebruikt deze om slimmere beslissingen te nemen.

    De upside van data driven besluitvorming

    De Big Data revolutie ontstond vanuit de groeiende aanwas en rijkere data die wordt verzameld en opgeslagen. Bovendien maakt slimme tooling het onttrekken en analyseren van data steeds gemakkelijker. Organisaties als Google, Tesla en de campagneteams van Hillary Clinton en Donald Trump zijn baanbrekend met hun datagedreven besluitvorming. Zo gebruikt Google Big Data en complexe algoritmen om advertenties te optimaliseren, zodat deze zo goed mogelijk bij de doelgroep aansluiten. Tesla zet sensoren en Big Data in om technische problemen op afstand te detecteren en te verhelpen (of zelfs te voorspellen en te voorkomen), waardoor recalls tot het verleden behoren. Dergelijke toepassingen zijn niet alleen weggelegd voor hippe startups, opgeschaalde multinationals of presidentskandidaten met veel geld. Datagedreven sturen kan iedereen door bijvoorbeeld met één proces of product te starten.

    Nederlandse vervoersbedrijven bepalen aan de hand van een voorspellend model de materieel- en personeelsinzet. Dit helpt hen om de mobiliteit tijdens pieken beter te stroomlijnen en geeft hen de kans om de dienstverlening keer op keer te verbeteren. Energiebedrijven gebruiken data voor het plegen van preventief onderhoud en het verduurzamen van hun processen. Profvoetbalclubs zetten tijdens wedstrijden data in om de klantbeleving te vergroten door spelers op het veld te volgen of zelf beelden te laten maken en te delen via social media en smartphones.

    De valkuilen van data driven besluitvorming

    Wanneer organisaties puur op basis van data en algoritmen beslissingen nemen, noemen we dat ‘data driven’ of ‘data centric’. Veel processen en zelfs beslissingen zijn (deels) geautomatiseerd, het menselijk brein verdwijnt naar de achtergrond en de data staat centraal in de besluitvorming. Wanneer algoritmen en data nog onvoldoende ontwikkeld zijn, verhoogt dit de kans op de volgende valkuilen:

    • Aannames worden onvoldoende getoetst;
    • Contextkennis wordt onvoldoende ingezet;
    • De data is onbetrouwbaar.

    Aannames worden onvoldoende getoetst

    In de aanloop naar de economische crisis van 2008 stuurden veel financiële instellingen op basis van risicomodellen die bijna niemand meer begreep. Het risico van hypotheekproducten schatten zij veel te laag in. Zij stelden de modellen nauwelijks ter discussie, maar gebruikten ze als verantwoording van correct handelen. Het resultaat: een systemische miscalculatie die bijna niemand zag aankomen, met desastreuze gevolgen.

    Dit voorbeeld illustreert dat het risicovol is om aannames van algoritmen niet of minder goed te laten toetsen door de mens én wat er gebeurt als we het vertrouwen in onze eigen intuïtie kwijtraken. Intuïtie kan een waardevolle toevoeging op data zijn, want met één van beiden dek je nog zelden de relevante werkelijkheid af.

    Contextkennis wordt onvoldoende ingezet

    Het CBS stelde dat Nederlanders in 2011 meer gingen lenen. Dit baseerden zij op hogere creditcardbestedingen. Maar wat was het geval? Nederlanders bestelden meer producten online en de creditcard was vaak het enige beschikbare betaalmiddel. Het CBS telde alle creditcardtransacties als leningen, ook gewone betalingen. Oftewel: iemand die online een boek of een vliegticket met een creditcard betaalde, was volgens het CBS iemand die niet meer bij de bank kon lenen en daarom zijn creditcard gebruikte.

    Dit voorbeeld illustreert het gevaar van het blind volgen van de data zonder contextkennis. Mét contextkennis had een analist op een lager detailniveau (type creditcardbesteding) geanalyseerd en geïnterpreteerd.

    De data is onbetrouwbaar

    In de campagne voor de presidentsverkiezingen van 2016 in de VS maakten zowel de teams van Hillary Clinton en Donald Trump gretig gebruik van Big Data en algoritmen. Onder meer voor nauwkeurige peilingen en efficiënte inzet van campagnemiddelen. Trump won, ondanks het beperkte budget (slechts de helft van Clinton). Het verhaal gaat dat de data van team Clinton minder betrouwbaar waren. Deelnemers van polls durfden tegenover haar team er niet voor uit te komen dat ze op Trump gingen stemmen. Tegen team Trump waren ze eerlijker. Zij zagen – tegen alle polls in – de overwinning al vijf dagen van te voren aankomen.

    Het vertrouwen in Big Data bij verkiezingscampagnes wordt nu ter discussie gesteld. Er was echter niets mis met de ontwikkelde algoritmen en de aanpak in het algemeen, maar met onbetrouwbare data zijn deze weinig waard of zelfs schadelijk, blijkt nu. Mensen kunnen nu eenmaal liegen of sociaal wenselijke antwoorden geven. In de sociale wetenschappen worden er niet voor niets allerlei strategieën toegepast om dit te minimaliseren. Het is dus belangrijk om aannames en datakwaliteit regelmatig te toetsen.

    Onjuiste of incomplete kennis kan desastreuze én onethische gevolgen hebben

    In het Amerikaanse rechtssysteem gebruiken ze geautomatiseerde data-analyse om de kans op recidive te berekenen. Er komt geen mens meer aan te pas. Ze crunchen de data en bepalen zo of iemand wel of niet vervroegd vrijkomt. Wetenschappers spreken over het doemscenario van volledig geautomatiseerde rechtspraak. Hoogleraar recht en informatisering Corien Prins: ‘Want op een gegeven moment is het uit je handen, dan heb je er niets meer over te zeggen.’

    Het belang van intuïtie

    Intuïtie wordt vaak als iets vaags of ongrijpbaars gezien. Dat heeft vooral met de definities te maken die worden gehanteerd: “iets aanvoelen zonder er over na te denken” of “het gevoelsmatig weten, zonder erover te hoeven nadenken”. Wat vaak wordt vergeten is dat intuïtie is opgebouwd op basis van kennis en ervaring. Hoe meer kennis en ervaring, hoe beter de intuïtie is ontwikkeld. Intuïtie wordt ‘bovenrationeel’ genoemd. Het werkt immers snel, moeiteloos en onbewust, in tegenstelling tot het ‘normale’ rationele denkproces, wat langzaam, complex en bewust is. Malcolm Gladwell beschreef in zijn boek Blink: The Power of Thinking Without Thinking dat bepaalde kunstcritici in een fractie van een seconde zien of een schilderij echt of namaak is, zonder dat ze daar direct een verklaring voor hebben. De ontwikkeling van kunstmatige intelligentie is nog niet zover dat zij deze experts kunnen vervangen.

    Beslissen op basis van intuïtie of onderbuikgevoel kent echter de nodige beperkingen. We hebben nogal wat vooroordelen (bias). Sommige waarheden zijn contra-intuïtief. Je denkt dat je alleen de boodschappen koopt die je echt nodig hebt. Wat blijkt: je maakt toch regelmatig gebruik van “drie-halen-twee-betalen”, waardoor je regelmatig voedsel weggooit. ‘Confirmation bias’ (tunnelvisie) is een veel voorkomende bias: we zien alleen de datapunten die in onze visie passen en alternatieven maken geen kans. Bovendien zijn we als mens niet in staat gigantische hoeveelheden data in korte tijd zonder rekenfouten te analyseren, zoals een computer dat kan. Bij deze menselijke tekortkomingen helpen data en algoritmen voor betere beslissingen.

    Van data driven naar data-informed

    Het is zaak om als organisatie geen genoegen te nemen met alleen data of alleen intuïtie. Het zijn twee bronnen die elkaar versterken. Wat is de optimale balans? Dat wordt met name bepaald door de stand van de technologie. Op gebieden waar algoritmen en kunstmatige intelligentie intuïtie nog niet kunnen vervangen, is het verstandig om ‘data-informed’ besluitvorming (zie Figuur) te hanteren. In deze aanpak is data niet leidend – zoals bij data driven besluitvorming – maar een verrijking van onze eigen capaciteiten. We hebben namelijk zelf onvoldoende mogelijkheden om alle informatie te kennen, te combineren, toe te passen en foutloos te werken. We hebben wel de kwaliteiten om niet-meetbare factoren mee te wegen, we kennen verklaringen en kunnen betekenis geven aan de data. En bovenal: we kunnen verantwoordelijkheid nemen. Data voorziet ons van informatie, maar wij gebruiken daarnaast intuïtie om beslissingen te nemen. Ditzelfde concept wordt toegepast in het vliegverkeer. Hoe goed de automatische piloot ook werkt, de menselijke piloot blijft eindverantwoordelijk. Zijn kennis en ervaring is nodig om besluiten te nemen, op basis van wat het vliegtuig voorstelt. Zowel data driven werken als volledig op basis van intuïtie werken kent dus beperkingen. Combineer het beste van beiden om als organisatie snel en gedegen besluiten te kunnen nemen.

    data driven data informed 1024x523

    Figuur. Data driven en data-informed (illustratie door Nick Leone, geïnspireerd op Fishman (2014) “The Dangers of Data Driven Marketing”).

    Case: Datagedreven verbeteren bij de Sociale Verzekeringsbank

    De Sociale Verzekeringsbank (SVB) wil hun klanten optimaal bedienen. Daarvoor is inzicht benodigd in de klantreis. De SVB brengt de digitale klantreis in beeld op basis van data, over de klantkanalen heen, met behulp van Process Mining. Deze data wordt uiteindelijk ingezet om de klantreis te sturen en te verbeteren. De SVB formuleerde onderzoeksvragen over de te verwachten klantreis. Bijvoorbeeld “Hoeveel klanten die een transactie uiteindelijk offline regelen zijn wel in de online portal geweest?” en “Op welke webpagina haken klanten af?” Data-analisten genereerden inzicht in de daadwerkelijke klantreis. Uit de data-analyse bleek bijvoorbeeld dat meer klanten dan verwacht afhaakten van online naar offline en dat zij dit vooral deden op een specifieke webpagina in de portal. De resultaten werden geduid door domeinexperts binnen de organisatie. Zij gaven direct aan dat het afhaken zeer waarschijnlijk een gevolg was van een extra authenticatie-stap. Na verdere analyse bleek dat deze stap vrij onverwacht in het proces kwam: de klant was hier niet voorbereid, waardoor zij het niet meer begrepen en/of zij niet bereid waren een extra stap te zetten. Op basis van de gezamenlijke conclusies zijn verbetervoorstellen uitgewerkt op gebied van proces, IT en webcontent. De effectiviteit hiervan is vervolgens weer getoetst door middel van data-analyse.

    Met alleen data had de SVB weinig inzicht gekregen in de context van de customer journey en beweegredenen van klanten en was er geen verbetering gerealiseerd. En met alleen intuïtie zou er veel minder inzicht in de daadwerkelijke klantreis zijn geweest. Klanten bewegen zich vaak anders dan men verwacht. Bovendien is (nog) niet elk gedrag en elke beweegreden van de klant in data te vatten.

    De basisingrediënten van data-informed werken

    Een data-informed besluitvormingscultuur herken je – naast het optimaal inzetten van data – aan kritisch denken, vertrouwen in eigen beoordelingsvermogen en (onderling) begrip van het waarom van besluiten. Een onderdeel daarvan is een periodieke toetsing van de beslismodellen. Bijvoorbeeld door regelmatig geautomatiseerde besluitvormingsprocessen achteraf te analyseren of door de feedback van klanten en andere stakeholders te gebruiken als input voor je beslismodellen. Deze cultuur van data-informed verbeteren vraagt om een datahuishouding die op orde is en expertise op gebied van data science.

    Tot slot nog een aantal concrete tips voor data-informed besluitvorming:

    • Zorg dat je personeelsbestand met data weet om te gaan. Om als organisatie competitief te zijn moeten de medewerkers kritisch zijn, complexe analyses kunnen uitvoeren en interpreteren, en acties kunnen definiëren.
    • Zorg dat je data blijft interpreteren en toetsen met je intuïtie en andersom. Bijvoorbeeld door met hypothesen of onderzoeksvragen te werken en niet te zoeken naar willekeurige verbanden. Dit scherpt je begrip over wat de data echt betekent en wat er werkelijk gebeurt in het proces of met de klant.
    • Innoveer en exploreer met nieuwe data-oplossingen in een ‘speeltuin’, om nieuwe analyses en analysemethoden te stimuleren. Implementeer deze zodra de oplossing getoetst is en de kwaliteit van de data en het algoritme op orde is.

    Source: managementsite.nl, 23 januari 2017

  • What are key trends in Big Data in 2017


    BDThe focus on big data in 2017 will be on the value of that data, according to John Schroeder, executive chairman and founder of MapR Technologies, Inc. Schroeder offers his predictions on the 6 trends in big data we can expect.

    1.Artificial Intelligence is Back in Vogue

    “In the 1960s, Ray Solomonoff laid the foundations of a mathematical theory of artificial intelligence, introducing universal Bayesian methods for inductive inference and prediction,” Schroeder explains. “In 1980 the First National Conference of the American Association for Artificial Intelligence (AAAI) was held at Stanford and marked the application of theories in software. AI is now back in mainstream discussions and the umbrella buzzword for machine intelligence, machine learning, neural networks, and cognitive computing. Why is AI a rejuvenated trend? The three V’s come to mind: Velocity, Variety and Volume. Platforms that can process the three V’s with modern and traditional processing models that scale horizontally providing 10-20X cost efficiency over traditional platforms. Google has documented how simple algorithms executed frequently against large datasets yield better results than other approaches using smaller sets. We'll see the highest value from applying AI to high volume repetitive tasks where consistency is more effective than gaining human intuitive oversight at the expense of human error and cost.”

    2.Big Data for Governance or Competitive Advantage

    “In 2017, the governance vs. data value tug-of-war will be front and center,” Schroeder predicts. “Enterprises have a wealth of information about their customers and partners. Leading organizations will manage their data between regulated and non-regulated use cases. Regulated use cases data require governance; data quality and lineage so a regulatory body can report and track data through all transformations to originating source. This is mandatory and necessary but limiting for non-regulatory use cases like customer 360 or offer serving where higher cardinality, real-time and a mix of structured and unstructured yields more effective results.”

    3.Companies Focus on Business- Driven Applications to Avoid Data Lakes From Becoming Swamps

    “In 2017 organizations will shift from the ‘build it and they will come’ data lake approach to a business-driven data approach,” says Schroeder. “Today’s world requires analytics and operational capabilities to address customers, process claims and interface to devices in real time at an individual level. For example any ecommerce site must provide individualized recommendations and price checks in real time. Healthcare organizations must process valid claims and block fraudulent claims by combining analytics with operational systems. Media companies are now personalizing content served though set top boxes. Auto manufacturers and ride sharing companies are interoperating at scale with cars and the drivers. Delivering these use cases requires an agile platform that can provide both analytical and operational processing to increase value from additional use cases that span from back office analytics to front office operations. In 2017, organizations will push aggressively beyond an “asking questions” approach and architect to drive initial and long term business value.”

    4.Data Agility Separates Winners and Losers

    “Software development has become agile where dev ops provides continuous delivery,” Schroeder says. “In 2017, processing and analytic models evolve to provide a similar level of agility as organizations realize data agility, the ability to understand data in context and take business action, is the source of competitive advantage not simply have a large data lake. The emergence of agile processing models will enable the same instance of data to support batch analytics, interactive analytics, global messaging, database and file-based models. More agile analytic models are also enabled when a single instance of data can support a broader set of tools. The end result is an agile development and application platform that supports the broadest range of processing and analytic models.”

    5.Blockchain Transforms Select Financial Service Applications

    “In 2017 there will be select, transformational use cases in financial services that emerge with broad implications for the way data is stored and transactions processed,” Schroeder explains. “Blockchain provides a global distributed ledger that changes the way data is stored and transactions are processed. The blockchain runs on computers distributed worldwide where the chains can be viewed by anyone. Transactions are stored in blocks where each block refers to the preceding block, blocks are timestamped storing the data in a form that cannot be altered. Hackers find it impossible to hack the blockchain since the world has view of the entire blockchain. Blockchain provides obvious efficiency for consumers. For example, customers won't have to wait for that SWIFT transaction or worry about the impact of a central datacenter leak. For enterprises, blockchain presents a cost savings and opportunity for competitive advantage.”

    6.Machine Learning Maximizes Microservices Impact

    “This year we will see activity increase for the integration of machine learning and microservices,” Schroeder says. “Previously, microservices deployments have been focused on lightweight services and those that do incorporate machine learning have typically been limited to ‘fast data’ integrations that were applied to narrow bands of streaming data. In 2017, we’ll see development shift to stateful applications that leverage big data, and the incorporation of machine learning approaches that use large of amounts of historical data to better understand the context of newly arriving streaming data.”

    Bron: Informatie Manegement, Januari 2017

EasyTagCloud v2.8