37 items tagged "data science"

  • ‘Vooruitgang in BI, maar let op ROI’

    5601405Business intelligence (bi) werd door Gartner al benoemd tot hoogste prioriteit voor de cio in 2016. Ook de Computable-experts voorspellen dat er veel en grote stappen genomen gaan worden binnen de bi. Tegelijkertijd moeten managers ook terug kijken en nadenken over hun businessmodel bij de inzet van big data: hoe rechtvaardig je de investeringen in big data?

    Kurt de Koning, oprichter van Dutch Offshore ICT Management
    Business intelligence/analytics is door Gartner op nummer één gezet voor 2016 op de prioriteitenlijst voor de cio. Gebruikers zullen in 2016 hun beslissingen steeds meer laten afhangen van stuurinformatie die uit meerdere bronnen komt. Deze bronnen zullen deels bestaan uit ongestructureerde data. De bi-tools zullen dus niet alleen visueel de informatie aantrekkelijk moeten opmaken en een goede gebruikersinterface moeten bieden. Bij het ontsluiten van de data zullen die tools zich onderscheiden , die in staat zijn om orde en overzicht te scheppen uit de vele verschijningsvormen van data.

    Laurent Koelink, senior interim BI professional bij Insight BI
    Big data-oplossingen naast traditionele bi
    Door de groei van het aantal smart devices hebben organisaties steeds meer data te verwerken. Omdat inzicht (in de breedste zin) een van de belangrijkste succesfactoren van de toekomst gaat zijn voor veel organisaties die flexibel in willen kunnen spelen op de vraag van de markt, zullen zijn ook al deze nieuwe (vormen) van informatie moeten kunnen analyseren. Ik zie big data niet als vervangen van traditionele bi-oplossingen, maar eerder als aanvulling waar het gaat om analytische verwerking van grote hoeveelheden (vooral ongestructureerde) data.

    In-memory-oplossingen
    Organisaties lopen steeds vaker aan tegen de performance-beperkingen van traditionele database systemen als het gaat om grote hoeveelheden data die ad hoc moeten kunnen worden geanalyseerd. Specifieke hybride database/hardware-oplossingen zoals die van IBM, SAP en TeraData hebben hier altijd oplossingen voor geboden. Daar komen nu steeds vaker ook in-memory-oplossingen bij. Enerzijds omdat deze steeds betaalbaarder en dus toegankelijker worden, anderzijds doordat dit soort oplossingen in de cloud beschikbaar komen, waardoor de kosten hiervan goed in de hand te houden zijn.

    Virtual data integration
    Daar waar data nu nog vaak fysiek wordt samengevoegd in aparte databases (data warehouses) zal dit, waar mogelijk, worden vervangen door slimme metadata-oplossingen, die (al dan niet met tijdelijke physieke , soms in memory opslag) tijdrovende data extractie en integratie processen overbodig maken.

    Agile BI development
    Organisaties worden meer en meer genoodzaakt om flexibel mee te bewegen in en met de keten waar ze zich in begeven. Dit betekent dat ook de inzichten om de bedrijfsvoering aan te sturen (de bi-oplossingen) flexibel moeten mee bewegen. Dit vergt een andere manier van ontwikkelen van de bi-ontwikkelteams. Meer en meer zie je dan ook dat methoden als Scrum ook voor bi-ontwikkeling worden toegepast.

    Bi voor de iedereen
    Daar waar bi toch vooral altijd het domein van organisaties is geweest zie je dat ook consumenten steeds meer en vaker gebruik maken van bi-oplossingen. Bekende voorbeelden zijn inzicht in financiën en energieverbruik. De analyse van inkomsten en uitgaven op de webportal of in de app van je bank, maar ook de analyse van de gegevens van slimme energiemeters zijn hierbij sprekende voorbeelden. Dit zal in de komende jaren alleen maar toenemen en geïntegreerd worden.

    Rein Mertens, head of analytical platform bij SAS
    Een belangrijke trend die ik tot volwassenheid zie komen in 2016 is ‘streaming analytics’. Vandaag de dag is big data niet meer weg te denken uit onze dagelijkse praktijk. De hoeveelheid data welke per seconde wordt gegenereerd blijft maar toenemen. Zowel in de persoonlijke als zakelijke sfeer. Kijk maar eens naar je dagelijkse gebruik van het internet, e-mails, tweets, blog posts, en overige sociale netwerken. En vanuit de zakelijke kant: klantinteracties, aankopen, customer service calls, promotie via sms/sociale netwerken et cetera.

    Een toename van volume, variatie en snelheid van vijf Exabytes per twee dagen wereldwijd. Dit getal is zelfs exclusief data vanuit sensoren, en overige IoT-devices. Er zit vast interessante informatie verstopt in het analyseren van al deze data, maar hoe doe je dat? Een manier is om deze data toegankelijk te maken en op te slaan in een kosteneffectief big data-platform. Onvermijdelijk komt een technologie als Hadoop dan aan de orde, om vervolgens met data visualisatie en geavanceerde analytics aan de gang te gaan om verbanden en inzichten uit die data berg te halen. Je stuurt als het ware de complexe logica naar de data toe. Zonder de data allemaal uit het Hadoop cluster te hoeven halen uiteraard.

    Maar wat nu, als je op basis van deze grote hoeveelheden data ‘real-time’ slimme beslissingen zou willen nemen? Je hebt dan geen tijd om de data eerst op te slaan, en vervolgens te gaan analyseren. Nee, je wilt de data in-stream direct kunnen beoordelen, aggregeren, bijhouden, en analyseren, zoals vreemde transactie patronen te detecteren, sentiment in teksten te analyseren en hierop direct actie te ondernemen. Eigenlijk stuur je de data langs de logica! Logica, die in-memory staat en ontwikkeld is om dat heel snel en heel slim te doen. En uiteindelijke resultaten op te slaan. Voorbeelden van meer dan honderdduizend transacties zijn geen uitzondering hier. Per seconde, welteverstaan. Stream it, score it, store it. Dat is streaming analytics!

    Minne Sluis, oprichter van Sluis Results
    Van IoT (internet of things) naar IoE (internet of everything)
    Alles wordt digitaal en connected. Meer nog dan dat we ons zelfs korte tijd geleden konden voorstellen. De toepassing van big data-methodieken en -technieken zal derhalve een nog grotere vlucht nemen.

    Roep om adequate Data Governance zal toenemen
    Hoewel het in de nieuwe wereld draait om loslaten, vertrouwen/vrijheid geven en co-creatie, zal de roep om beheersbaarheid toch toenemen. Mits vooral aangevlogen vanuit een faciliterende rol en zorgdragend voor meer eenduidigheid en betrouwbaarheid, bepaald geen slechte zaak.

    De business impact van big data & data science neemt toe
    De impact van big data & data science om business processen, diensten en producten her-uit te vinden, verregaand te digitaliseren (en intelligenter te maken), of in sommige gevallen te elimineren, zal doorzetten.

    Consumentisering van analytics zet door
    Sterk verbeterde en echt intuïtieve visualisaties, geschraagd door goede meta-modellen, dus data governance, drijft deze ontwikkeling. Democratisering en onafhankelijkheid van derden (anders dan zelfgekozen afgenomen uit de cloud) wordt daarmee steeds meer werkelijkheid.

    Big data & data science gaan helemaal doorbreken in de non-profit
    De subtiele doelstellingen van de non-profit, zoals verbetering van kwaliteit, (patiënt/cliënt/burger) veiligheid, punctualiteit en toegankelijkheid, vragen om big data toepassingen. Immers, voor die subtiliteit heb je meer goede informatie en dus data, sneller, met meer detail en schakering nodig, dan wat er nu veelal nog uit de traditionelere bi-omgevingen komt. Als de non-profit de broodnodige focus van de profit sector, op ‘winst’ en ‘omzetverbetering’, weet te vertalen naar haar eigen situatie, dan staan succesvolle big data initiatieven om de hoek! Mind you, deze voorspelling geldt uiteraard ook onverkort voor de zorg.

    Hans Geurtsen, business intelligence architect data solutions bij Info Support
    Van big data naar polyglot persistence
    In 2016 hebben we het niet meer over big, maar gewoon over data. Data van allerlei soorten en in allerlei volumes die om verschillende soorten opslag vragen: polyglot persistence. Programmeurs kennen de term polyglot al lang. Een applicatie anno 2015 wordt vaak al in meerdere talen geschreven. Maar ook aan de opslag kant van een applicatie is het niet meer alleen relationeel wat de klok zal slaan. We zullen steeds meer andere soorten databases toepassen in onze data oplossingen, zoals graph databases, document databases, etc. Naast specialisten die alles van één soort database afweten, heb je dan ook generalisten nodig die precies weten welke database zich waarvoor leent.

    De doorbraak van het moderne datawarehouse
    ‘Een polyglot is iemand met een hoge graad van taalbeheersing in verschillende talen’, aldus Wikipedia. Het gaat dan om spreektalen, maar ook in het it-vakgebied, kom je de term steeds vaker tegen. Een applicatie die in meerdere programmeertalen wordt gecodeerd en data in meerdere soorten databases opslaat. Maar ook aan de business intelligence-kant volstaat één taal, één omgeving niet meer. De dagen van het traditionele datawarehouse met een etl-straatje, een centraal datawarehouse en één of twee bi-tools zijn geteld. We zullen nieuwe soorten data-platformen gaan zien waarin allerlei gegevens uit allerlei bronnen toegankelijk worden voor informatiewerkers en data scientists die allerlei tools gebruiken.

    Business intelligence in de cloud
    Waar vooral Nederlandse bedrijven nog steeds terughoudend zijn waar het de cloud betreft, zie je langzaam maar zeker dat de beweging richting cloud ingezet wordt. Steeds meer bedrijven realiseren zich dat met name security in de cloud vaak beter geregeld is dan dat ze zelf kunnen regelen. Ook cloud leveranciers doen steeds meer om Europese bedrijven naar hun cloud te krijgen. De nieuwe data centra van Microsoft in Duitsland waarbij niet Microsoft maar Deutsche Telekom de controle en toegang tot klantgegevens regelt, is daar een voorbeeld van. 2016 kan wel eens hét jaar worden waarin de cloud écht doorbreekt en waarin we ook in Nederland steeds meer complete BI oplossingen in de cloud zullen gaan zien.

    Huub Hillege, principal data(base) management consultant bij Info-Shunt
    Big data
    De big data-hype zal zich nog zeker voortzetten in 2016 alleen het succes bij de bedrijven is op voorhand niet gegarandeerd. Bedrijven en pas afgestudeerden blijven elkaar gek maken over de toepassing. Het is onbegrijpelijk dat iedereen maar Facebook, Twitter en dergelijke data wil gaan ontsluiten terwijl de data in deze systemen hoogst onbetrouwbaar is. Op elke conferentie vraag ik waar de business case, inclusief baten en lasten is, die alle investeringen rondom big data rechtvaardigen. Zelfs bi-managers van bedrijven moedigen aan om gewoon te beginnen. Dus eigenlijk: achterom kijken naar de data die je hebt of kunt krijgen en onderzoeken of je iets vindt waar je iets aan zou kunnen hebben. Voor mij is dit de grootste valkuil, zoals het ook was met de start van Datawarehouses in 1992. Bedrijven hebben in de huidige omstandigheden beperkt geld. Zuinigheid is geboden.

    De analyse van big data moet op de toekomst zijn gericht vanuit een duidelijke business-strategie en een kosten/baten-analyse: welke data heb ik nodig om de toekomst te ondersteunen? Bepaal daarbij:

    • Waar wil ik naar toe?
    • Welke klantensegmenten wil ik erbij krijgen?
    • Gaan we met de huidige klanten meer 'Cross selling' (meer producten) uitvoeren?
    • Gaan we stappen ondernemen om onze klanten te behouden (Churn)?

    Als deze vragen met prioriteiten zijn vastgelegd moet er een analyse worden gedaan:

    • Welke data/sources hebben we hierbij nodig?
    • Hebben we zelf de data, zijn er 'gaten' of moeten we externe data inkopen?

    Databasemanagementsysteem
    Steeds meer databasemanagementsysteem (dbms)-leveranciers gaan ondersteuning geven voor big data-oplossingen zoals bijvoorbeeld Oracle/Sun Big Data Appliance, Teradata/Teradata Aster met ondersteuning voor Hadoop. De dbms-oplossingen zullen op de lange termijn het veld domineren. big data-software-oplossingen zonder dbms zullen het uiteindelijk verliezen.

    Steeds minder mensen, ook huidige dbma's, begrijpen niet meer hoe het technisch diep binnen een database/DBMS in elkaar zit. Steeds meer zie je dat fysieke databases uit logische data modelleer-tools worden gegeneerd. Formele fysieke database-stappen/-rapporten blijven achterwege. Ook ontwikkelaars die gebruik maken van etl-tools zoals Informatica, AbInitio, Infosphere, Pentaho et cetera, genereren uiteindelijk sgl-scripts die data van sources naar operationele datastores en/of datawarehouse brengen.

    Ook de bi-tools zoals Microstrategy, Business Objects, Tableau et cetera genereren sql-statements.
    Meestal zijn dergelijke tools initieel ontwikkeld voor een zeker dbms en al gauw denkt men dat het dan voor alle dbms'en toepasbaar is. Er wordt dan te weinig gebruik gemaakt van specifieke fysieke dbms-kenmerken.

    De afwezigheid van de echte kennis veroorzaakt dan performance problemen die in een te laat stadium worden ontdekt. De laatste jaren heb ik door verandering van databaseontwerp/indexen en het herstructureren van complexe/gegenereerde sql-scripts, etl-processen van zes tot acht uur naar één minuut kunnen krijgen en queries die 45 tot 48 uur liepen uiteindelijk naar 35 tot veertig minuten kunnen krijgen.

    Advies
    De benodigde data zal steeds meer groeien. Vergeet de aanschaf van allerlei hype software pakketten. Zorg dat je zeer grote, goede, technische, Database-/dbms-expertise in huis haalt om de basis van onderen goed in te richten in de kracht van je aanwezige dbms. Dan komt er tijd en geld vrij (je kan met kleinere systemen uit de voeten omdat de basis goed in elkaar zit) om, na een goede business case en ‘proof of concepts’, de juiste tools te selecteren.

  • 4 Tips om doodbloedende Big Data projecten te voorkomen

    projectmanagers

    Investeren in big data betekent het verschil tussen aantrekken of afstoten van klanten, tussen winst of verlies. Veel retailers zien hun initiatieven op het vlak van data en analytics echter doodbloeden. Hoe creëer je daadwerkelijk waarde uit data en voorkom je een opheffingsuitverkoop? Vier tips.

    Je investeert veel tijd en geld in big data, exact volgens de boodschap die retailgoeroes al enkele jaren verkondigen. Een team van data scientists ontwikkelt complexe datamodellen, die inderdaad interessante inzichten opleveren. Met kleine ‘proofs of value’ constateert u dat die inzichten daadwerkelijk ten gelde kunnen worden gemaakt. Toch gebeurt dat vervolgens niet. Wat is er aan de hand?

    Tip 1: Pas de targets aan

    Dat waardevolle inzichten niet in praktijk worden gebracht, heeft vaak te maken met de targets die uw medewerkers hebben meegekregen. Neem als voorbeeld het versturen van mailingen aan klanten. Op basis van bestaande data en klantprofielen kunnen we goed voorspellen hoe vaak en met welke boodschap elke klant moet worden gemaild. En stiekem weet elke marketeer donders goed dat niet elke klant op een dagelijkse email zit te wachten.

    Toch trapt menigeen in de valkuil en stuurt telkens weer opnieuw een mailing uit naar het hele klantenbestand. Het resultaat: de interesse van een klant ebt snel weg en de boodschap komt niet langer aan. Waarom doen marketeers dat? Omdat ze louter en alleen worden afgerekend op de omzet die ze genereren, niet op de klanttevredenheid die ze realiseren. Dat nodigt uit om iedereen zo vaak mogelijk te mailen. Op korte termijn groeit met elk extra mailtje immers de kans op een verkoop.

    Tip 2: Plaats de analisten in de business

    Steeds weer zetten retailers het team van analisten bij elkaar in een kamer, soms zelfs als onderdeel

    van de IT-afdeling. De afstand tot de mensen uit de business die de inzichten in praktijk moeten brengen, is groot. En te vaak blijkt die afstand onoverbrugbaar. Dat leidt tot misverstanden, onbegrepen analisten en waardevolle inzichten die onbenut blijven.

    Beter is om de analisten samen met de mensen uit de business bij elkaar te zetten in multidisciplinaire teams, die werken met scrum-achtige technieken. Organisaties die succesvol zijn, beseffen dat ze continu in verandering moeten zijn en werken in dat soort teams. Dat betekent dat business managers in een vroegtijdig stadium worden betrokken bij de bouw van datamodellen, zodat analisten en de business van elkaar kunnen leren. Klantkennis zit immers in data én in mensen.

    Tip 3: Neem een business analist in dienst

    Data-analisten halen hun werkplezier vooral uit het maken van fraaie analyses en het opstellen van goede, misschien zelfs overontwikkelde datamodellen. Voor hun voldoening is het vaak niet eens nodig om de inzichten uit die modellen in praktijk te brengen. Veel analisten zijn daarom ook niet goed in het interpreteren van data en het vertalen daarvan naar de concrete impact op de retailer. 

    Het kan verstandig zijn om daarom een business analist in te zetten. Dat is iemand die voldoende affiniteit heeft met analytics en enigszins snapt hoe datamodellen tot stand komen, maar ook weet wat de uitdagingen van de business managers zijn. Hij kan de kloof tussen analytics en business overbruggen door vragen uit de business te concretiseren en door inzichten uit datamodellen te vertalen naar kansen voor de retailer.

    Tip 4: Analytics is een proces, geen project

    Nog te veel retailers kijken naar alle inspanningen op het gebied van data en analytics alsof het een project met een kop en een staart betreft. Een project waarvan vooraf duidelijk moet zijn wat het gaat opleveren. Dat is vooral het geval bij retailorganisaties die worden geleid door managers uit de ‘oude generatie’ die onvoldoende gevoel en affiniteit met de nieuwe wereld hebben Het commitment van deze managers neemt snel af als investeringen in data en analytics niet snel genoeg resultaat opleveren.

    Analytics is echter geen project, maar een proces waarin retailers met vallen en opstaan steeds handiger en slimmer worden. Een proces waarvan de uitkomst vooraf onduidelijk is, maar dat wel moet worden opgestart om vooruit te komen. Want alle ontwikkelingen in de retailmarkt maken één ding duidelijk: stilstand is achteruitgang.

    Auteur: EY, Simon van Ulden, 5 oktober 2016

  • A new quantum approach to big data

    MIT-Quantum-Big-Data 0From gene mapping to space exploration, humanity continues to generate ever-larger sets of data — far more information than people can actually process, manage, or understand.
    Machine learning systems can help researchers deal with this ever-growing flood of information. Some of the most powerful of these analytical tools are based on a strange branch of geometry called topology, which deals with properties that stay the same even when something is bent and stretched every which way.


    Such topological systems are especially useful for analyzing the connections in complex networks, such as the internal wiring of the brain, the U.S. power grid, or the global interconnections of the Internet. But even with the most powerful modern supercomputers, such problems remain daunting and impractical to solve. Now, a new approach that would use quantum computers to streamline these problems has been developed by researchers at MIT, the University of Waterloo, and the University of Southern California.
    The team describes their theoretical proposal this week in the journal Nature Communications. Seth Lloyd, the paper’s lead author and the Nam P. Suh Professor of Mechanical Engineering, explains that algebraic topology is key to the new method. This approach, he says, helps to reduce the impact of the inevitable distortions that arise every time someone collects data about the real world.


    In a topological description, basic features of the data (How many holes does it have? How are the different parts connected?) are considered the same no matter how much they are stretched, compressed, or distorted. Lloyd explains that it is often these fundamental topological attributes “that are important in trying to reconstruct the underlying patterns in the real world that the data are supposed to represent.”


    It doesn’t matter what kind of dataset is being analyzed, he says. The topological approach to looking for connections and holes “works whether it’s an actual physical hole, or the data represents a logical argument and there’s a hole in the argument. This will find both kinds of holes.”
    Using conventional computers, that approach is too demanding for all but the simplest situations. Topological analysis “represents a crucial way of getting at the significant features of the data, but it’s computationally very expensive,” Lloyd says. “This is where quantum mechanics kicks in.” The new quantum-based approach, he says, could exponentially speed up such calculations.


    Lloyd offers an example to illustrate that potential speedup: If you have a dataset with 300 points, a conventional approach to analyzing all the topological features in that system would require “a computer the size of the universe,” he says. That is, it would take 2300 (two to the 300th power) processing units — approximately the number of all the particles in the universe. In other words, the problem is simply not solvable in that way.
    “That’s where our algorithm kicks in,” he says. Solving the same problem with the new system, using a quantum computer, would require just 300 quantum bits — and a device this size may be achieved in the next few years, according to Lloyd.


    “Our algorithm shows that you don’t need a big quantum computer to kick some serious topological butt,” he says.
    There are many important kinds of huge datasets where the quantum-topological approach could be useful, Lloyd says, for example understanding interconnections in the brain. “By applying topological analysis to datasets gleaned by electroencephalography or functional MRI, you can reveal the complex connectivity and topology of the sequences of firing neurons that underlie our thought processes,” he says.


    The same approach could be used for analyzing many other kinds of information. “You could apply it to the world’s economy, or to social networks, or almost any system that involves long-range transport of goods or information,” says Lloyd, who holds a joint appointment as a professor of physics. But the limits of classical computation have prevented such approaches from being applied before.


    While this work is theoretical, “experimentalists have already contacted us about trying prototypes,” he says. “You could find the topology of simple structures on a very simple quantum computer. People are trying proof-of-concept experiments.”


    Ignacio Cirac, a professor at the Max Planck Institute of Quantum Optics in Munich, Germany, who was not involved in this research, calls it “a very original idea, and I think that it has a great potential.” He adds “I guess that it has to be further developed and adapted to particular problems. In any case, I think that this is top-quality research.”
    The team also included Silvano Garnerone of the University of Waterloo in Ontario, Canada, and Paolo Zanardi of the Center for Quantum Information Science and Technology at the University of Southern California. The work was supported by the Army Research Office, Air Force Office of Scientific Research, Defense Advanced Research Projects Agency, Multidisciplinary University Research Initiative of the Office of Naval Research, and the National Science Foundation.

    Source:MIT news

  • A Shortcut Guide to Machine Learning and AI in The Enterprise

    advanced-predictive-proactive-etc-Two-men-fighting

    Predictive analytics / machine learning / artificial intelligence is a hot topic – what’s it about?

    Using algorithms to help make better decisions has been the “next big thing in analytics” for over 25 years. It has been used in key areas such as fraud the entire time. But it’s now become a full-throated mainstream business meme that features in every enterprise software keynote — although the industry is battling with what to call it.

    It appears that terms like Data Mining, Predictive Analytics, and Advanced Analytics are considered too geeky or old for industry marketers and headline writers. The term Cognitive Computing seemed to be poised to win, but IBM’s strong association with the term may have backfired — journalists and analysts want to use language that is independent of any particular company. Currently, the growing consensus seems to be to use Machine Learning when talking about the technology and Artificial Intelligence when talking about the business uses.

    Whatever we call it, it’s generally proposed in two different forms: either as an extension to existing platforms for data analysts; or as new embedded functionality in diverse business applications such as sales lead scoring, marketing optimization, sorting HR resumes, or financial invoice matching.

    Why is it taking off now, and what’s changing?

    Artificial intelligence is now taking off because there’s a lot more data available and affordable, powerful systems to crunch through it all. It’s also much easier to get access to powerful algorithm-based software in the form of open-source products or embedded as a service in enterprise platforms.

    Organizations today have also more comfortable with manipulating business data, with a new generation of business analysts aspiring to become “citizen data scientists.” Enterprises can take their traditional analytics to the next level using these new tools.

    However, we’re now at the “Peak of Inflated Expectations” for these technologies according to Gartner’s Hype Cycle — we will soon see articles pushing back on the more exaggerated claims. Over the next few years, we will find out the limitations of these technologies even as they start bringing real-world benefits.

    What are the longer-term implications?

    First, easier-to-use predictive analytics engines are blurring the gap between “everyday analytics” and the data science team. A “factory” approach to creating, deploying, and maintaining predictive models means data scientists can have greater impact. And sophisticated business users can now access some the power of these algorithms without having to become data scientists themselves.

    Second, every business application will include some predictive functionality, automating any areas where there are “repeatable decisions.” It is hard to think of a business process that could not be improved in this way, with big implications in terms of both efficiency and white-collar employment.

    Third, applications will use these algorithms on themselves to create “self-improving” platforms that get easier to use and more powerful over time (akin to how each new semi-autonomous-driving Tesla car can learn something new and pass it onto the rest of the fleet).

    Fourth, over time, business processes, applications, and workflows may have to be rethought. If algorithms are available as a core part of business platforms, we can provide people with new paths through typical business questions such as “What’s happening now? What do I need to know? What do you recommend? What should I always do? What can I expect to happen? What can I avoid? What do I need to do right now?”

    Fifth, implementing all the above will involve deep and worrying moral questions in terms of data privacy and allowing algorithms to make decisions that affect people and society. There will undoubtedly be many scandals and missteps before the right rules and practices are in place.

    What first steps should companies be taking in this area?
    As usual, the barriers to business benefit are more likely to be cultural than technical.

    Above all, organizations need to make sure they have the right technical expertise to be able to navigate the confusion of new vendors offers, the right business knowledge to know where best to apply them, and the awareness that their technology choices may have unforeseen moral implications.

    Source: timoelliot.com, October 24, 2016

     

  • About how Uber and Netflex turn Big Data into real business value

    client-logo-netflix-logo-png-netflix-logo-png-netflix-logo-qlHSS6-clipart

    From the way we go about our daily lives to the way we treat cancer and protect our society from threats, big data will transform every industry, every aspect of our lives. We can say this with authority because it is already happening.

    Some believe big data is a fad, but they could not be more wrong. The hype will fade, and even the name may disappear, but the implications will resonate and the phenomenon will only gather momentum. What we currently call big data today will simply be the norm in just a few years’ time.

    Big data refers generally to the collection and utilization of large or diverse volumes of data. In my work as a consultant, I work every day with companies and government organizations on big data projects that allow them to collect, store, and analyze the ever-increasing volumes of data to help improve what they do.

    In the course of that work, I’ve seen many companies doing things wrong — and a few getting big data very right, including Netflix and Uber.

    Netflix: Changing the way we watch TV and movies

    The streaming movie and TV service Netflix are said to account for one-third of peak-time Internet traffic in the US, and the service now have 65 million members in over 50 countries enjoying more than 100 million hours of TV shows and movies a day. Data from these millions of subscribers is collected and monitored in an attempt to understand our viewing habits. But Netflix’s data isn’t just “big” in the literal sense. It is the combination of this data with cutting-edge analytical techniques that makes Netflix a true Big Data company.

    Although Big Data is used across every aspect of the Netflix business, their holy grail has always been to predict what customers will enjoy watching. Big Data analytics is the fuel that fires the “recommendation engines” designed to serve this purpose.

    At first, analysts were limited by the lack of information they had on their customers. As soon as streaming became the primary delivery method, many new data points on their customers became accessible. This new data enabled Netflix to build models to predict the perfect storm situation of customers consistently being served with movies they would enjoy.

    Happy customers, after all, are far more likely to continue their subscriptions.

    Another central element to Netflix’s attempt to give us films we will enjoy is tagging. The company pay people to watch movies and then tag them with elements the movies contain. They will then suggest you watch other productions that were tagged similarly to those you enjoyed. 

    Netflix’s letter to shareholders in April 2015 shows their Big Data strategy was paying off. They added 4.9 million new subscribers in Q1 2015, compared to four million in the same period in 2014. In Q1 2015 alone, Netflix members streamed 10 billion hours of content. If Netflix’s Big Data strategy continues to evolve, that number is set to increase.

    Uber: Disrupting car services in the sharing economy

    Uber is a smartphone app-based taxi booking service which connects users who need to get somewhere with drivers willing to give them a ride. 

    Uber’s entire business model is based on the very Big Data principle of crowdsourcing: anyone with a car who is willing to help someone get to where they want to go can offer to help get them there. This gives greater choice for those who live in areas where there is little public transport, and helps to cut the number of cars on our busy streets by pooling journeys.

    Uber stores and monitors data on every journey their users take, and use it to determine demand, allocate resources and set fares. The company also carry out in-depth analysis of public transport networks in the cities they serve, so they can focus coverage in poorly served areas and provide links to buses and trains.

    Uber holds a vast database of drivers in all of the cities they cover, so when a passenger asks for a ride, they can instantly match you with the most suitable drivers. The company have developed algorithms to monitor traffic conditions and journey times in real time, meaning prices can be adjusted as demand for rides changes, and traffic conditions mean journeys are likely to take longer. This encourages more drivers to get behind the wheel when they are needed – and stay at home when demand is low. 

    The company have applied for a patent on this method of Big Data-informed pricing, which they call “surge pricing”. This is an implementation of “dynamic pricing” – similar to that used by hotel chains and airlines to adjust price to meet demand – although rather than simply increasing prices at weekends or during public holidays it uses predictive modelling to estimate demand in real time.

    Data also drives (pardon the pun) the company’s UberPool service. According to Uber’s blog, introducing this service became a no-brainer when their data told them the “vast majority of [Uber trips in New York] have a look-a-like trip – a trip that starts near, ends near and is happening around the same time as another trip”. 

    Other initiatives either trialed or due to launch in the future include UberChopper, offering helicopter rides to the wealthy, Uber-Fresh for grocery deliveries and Uber Rush, a package courier service.

    These are just two companies using Big Data to generate a very real advantage and disrupt their markets in incredible ways. I’ve compiled dozens more examples of Big Data in practice in my new book of the same name, in the hope that it will inspire and motivate more companies to similarly innovate and take their fields into the future. 

    Thank you for reading my post. Here at LinkedIn and at Forbes I regularly write about management, technology and Big Data. If you would like to read my future posts then please click 'Follow' and feel free to also connect via TwitterFacebookSlideshare, and The Advanced Performance Institute.

    You might also be interested in my new and free ebook on Big Data in Practice, which includes 3 Amazing use cases from NASA, Dominos Pizza and the NFL. You can download the ebook from here: Big Data in Practice eBook.

    Author: Bernard Marr

    Source: Linkedin Blog

  • Big Data Analytics: hype?

    Big DAta explosion

    Er gaat momenteel geen dag voorbij of er is in de media wel een bericht of discussie te vinden rond data. Of het nu gaat om vraagstukken rond privacy, nieuwe mogelijkheden en bedreigingen van Big Data, of nieuwe diensten gebaseerd op het slim combineren en uitwisselen van gegevens: je kunt er niet onderuit dat informatie ‘hot’ is. 

    Is Big Data Analytics - ofwel de analyse van grote hoeveelheden data, veelal ongestructureerd - een hype? Toen de term enkele jaren geleden opeens overal opdook zeiden veel sceptici dat het een truc was van software leveranciers om iets bestaands - data analyse wordt al lang toegepast - opnieuw te vermarkten. Inmiddels zijn alle experts het er over eens dat Big Data Analytics in de vorm waarin het nu kan worden toegepast een enorme impact gaat hebben op de wereld zoals wij die kennen. Ja, het is een hype, maar wel een terechte.

    Big Data Analytics – wat is dat nou eigenlijk?

    Big Data is al jaren een hype, en zal dat nog wel even blijven. Wanneer is er nou sprake van ‘Big’ Data, bij hoeveel tera-, peta- of yottabytes (1024) ligt de grens tussen ‘Normal’ en ‘Big’ Data? Het antwoord is: er is geen duidelijke grens. Je spreekt van Big Data als het te veel wordt voor jouw mensen en middelen. Big Data Analytics richt zich op de exploratie van data middels statistische methoden om nieuwe inzichten op te doen waarmee de toekomstige prestaties verbeterd kunnen worden. 

    Big Data Analytics als stuurmiddel voor prestaties is al volop in gebruik bij bedrijven. Denk aan een sportclub die het inzet om te bepalen welke spelers ze gaan kopen. Of een bank die gestopt is alleen talenten te rekruteren van topuniversiteiten omdat bleek dat kandidaten van minder prestigieuze universiteiten het beter deden. Of bijvoorbeeld een verzekeringsmaatschappij die het gebruikt om fraude te detecteren. Enzovoorts. Enzovoorts. 

    Wat maakt Big Data Analytics mogelijk? 

    Tenminste drie ontwikkelingen zorgen ervoor dat Big Data Analytics een hele nieuwe fase ingaat. 

    1. Rekenkracht 

    De toenemende rekenkracht van computers stelt analisten in staat om enorme datasets te gebruiken, en een groot aantal variabelen te gebruiken in hun analyses. Door de toegenomen rekenkracht is het niet langer nodig om een steekproef te nemen zoals vroeger, maar kan alle data gebruikt worden voor een analyse. De analyse kan worden gedaan met behulp van specifieke tools en vereist vaak specifieke kennis en vaardigheden van de gebruiker, een data analist of data scientist. 

    2. Datacreatie 

    Het internet en social media zorgen ervoor dat de hoeveelheid data die we creëren exponentieel toeneemt. Deze data is inzetbaar voor talloze data-analyse toepassingen, waarvan de meeste nog bedacht moeten worden. 

    Om een beeld te krijgen van de datagroei, overweeg deze statistieken: 

    - Meer dan een miljard tweets worden iedere 48 uur verstuurd.

    - Dagelijks komen een miljoen Twitter accounts bij.

    - Iedere 60 seconden worden er 293.000 status updates gepost op facebook.

    - De gemiddelde Facebook gebruiker creëert 90 stukken content per maand, inclusief links, nieuws, verhalen, foto’s en video’s. 

    - Elke minuut komen er 500 Facebook accounts bij. 

    - Iedere dag worden 350 miljoen foto’s geupload op facebook, wat neerkomt op 4.000 foto’s per seconde.

    - Als Wikipedia een boek zou zijn, zou het meer dan twee miljard pagina’s omvatten. 

    Bron: http://www.iacpsocialmedia.org

    3. Dataopslag 

    De kosten voor het opslaan van data zijn sterk afgenomen de afgelopen jaren, wat de mogelijkheden om analytics toe te passen heeft doen groeien. Een voorbeeld is de opslag van videobeelden. Beveiligingscamera’s in een supermarkt namen eerst alles op tape op. Als er na drie dagen niks gebeurd was werd de band teruggespoeld en werd er opnieuw over opgenomen.  

    Dat is niet langer nodig. Een supermarkt kan nu digitale beelden - die de hele winkel vastleggen - naar de cloud versturen waar ze blijven opgeslagen. Vervolgens is het mogelijk analytics op deze beelden toe te passen: welke promoties werken goed? Voor welke schappen blijven mensen lang staan? Wat zijn de blinde hoeken in de winkel? Of predictive analytics: Stel dat we dit product in dit schap zouden leggen, wat zou het resultaat dan zijn? Deze analyses kan het management gebruiken om tot een optimale winkelinrichting te komen en maximaal rendement uit promoties te halen.  

    Betekenis Big Data Analytics

    Big Data - of Smart Data - zoals Bernard Marr, auteur van het nieuwe praktische boek ‘Big Data: Using SMART Big Data Analytics To Make Better Decisions and Improve Performance’ - het liever noemt is de wereld aan het veranderen. De hoeveelheid data neemt exponentieel toe momenteel, maar de hoeveelheid is voor de meeste beslissers grotendeels irrelevant. Het gaat erom hoe men het inzet om te komen tot waardevolle inzichten.  

    Big Data 

    De meningen zijn verdeeld over wat big data nou precies is. Gartner definieert big data vanuit de drie V’s Volume, Velocity en Variety. Het gaat dus om de hoeveelheid data, de snelheid waarmee de data verwerkt kan worden en de diversiteit van de data. Met dit laatste wordt bedoeld dat de data, naast gestructureerde bronnen, ook uit allerlei ongestructureerde bronnen gehaald kan worden, zoals internet en social media, inclusief tekst, spraak en beeldmateriaal.

    Analytics

    Wie zou niet de toekomst willen voorspellen? Met voldoende data, de juiste technologie en een dosis wiskunde komt dat binnen bereik. Dit wordt business analytics genoemd, maar er zijn veel andere termen in omloop, zoals data science, machine learning en, jawel, big data. Ondanks dat deze wiskunde al vrij lang bestaat, is het nog een relatief nieuw vakgebied dat tot voor kort alleen voor gespecialiseerde bedrijven met veel geld bereikbaar was.

    Toch maken we er zonder het te weten allemaal al gebruik van. Spraakherkenning op je telefoon, virusscanners op je PC en spamfilters voor email zijn gebaseerd op concepten die in het domein van business analytics vallen. Ook de ontwikkeling van zelfrijdende auto’s en alle stapjes daarnaartoe (adaptive cruise control, lane departure system, et cetera) zijn alleen mogelijk door machine learning. 

    Analytics is kortom de ontdekking en de communicatie van zinvolle patronen in data. Bedrijven kunnen analytics toepassen op zakelijke gegevens om hun bedrijfsprestaties te beschrijven, voorspellen en verbeteren. Er zijn verschillende soorten analytics, zoals tekst-analytics, spraak-analytics en video-analytics. 

    Een voorbeeld van tekst-analytics is een advocatenfirma die hiermee duizenden documenten doorzoekt om zo snel de benodigde informatie te vinden ter voorbereiding van een nieuwe zaak. Speech-analytics worden bijvoorbeeld gebruikt in callcenters om vast te stellen wat de stemming van de beller is, zodat de medewerker hier zo goed mogelijk op kan anticiperen. Video-analytics kan gebruikt worden voor het monitoren van beveiligingscamera’s. Vreemde patronen worden er zo uitgepikt, waarop beveiligingsmensen in actie kunnen komen. Ze hoeven nu zelf niet langer uren naar het scherm te staren terwijl er niks gebeurt.  

    Het proces kan zowel top-down als bottom-up benaderd worden. De meest toegepaste benaderingen zijn: 

    • Datamining: Dataonderzoek op basis van een gerichte vraag, waarin men op zoek gaat naar een specifiek antwoord.
    • Trend-analyse en predictive analytics: Door gericht op zoek te gaan naar oorzaak-gevolg verbanden om bepaalde gebeurtenissen te kunnen verklaren of om toekomstig gedrag te voorspellen.
    • Data discovery: Data onderzoeken op onverwachte verbanden of andere opvallende zaken.

    Feiten en dimensies

    De data die helpen om inzichten te verkrijgen of besluiten te nemen zijn feiten. Bijvoorbeeld EBITDA, omzet of aantal klanten. Deze feiten krijgen waarde door dimensies. De omzet over het jaar 2014 voor de productlijn babyvoeding in de Regio Oost. Door met dimensies te gaan analyseren kun je verbanden ontdekken, trends benoemen en voorspellingen doen voor de toekomst.

    Analytics versus Business Intelligence

    Waarin verschilt analytics nu van business intelligence (BI)? In feite is analytics op data gebaseerde ondersteuning van de besluitvorming. BI toont wat er gebeurd is op basis van historische gegevens die gepresenteerd worden in vooraf bepaalde rapporten. Waar BI inzicht geeft in het verleden, focust analytics zich op de toekomst. Analytics vertelt wat er kan gaan gebeuren door op basis van de dagelijks veranderende datastroom met ‘wat als’- scenario’s inschattingen te maken en risico’s en trends te voorspellen.

    Voorbeelden Big Data Analytics

    De wereld wordt steeds slimmer. Alles is meetbaar, van onze hartslag tijdens een rondje joggen tot de looppatronen in winkels. Door die data te gebruiken, kunnen we indrukwekkende analyses maken om bijvoorbeeld filevorming te voorkomen, epidemieën voortijdig te onderdrukken en medicijnen op maat aan te bieden.

    Deze evolutie is zelfs zichtbaar in de meest traditionele industrieën, zoals de visserij. In plaats van - zoals vanouds - puur te vertrouwen op een kompas en ‘insider knowledge’ doorgegeven door generaties vissersfamilies, koppelt de hedendaagse visser sensoren aan vissen en worden scholen opgespoord met de meest geavanceerde GPS-systemen. Big Data Analytics wordt inmiddels toegepast in alle industrieën en sectoren. Ook steden maken er gebruik van. Hieronder een overzicht van mogelijke toepassingen:

    Doelgroep beter begrijpen

    De Amerikaanse mega retailer Target weet door een combinatie van 25 aankopen wanneer een vrouw zwanger is. Dat is één van de weinige perioden in een mensenleven waarin koopgedrag afwijkt van routines. Hier speelt Target slim op in met baby-gerelateerde aanbiedingen. Amazon is zo goed geworden in predictive analytics dat ze producten al naar naar je toe kunnen sturen voordat je ze gekocht hebt. Als het aan hun ligt, kun je je bestelling binnenkort middels een drone binnen 30 minuten bezorgd krijgen.

    Processen verbeteren 

    Processen veranderen ook door Big Data. Bijvoorbeeld inkoop. Walmart weet dat er meer ‘Pop Tarts’ verkocht worden bij een stormwaarschuwing. Ze weten niet waarom dat is, maar ze zorgen er wel voor dat ze voldoende voorraad hebben en de snacks een mooie plek in de winkel geven. Een ander proces waar data grote kansen biedt voor optimalisatie is de supply chain. Welke routes laat je chauffeurs rijden en in welke volgorde laat je ze bestellingen afleveren? Real-time weer- en verkeerdata zorgt voor bijsturing. 

    Business optimalisatie

    Bij Q-Park betalen klanten per minuut voor parkeren, maar het is ook mogelijk een abonnement af te nemen. De prijs per minuut is bij een abonnement vele malen goedkoper. Als de garage vol begint te raken, is het vervelend als er net een klant met abonnement aan komt rijden, want dat kost omzet. Het analytics systeem berekent daarom periodiek de optimale mix van abonnementsplekken en niet abonnementsplekken op basis van historische gegevens. Zo haalt de garage exploitant het maximale eruit wat eruit te halen valt. 

    Optimalisatie machines 

    General Electric (GE) is een enthousiast gebruiker van big data. Het conglomeraat gebruikt al veel data in haar data-intensieve sectoren, zoals gezondheidszorg en financiële dienstverlening, maar het bedrijf ziet ook industriële toepassingen, zoals in GE’s businesses voor locomotieven, straalmotoren en gasturbines. GE typeert de apparaten in bedrijfstakken als deze ook wel als ‘dingen die draaien’ en verwacht dat de meeste van die dingen, zo niet alle, binnenkort gegevens over dat ‘draaien’ kunnen vastleggen en communiceren. 

    Een van die draaiende dingen is de gasturbine die de klanten van GE gebruiken voor energieopwekking. GE monitort nu al meer dan 1500 turbines vanuit een centrale faciliteit, dus een groot deel van de infrastructuur voor gebruik van big data om de prestaties te verbeteren is er al. GE schat dat het de efficiëntie van de gemonitorde turbines met minstens 1 procent kan verbeteren via software en netwerkoptimalisatie, doeltreffender afhandelen van onderhoud en betere harmonisering van het gas-energiesysteem. dat lijkt misschien niet veel, maar het zou neerkomen op een brandstofbesparing van 66 miljard dollar in de komende 15 jaar.
    (bron: 'Big Data aan het werk' door Thomas Davenport)

    Klantenservice en commercie

    Een grote winst van de nieuwe mogelijkheden van big data voor bedrijven is dat ze alles aan elkaar kunnen verbinden; silo’s, systemen, producten, klanten, enzovoorts. Binnen de telecom hebben ze bijvoorbeeld het cost-to-serve-concept geïntroduceerd. Daarmee kunnen zij vanuit de daadwerkelijke operatie kijken wat voor contactpunten ze met de klant hebben; hoe vaak hij belt met de klantenservice; wat zijn betaalgedrag is; hoe hij zijn abonnement gebruikt; hoe hij is binnengekomen; hoe lang hij klant is; waar hij woont en werkt; welke telefoon hij gebruikt; et cetera. 

    Wanneer het telecombedrijf de data van al die invalshoeken bij elkaar brengt, ontstaat er opeens een hele andere kijk op de kosten en omzet van die klant. In die veelheid van gezichtspunten liggen mogelijkheden. Alleen al door data te integreren en in context te bekijken, ontstaan gegarandeerd verrassende nieuwe inzichten. Waar bedrijven nu typisch naar kijken is de top 10 klanten die het meeste en minste bijdragen aan de omzet. Daar trekken ze dan een streep tussen. Dat is een zeer beperkte toepassing van de beschikbare data. Door de context te schetsen kan het bedrijf wellicht acties bedenken waarmee ze de onderste 10 kunnen enthousiasmeren iets meer te doen. Of er alsnog afscheid van nemen, maar dan weloverwogen.

    Slimme steden

    New York City maakt tegenwoordig gebruik van een ‘soundscape’ van de hele stad. Een verstoring in het typische stadsgeluid, zoals bijvoorbeeld een pistoolschot, wordt direct doorgegeven aan de politie die er op af kunnen. Criminelen gaan een moeilijke eeuw tegemoet door de toepassing van dergelijke Big Data Analytics. 

    Slimme ziekenhuizen

    Of het nu gaat om de informatie die gedurende een opname van een patiënt wordt verzameld of informatie uit de algemene jaarrapporten: Big Data wordt voor ziekenhuizen steeds belangrijker voor verbeterde patiëntenzorg, beter wetenschappelijk onderzoek en bedrijfsmatige informatie. Medische data verdubbelen iedere vijf jaar in volume. Deze gegevens kunnen van grote waarde zijn voor het leveren van de juiste zorg.

    HR Analytics

    Data kan worden aangewend om de prestaties van medewerkers te monitoren en te beoordelen. Dit geldt niet alleen voor de werknemers van bedrijven, maar zal ook steeds vaker worden toegepast om de toplaag van managers en leiders objectief te kunnen beoordelen. 

    Een bedrijf dat de vruchten heeft geplukt van HR Analytics is Google. De internet- en techgigant had nooit het geloof dat managers veel impact hadden, dus ging het analyticsteam aan de slag met de vraag: ‘Hebben managers eigenlijk een positieve impact bij Google?’ Hun analyse wees uit dat managers wel degelijk verschil maken en een positieve impact kunnen hebben bij Google. De volgende vraag was: ‘Wat maakt een geweldige manager bij Google?’ Dit resulteerde in 8 gedragingen van de beste managers en de 3 grootste valkuilen. Dit heeft geleid tot een zeer effectief training en feedback programma voor managers dat een hele positieve invloed heeft gehad op de performance van Google.  

    Big Data Analytics in het MKB

    Een veelgehoorde misvatting over Big Data is dat het alleen iets is voor grote bedrijven. Fout, want ieder bedrijf van groot naar klein kan data inzetten. Bernard Marr geeft in zijn boek een voorbeeld van een kleine mode retail onderneming waar hij mee samen heeft gewerkt. 

    De onderneming in kwestie wilden hun sales verhogen. Ze hadden alleen geen data om dit doel te bereiken op de traditionele sales data na. Ze bedachten toen eerst een aantal vragen:

    - Hoeveel mensen passeren onze winkels?

    - Hoeveel stoppen er om in de etalage te kijken en voor hoe lang?

    - Hoeveel komen vervolgens binnen?

    - Hoeveel kopen dan iets? 

    Vervolgens hebben ze een klein discreet apparaat achter het raam geplaatst dat het aantal passerende mobiele telefoons (en daarmee mensen) is gaan meten. Het apparaat legt ook vast hoeveel mensen voor de etalage blijven staan en voor hoe lang, en hoeveel er naar binnen komen. Sales data legt vervolgens vast hoeveel mensen wat kopen. De winkelketen kon vervolgens experimenteren met verschillende etalages om te testen welke het meest succesvol waren. Dit project heeft geleid tot fors meer omzet, en het sluiten van één worstelend filiaal waar onvoldoende mensen langs bleken te komen.  

    Conclusie

    De Big Data revolutie maakt de wereld in rap tempo slimmer. Voor bedrijven is de uitdaging dat deze revolutie plaatsvindt naast de ‘business as usual’. Er is nog veel te doen voordat de meeste ondernemingen in staat zijn echt te profiteren van Big Data Analytics. Het gros van de organisaties is al blij dat ze op een goede manier kunnen rapporteren en analyseren. Veel bedrijven moeten nog aan het experiment beginnen, iets waarbij ze mogelijk over hun koudwatervrees heen moeten stappen. Het is in ieder geval zeker dat er nu snel heel veel kansen zullen ontstaan. De race die nu begonnen is zal uitwijzen wie er met de nieuwe inzichten aan de haal gaan. 

    Auteur: Jeppe Kleyngeld

    Bron: FMI

                

  • Big data can’t bring objectivity to a subjective world

    justiceIt seems everyone is interested in big data these days. From social scientists to advertisers, professionals from all walks of life are singing the praises of 21st-century data science.
     
    In the social sciences, many scholars apparently believe it will lend their subject a previously elusive objectivity and clarity. Sociology books like An End to the Crisis of Empirical Sociology? and work from bestselling authors are now talking about the superiority of “Dataism” over other ways of understanding humanity. Professionals are stumbling over themselves to line up and proclaim that big data analytics will enable people to finally see themselves clearly through their own fog.
     
    However, when it comes to the social sciences, big data is a false idol. In contrast to its use in the hard sciences, the application of big data to the social, political and economic realms won’t make these area much clearer or more certain.
     
    Yes, it might allow for the processing of a greater volume of raw information, but it will do little or nothing to alter the inherent subjectivity of the concepts used to divide this information into objects and relations. That’s because these concepts — be they the idea of a “war” or even that of an “adult” — are essentially constructs, contrivances liable to change their definitions with every change to the societies and groups who propagate them.
     
    This might not be news to those already familiar with the social sciences, yet there are nonetheless some people who seem to believe that the simple injection of big data into these “sciences” should somehow make them less subjective, if not objective. This was made plain by a recent article published in the September 30 issue of Science.
     
    Authored by researchers from the likes of Virginia Tech and Harvard, “Growing pains for global monitoring of societal events” showed just how off the mark is the assumption that big data will bring exactitude to the large-scale study of civilization.
     
    The systematic recording of masses of data alone won’t be enough to ensure the reproducibility and objectivity of social studies.
    More precisely, it reported on the workings of four systems used to build supposedly comprehensive databases of significant events: Lockheed Martin’s International Crisis Early Warning System (ICEWS), Georgetown University’s Global Data on Events Language and Tone (GDELT), the University of Illinois’ Social, Political, and Economic Event Database (SPEED) and the Gold Standard Report (GSR) maintained by the not-for-profit MITRE Corporation.
     
    Its authors tested the “reliability” of these systems by measuring the extent to which they registered the same protests in Latin America. If they or anyone else were hoping for a high degree of duplication, they were sorely disappointed, because they found that the records of ICEWS and SPEED, for example, overlapped on only 10.3 percent of these protests. Similarly, GDELT and ICEWS hardly ever agreed on the same events, suggesting that, far from offering a complete and authoritative representation of the world, these systems are as partial and fallible as the humans who designed them.
     
    Even more discouraging was the paper’s examination of the “validity” of the four systems. For this test, its authors simply checked whether the reported protests actually occurred. Here, they discovered that 79 percent of GDELT’s recorded events had never happened, and that ICEWS had gone so far as entering the same protests more than once. In both cases, the respective systems had essentially identified occurrences that had never, in fact, occurred.
     
    They had mined troves and troves of news articles with the aim of creating a definitive record of what had happened in Latin America protest-wise, but in the process they’d attributed the concept “protest” to things that — as far as the researchers could tell — weren’t protests.
     
    For the most part, the researchers in question put this unreliability and inaccuracy down to how “Automated systems can misclassify words.” They concluded that the examined systems had an inability to notice when a word they associated with protests was being used in a secondary sense unrelated to political demonstrations. As such, they classified as protests events in which someone “protested” to her neighbor about an overgrown hedge, or in which someone “demonstrated” the latest gadget. They operated according to a set of rules that were much too rigid, and as a result they failed to make the kinds of distinctions we take for granted.
     
    As plausible as this explanation is, it misses the more fundamental reason as to why the systems failed on both the reliability and validity fronts. That is, it misses the fact that definitions of what constitutes a “protest” or any other social event are necessarily fluid and vague. They change from person to person and from society to society. Hence, the systems failed so abjectly to agree on the same protests, since their parameters on what is or isn’t a political demonstration were set differently from each other by their operators.
     
    Make no mistake, the basic reason as to why they were set differently from each other was not because there were various technical flaws in their coding, but because people often differ on social categories. To take a blunt example, what may be the systematic genocide of Armenians for some can be unsystematic wartime killings for others. This is why no amount of fine-tuning would ever make such databases as GDELT and ICEWS significantly less fallible, at least not without going to the extreme step of enforcing a single worldview on the people who engineer them.
     
    It’s unlikely that big data will bring about a fundamental change to the study of people and society.
    Much the same could be said for the systems’ shortcomings in the validity department. While the paper’s authors stated that the fabrication of nonexistent protests was the result of the misclassification of words, and that what’s needed is “more reliable event data,” the deeper issue is the inevitable variation in how people classify these words themselves.
     
    It’s because of this variation that, even if big data researchers make their systems better able to recognize subtleties of meaning, these systems will still produce results with which other researchers find issue. Once again, this is because a system might perform a very good job of classifying newspaper stories according to how one group of people might classify them, but not according to how another would classify them.
     
    In other words, the systematic recording of masses of data alone won’t be enough to ensure the reproducibility and objectivity of social studies, because these studies need to use often controversial social concepts to make their data significant. They use them to organize “raw” data into objects, categories and events, and in doing so they infect even the most “reliable event data” with their partiality and subjectivity.
     
    What’s more, the implications of this weakness extend far beyond the social sciences. There are some, for instance, who think that big data will “revolutionize” advertising and marketing, allowing these two interlinked fields to reach their “ultimate goal: targeting personalized ads to the right person at the right time.” According to figures in the advertising industry “[t]here is a spectacular change occurring,” as masses of data enable firms to profile people and know who they are, down to the smallest preference.
     
    Yet even if big data might enable advertisers to collect more info on any given customer, this won’t remove the need for such info to be interpreted by models, concepts and theories on what people want and why they want it. And because these things are still necessary, and because they’re ultimately informed by the societies and interests out of which they emerge, they maintain the scope for error and disagreement.
     
    Advertisers aren’t the only ones who’ll see certain things (e.g. people, demographics, tastes) that aren’t seen by their peers.
     
    If you ask the likes of Professor Sandy Pentland from MIT, big data will be applied to everything social, and as such will “end up reinventing what it means to have a human society.” Because it provides “information about people’s behavior instead of information about their beliefs,” it will allow us to “really understand the systems that make our technological society” and allow us to “make our future social systems stable and safe.”
     
    That’s a fairly grandiose ambition, yet the possibility of these realizations will be undermined by the inescapable need to conceptualize information about behavior using the very beliefs Pentland hopes to remove from the equation. When it comes to determining what kinds of objects and events his collected data are meant to represent, there will always be the need for us to employ our subjective, biased and partial social constructs.
     
    Consequently, it’s unlikely that big data will bring about a fundamental change to the study of people and society. It will admittedly improve the relative reliability of sociological, political and economic models, yet since these models rest on socially and politically interested theories, this improvement will be a matter of degree rather than kind. The potential for divergence between separate models won’t be erased, and so, no matter how accurate one model becomes relative to the preconceptions that birthed it, there will always remain the likelihood that it will clash with others.
     
    So there’s little chance of a big data revolution in the humanities, only the continued evolution of the field.
  • Big data defeats dengue

    mosquito-aedes-albopictusNumbers have always intrigued Wilson Chua, a big data analyst hailing from Dagupan, Pangasinan and currently residing in Singapore. An accountant by training, he crunches numbers for a living, practically eats them for breakfast, and scans through rows and rows of excel files like a madman.
     
    About 30 years ago, just when computer science was beginning to take off, Wilson stumbled upon the idea of big data. And then he swiftly fell in love. He came across the story of John Snow, the English physician who solved the cholera outbreak in London in 1854, which fascinated him with the idea even further. “You can say he’s one of the first to use data analysis to come out with insight,” he says.
     
    In 1850s-London, everybody thought cholera was airborne. Nobody had any inkling, not one entertained the possibility that the sickness was spread through water. “And so what John Snow did was, he went door to door and made a survey. He plotted the survey scores and out came a cluster that centered around Broad Street in the Soho District of London.
     
    “In the middle of Broad Street was a water pump. Some of you already know the story, but to summarize it even further, he took the lever of the water pump so nobody could extract water from that anymore. The next day,” he pauses for effect, “no cholera.”
     
    The story had stuck with him ever since, but never did he think he could do something similar. For Wilson, it was just amazing how making sense of numbers saved lives.
     
    A litany of data
     
    In 2015 the province of Pangasinan, from where Wilson hails, struggled with rising cases of dengue fever. There were enough dengue infections in the province—2,940 cases were reported in the first nine months of 2015 alone—for it to be considered an epidemic, had Pangasinan chosen to declare it.
     
    Wilson sat comfortably away in Singapore while all this was happening. But when two of his employees caught the bug—he had business interests in Dagupan—the dengue outbreak suddenly became a personal concern. It became his problem to solve.
     
    “I don’t know if Pangasinan had the highest number of dengue cases in the Philippines,” he begins, “but it was my home province so my interests lay there,” he says. He learned from the initial data released by the government that Dagupan had the highest incident of all of Pangasinan. Wilson, remembering John Snow, wanted to dig deeper.
     
    Using his credentials as a technology writer for Manila Bulletin, he wrote the Philippine Integrated Diseases Surveillance and Response team (PIDSR) of the Department of Health, requesting for three years worth of data on Pangasinan.
     
    The DOH acquiesced and sent him back a litany of data on an Excel sheet: 81,000 rows of numbers or around 27,000 rows of data per year. It’s an intimidating number but one “that can fit in a hard disk,” Wilson says.
     
    He then set out to work. Using tools that converted massive data into understandable patterns—graphs, charts, the like—he looked for two things: When dengue infections spiked and where those spikes happened.
     
    “We first determined that dengue was highly related to the rainy season. It struck Pangasinan between August and November,” Wilson narrates. “And then we drilled down the data to uncover the locations, which specific barangays were hardest hit.”
     
    The Bonuan district of the city of Dagupan, which covers the barangays of Bonuan Gueset, Bonuan Boquig, and Bonuan Binloc, accounted for a whopping 29.55 percent—a third of all the cases in Dagupan for the year 2015.
     
    The charts showed that among the 30 barangays, Bonuan Gueset was number 1 in all three years. “It means to me that Bonuan Gueset was the ground zero, the focus of infection.”
     
    But here’s the cool thing: After running the data on analytics, Wilson learned that the PIDS sent more than they had hoped for. They also included the age of those affected. According to the data, dengue in Bonuan was prevalent among school children aged 5-15 years old.
     
    “Now given the background of Aedes aegypti, the dengue-carrying mosquito—they bite after sunrise and a few hours before sunset. So it’s easily to can surmise that the kids were bitten while in school.”
     
    It excited him so much he fired up Google Maps and switched it to satellite image. Starting with Barangay Bonuan Boquig, he looked for places that had schools that had stagnant pools of water nearby. “Lo and behold, we found it,” he says.
     
    Sitting smack in the middle of Lomboy Elementary School and Bonuan Boquig National High School were large pools of stagnant water.
    Like hitting jackpot, Wilson quickly posted his findings on Facebook, hoping someone would take up the information and make something out of it. Two people hit him up immediately: Professor Nicanor Melecio, the project director of the e-Smart Operation Center of Dagupan City Government, and Wesley Rosario, director at the Bureau of Fisheries and Aquatic Resources, a fellow Dagupeño.
     
    A social network
     
    Unbeknownst to Wilson, back in Dagupan, the good professor had been busy, conducting studies on his own. The e-Smart Center, tasked with crisis, flooding, disaster-type of situation, had been looking into the district’s topography vis-a-vis rainfall in Bonuan district. “We wanted to detect the catch basins of the rainfall,” he says, “the elevation of the area, the landscape. Basically, we wanted to know the deeper areas where rainfall could possibly stagnate.”
     
    Like teenage boys, the two excitedly messaged each other on Facebook. “Professor Nick had lieder maps of Dagupan, and when he showed me those, it confirmed that these areas, where we see the stagnant water, during rainfall, are those very areas that would accumulate rainfall without exit points,” Wilson says. With no sewage system, the water just sat there and accumulated.
     
    With Wilson still operating remotely in Singapore, Professor Melecio took it upon himself to do the necessary fieldwork. He went to the sites, scooped up water from the stagnant pools, and confirmed they were infested with kiti-kiti or wriggling mosquito larvae.
     
    Professor Melecio quickly coordinated with Bonuan Boquig Barangay Captain Joseph Maramba to involve the local government of Bonuan Boquig on their plan to conduct vector control measures.
     
    A one-two punch
     
    Back in Singapore, Wilson found inspiration from the Tiger City’s solution to its own mosquito problem. “They used mosquito dunks that contained BTI, the bacteria that infects mosquitoes and kills its eggs,” he says.
     
    He used his own money to buy a few of those dunks, imported them to Dagupan, and on Oct. 6, had his team scatter them around the stagnant pools of Bonuan Boquig. The solution was great, dream-like even, except it had a validity period. Beyond 30 days, the bacteria is useless.
     
    Before he even had a chance to even worry about the solution’s sustainability, BFAR director Wesley Rosario pinged him on Facebook saying the department had 500 mosquito fish for disposal. “Would we want to send somebody to his office, get the fish, and release them into the pools?”
     
    The Gambezi earned its nickname because it eats, among other things, mosquito larvae. In Wilson’s and Wesley’s mind, the mosquito fish can easily make a home out of the stagnant pools and feast on the very many eggs present. When the dry season comes, the fish will be left to die. Except, here’s the catch: mosquito fish is edible.
     
    “The mosquito fish solution was met with a few detractors,” Wilson admits. “There are those who say every time you introduce a new species, it might become invasive. But it’s not really new as it is already endemic to the Philippines. Besides we are releasing them in a landlocked area, so wala namang ibang ma-a-apektuhan.”
     
    The critics, however, were silenced quickly. Four days after deploying the fish, the mosquito larvae were either eaten or dead. Twenty days into the experiment, with the one-two punch of the dunks and the fish, Barangay Boquig reported no new infections of dengue.
     
    “You know, we were really only expecting the infections to drop 50 percent,” Wilson says, rather pleased. More than 30 days into the study and Barangay Bonuan Boquig still has no reports of new cases. “We’re floored,” he added.
     
    At the moment, nearby barangays are already replicating what Wilson, Professor Melecio, and Wesley Rosario have done with Bonuan Boquig. Michelle Lioanag of the non-profit Inner Wheel Club of Dagupan has already taken up the cause to do the same for Bonuan Gueset, the ground zero for dengue in Dagupan.
     
    According to Wilson, what they did in Bonuan Boquig is just a proof of concept, a cheap demonstration of what big data can do. “It was so easy to do,” he said. “Everything went smoothly,” adding all it needed was cooperative and open-minded community leaders who had nothing more than sincere public service in their agenda.
     
    “You know, big data is multi-domain and multi-functional. We can use it for a lot of industries, like traffic for example. I was talking with the country manager of Waze…” he fires off rapidly, excited at what else his big data can solve next.
     
    Source: news.mb.com, November 21, 2016
  • Big Data Experiment Tests Central Banking Assumptions

    centrale bank van nederland(Bloomberg) -- Central bankers may do well to pay less attention to the bond market and their own forecasts than they do to newspaper articles.That’s the somewhat heretical finding of a new algorithm-based index being tested at Norway’s central bank in Oslo. Researchers fed 26 years of news (or 459,745 news articles) from local business daily Dagens Naringsliv into a macroeconomic model to create a “newsy coincident index of business cycles” to help it gauge the state of the economy.

    Leif-Anders Thorsrud, a senior researcher at the bank who started the project while getting his Ph.D. at the Norwegian Business School, says the “hypothesis is quite simple: the more that is written on a subject at a time, the more important the subject could be.”

    He’s already working on a new paper (yet to be published) showing it’s possible to make trades on the information. According to Thorsrud, the work is part of a broader “big data revolution.”

    Big data and algorithms have become buzzwords for hedge funds and researchers looking for an analytical edge when reading economic and political trends. For central bankers, the research could provide precious input to help them steer policy through an unprecedented era of monetary stimulus, with history potentially a serving as a poor guide in predicting outcomes.

    At Norway’s central bank, researchers have found a close correlation between news and economic developments. Their index also gives a day-to-day picture of how the economy is performing, and do so earlier than lagging macroeconomic data.

    But even more importantly, big data can be used to predict where the economy is heading, beating the central bank’s own forecasts by about 10 percent, according to Thorsrud. The index also showed it was a better predictor of the recession in the early 2000s than market indicators such as stocks or bonds.

    The central bank has hired machines, which pore daily through articles from Dagens Naringsliv and divide current affairs into topics and into words with either positive or negative connotations. The data is then fed into a macroeconomic model employed by the central bank, which spits out a proxy of GDP.

    Thorsrud says the results of the index are definitely “policy relevant,” though it’s up to the operative policy makers whether they will start using the information. Other central bank such as the Bank of England are looking at similar tools, he said.

    While still in an experimental stage, the bank has set aside more resources to continue the research, Thorsrud said. “In time this could be a useful in the operative part of the bank.”

    Bron: Informatie Management
  • Big Data gaat onze zorg verbeteren

    Hij is een man met een missie. En geen geringe: hij wil samen met patiënten, de zorgverleners en verzekeraars een omslag in de gezondheidszorg bewerkstelligen, waarbij de focus verlegd wordt van het managen van ziekte naar het managen van gezondheid. Jeroen Tas, CEO Philips Connected Care & Health Informatics, over de toekomst van de zorg.

    big-data-healthcare-2Wat is er mis met het huidige systeem?

    “In de ontwikkelde wereld wordt gemiddeld 80 procent van het budget voor zorg besteed aan het behandelen van chronische ziektes, zoals hart- en vaatziektes, longziektes, diabetes en verschillende vormen van kanker. Slechts 3 procent van dat budget wordt besteed aan preventie, aan het voorkomen van die ziektes. Terwijl we weten dat 80 procent van hart- en vaatziekten, 90 procent van diabetes type 2 en 50 procent van kanker te voorkomen zijn. Daarbij spelen sociaaleconomische factoren mee, maar ook voeding, wel of niet roken en drinken, hoeveel beweging je dagelijks krijgt en of je medicatie goed gebruikt. We sturen dus met het huidige systeem lang niet altijd op op de juiste drivers om de gezondheid van mensen te bevorderen en hun leven daarmee beter te maken. 50 procent van de patiënten neemt hun medicatie niet of niet op tijd in. Daar liggen mogelijkheden voor verbetering.”

    Dat systeem bestaat al jaren - waarom is het juist nu een probleem?
    “De redenen zijn denk ik alom bekend. In veel landen, waaronder Nederland, vergrijst de bevolking en neemt daarmee het aantal chronisch zieken toe, en dus ook de druk op de zorg. Daarbij verandert ook de houding van de burger ten aanzien van zorg: beter toegankelijk, geïntegreerd en 24/7, dat zijn de grote wensen. Tot slot nemen de technologische mogelijkheden sterk toe. Mensen kunnen en willen steeds vaker zelf actieve rol spelen in hun gezondheid: zelfmeting, persoonlijke informatie en terugkoppeling over voortgang. Met Big Data zijn we nu voor het eerst in staat om grote hoeveelheden data snel te analyseren, om daarin patronen te ontdekken en meer te weten te komen over ziektes voorspellen en voorkomen. Kortom, we leven in een tijd waarin er binnen korte tijd heel veel kan en gaat veranderen. Dan is het belangrijk om op de juiste koers te sturen.”

    Wat moet er volgens jou veranderen?
    “De zorg is nog steeds ingericht rond (acute) gebeurtenissen. Gezondheid is echter een continu proces en begint met gezond leven en preventie. Als mensen toch ziek worden, volgt er diagnose en behandeling. Vervolgens worden mensen beter, maar hebben ze misschien nog wel thuis ondersteuning nodig. En hoop je dat ze weer verder gaan met gezond leven. Als verslechtering optreedt is tijdige interventie wenselijk. De focus van ons huidige systeem ligt vrijwel volledig op diagnose en behandeling. Daarop is ook het vergoedingssysteem gericht: een radioloog wordt niet afgerekend op zijn bijdrage aan de behandeling van een patiënt maar op de hoeveelheid beelden die hij maakt en beoordeelt. Terwijl we weten dat er heel veel winst in termen van tijd, welzijn en geld te behalen valt als we juist meer op gezond leven en preventie focussen. 

    Er moeten ook veel meer verbanden komen tussen de verschillende pijlers in het systeem en terugkoppeling over de effectiviteit van diagnose en behandeling. Dat kan bijvoorbeeld door het delen van informatie te stimuleren. Als een cardioloog meer gegevens heeft over de thuissituatie van een patiënt, bijvoorbeeld over hoe hij zijn medicatie inneemt, eet en beweegt, dan kan hij een veel beter behandelplan opstellen, toegesneden op de specifieke situatie van de patiënt. Als de thuiszorg na behandeling van die patiënt ook de beschikking heeft over zijn data, weet men waarop er extra gelet moet worden voor optimaal herstel. En last maar zeker not least, de patiënt moet ook over die data beschikken, om zo gezond mogelijk te blijven. Zo ontstaat een patiëntgericht systeem gericht op een optimale gezondheid.”

    Dat klinkt heel logisch. Waarom gebeurt het dan nog niet?
    “Alle verandering is lastig – en zeker verandering in een sector als de zorg, die om begrijpelijke redenen conservatief is en waarin er complexe processen spelen. Het is geen kwestie van technologie: alle technologie die we nodig hebben om de omslag tot stand te brengen, is er. We hebben sensoren om data automatisch te generen, die in de omgeving van de patiënt kunnen worden geïnstalleerd, die hij kan dragen – denk aan een Smarthorloge – en die zelfs in zijn lichaam kunnen zitten, in het geval van slimme geneesmiddelen. Daarmee komt de mens centraal te staan in het systeem, en dat is waar we naartoe willen.
    Er moet een zorgnetwork om ieder persoon komen, waarin onderling data wordt gedeeld ten behoeve van de persoonlijke gezondheid. Dankzij de technologie kunnen veel behandelingen ook op afstand gebeuren, via eHealth oplossingen. Dat is veelal sneller en vooral efficiënter dan mensen standaard doorsturen naar het ziekenhuis. Denk aan thuismonitoring, een draagbaar echo apparaat bij de huisarts of beeldbellen met een zorgverlener. We kunnen overigens al hartslag, ademhaling en SPo2 meten van een videobeeld. 

    De technologie is er. We moeten het alleen nog combineren, integreren en vooral: implementeren. Implementatie hangt af van de bereidheid van alle betrokkenen om het juiste vergoedingsstelsel en samenwerkingsverband te vinden: overheid, zorgverzekeraars, ziekenhuis, artsen, zorgverleners en de patiënt zelf. Daarover ben ik overigens wel positief gestemd: ik zie de houding langzaam maar zeker veranderen. Er is steeds meer bereidheid om te veranderen.”

    Is die bereidheid de enige beperkende factor?
    “We moeten ook een aantal zaken regelen op het gebied van data. Data moet zonder belemmeringen kunnen worden uitgewisseld, zodat alle gegevens van een patiënt altijd en overal beschikbaar zijn. Dat betekent uiteraard ook dat we ervoor moeten zorgen dat die gegevens goed beveiligd zijn. We moeten ervoor zorgen dat we dat blijvend kunnen garanderen. En tot slot moeten we werken aan het vertrouwen dat nodig is om gegevens te standaardiseren en te delen, bij zorgverleners en vooral bij de patiënt.Dat klinkt heel zwaar en ingewikkeld maar we hebben het eerder gedaan. Als iemand je twintig jaar geleden had verteld dat je via internet al je bankzaken zou regelen, zou je hem voor gek hebben versleten: veel te onveilig. Inmiddels doen we vrijwel niet anders.
    De shift in de zorg nu vraagt net als de shift in de financiële wereld toen om een andere mindset. De urgentie is er, de technologie is er, de bereidheid ook steeds meer – daarom zie ik de toekomst van de zorg heel positief in.”

     Bron: NRC
  • Business Data Scientist 2.0

    Ruim 3 jaar geleden verzorgden we de eerste leergang Business Data Scientist. Getriggerd door de vele sexy vacature teksten vroegen we ons als docenten af wat een data scientist nu exact tot data scientist maakt? In de vacatureteksten viel ons naast een enorme variëteit ook een waslijst aan noodzakelijke competenties op. De associatie met het (meestal) denkbeeldige schaap met de vijf poten was snel gelegd. Daarnaast sprak uit die vacatureteksten in 2014 vooral hoop en ambitie. Bedrijven met hoge verwachtingen op zoek naar deskundig personeel om de alsmaar groter wordende stroom data te raffineren tot waarde voor de onderneming. Wat komt daar allemaal bij kijken?

    Een aantal jaar en 7 leergangen later is er veel veranderd. Maar eigenlijk ook weer weinig. De verwachtingen van bedrijven zijn nog steeds torenhoog. De data scientist komt voor in alle vormen en gedaanten. Dat lijkt geaccepteerd. Maar de kern: hoe data tot waarde te brengen en wat daarbij komt kijken blijft onderbelicht. De relevantie voor een opleiding Business Data Scientist is dus onveranderd. En eigenlijk groter geworden. De investeringen in data science zijn door veel bedrijven gedaan. Het wordt tijd om te oogsten.Data scientist 2.0

    Om data tot waarde te kunnen brengen is ‘verbinding’ noodzakelijk. Verbinding tussen de hard core data scientists die data als olie kunnen opboren, raffineren tot informatie en het volgens specificaties kunnen opleveren aan de ene kant. En de business mensen met hun uitdagingen aan de andere kant. In onze leergangen hebben we veel verhalen gehoord van mooie dataprojecten die paarlen voor de zwijnen bleken vanwege onvoldoende verbinding. Hoe belangrijk ook, zonder die verbinding overleeft de data scientist niet. De relevantie van een leergang Business Data Scientist is dus onveranderd. Moet iedere data scientist deze volgen? Bestaat er een functie business data scientist? Beide vragen kunnen volmondig met néé beantwoord worden. Wil je echter op het raakvlak van toepassing en data science opereren dan zit je bij deze leergang precies goed. En dat raakvlak zal meer en meer centraal gaan staan in data intensieve organisaties.

    De business data scientist is iemand die als geen ander weet dat de waarde van data zit in het uiteindelijk gebruik. Vanuit dat eenvoudig uitgangspunt definieert, begeleidt, stuurt hij/zij data projecten in organisaties. Hij denkt mee over de structurele verankering van het gebruik van data science in de operationele en beleidsmatige processen van organisatie en komt met inrichtingsvoorstellen. De business data scientist kent de data science gereedschapskist door en door zonder ieder daarin aanwezige instrument ook daadwerkelijk zelf te kunnen gebruiken. Hij of zij weet echter welk stukje techniek voor welk type probleem moet worden ingezet. En omgekeerd is hij of zij in staat bedrijfsproblemen te typeren en classificeren zodanig dat de juiste technologieën en expertises kunnen worden geselecteerd. De business data scientist begrijpt informatieprocessen, kent de tool box van data science en weet zich handig te bewegen in het domein van de belangen die altijd met projecten zijn gemoeid.

    De BDS leergang is relevant voor productmanagers en marketeers die data intensiever willen gaan werken, voor hard core data scientists die de verbinding willen leggen met de toepassing in hun organisatie en voor (project)managers die verantwoordelijk zijn voor het functioneren van data scientists.

    De leergang BDS 2.0 wordt gekenmerkt door een actie gerichte manier van leren. Gebaseerd op een theoretisch framework dat tot doel heeft om naar de tool box van data science te kijken vanuit het oogpunt van business value staan cases centraal. In die cases worden alle fasen van het tot waarde brengen van data belicht. Van de projectdefinitie via de data analyse en de business analytics naar het daadwerkelijk gebruik. En voor alle relevante fasen leveren specialisten een deep dive. Ben je geïnteresseerd in de leergang. Download dan hier de brochure. http://www.ru.nl/rma/leergangen/bds/

    Egbert Philips  

    Docent BDS leergang Radboud Management Academy

    Director Hammer, market intelligence   www.Hammer-intel.com

     

  • Business Intelligence Trends for 2017

    businessintelligence 5829945be5abcAnalyst and consulting firm, Business Application Research Centre (BARC), has come out with the top BI trends based on a survey carried out on 2800 BI professionals. Compared to last year, there were no significant changes in the ranking of the importance of BI trends, indicating that no major market shifts or disruptions are expected to impact this sector.
     
    With the growing advancement and disruptions in IT, the eight meta trends that influence and affect the strategies, investments and operations of enterprises, worldwide, are Digitalization, Consumerization, Agility, Security, Analytics, Cloud, Mobile and Artificial Intelligence. All these meta trends are major drivers for the growing demand for data management, business intelligence and analytics (BI). Their growth would also specify the trend for this industry.The top three trends out of 21 trends for 2017 were:
    • Data discovery and visualization,
    • Self-service BI and
    • Data quality and master data management
    • Data labs and data science, cloud BI and data as a product were the least important trends for 2017.
    Data discovery and visualization, along with predictive analytics, are some of the most desired BI functions that users want in a self-service mode. But the report suggested that organizations should also have an underlying tool and data governance framework to ensure control over data.
     
    In 2016, BI was majorly used in the finance department followed by management and sales and there was a very slight variation in their usage rates in that last 3 years. But, there was a surge in BI usage in production and operations departments which grew from 20% in 2008 to 53% in 2016.
     
    "While BI has always been strong in sales and finance, production and operations departments have traditionally been more cautious about adopting it,” says Carsten Bange, CEO of BARC. “But with the general trend for using data to support decision-making, this has all changed. Technology for areas such as event processing and real-time data integration and visualization has become more widely available in recent years. Also, the wave of big data from the Internet of Things and the Industrial Internet has increased awareness and demand for analytics, and will likely continue to drive further BI usage in production and operations."
     
    Customer analysis was the #1 investment area for new BI projects with 40% respondents investing their BI budgets on customer behavior analysis and 32% on developing a unified view of customers.
    • “With areas such as accounting and finance more or less under control, companies are moving to other areas of the enterprise, in particular to gain a better understanding of customer, market and competitive dynamics,” said Carsten Bange.
    • Many BI trends in the past, have become critical BI components in the present.
    • Many organizations were also considering trends like collaboration and sensor data analysis as critical BI components. About 20% respondents were already using BI trends like collaboration and spatial/location analysis.
    • About 12% were using cloud BI and more were planning to employ it in the future. IBM's Watson and Salesforce's Einstein are gearing to meet this growth.
    • Only 10% of the respondents used social media analysis.
    • Sensor data analysis is also growing driven by the huge volumes of data generated by the millions of IoT devices being used by telecom, utilities and transportation industries. According to the survey, in 2017, the transport and telecoms industries would lead the leveraging of sensor data.
    The biggest new investments in BI are planned in the manufacturing and utilities industries in 2017.
     
    Source: readitquick.com, November 14, 2016
  • Data Science implementeren is geen ‘Prutsen en Pielen zonder pottenkijkers’

    Belastingdienst

    Van fouten bij de Belastingdienst kunnen we veel leren

    De belastingdienst verkeert opnieuw in zwaar weer. Na de negatieve berichtgeving in 2016 was in Zembla te zien hoe de belastingdienst invulling gaf aan Data Analytics. De broedkamer waarin dat gebeurde stond intern bekend als domein om te 'prutsen en pielen zonder pottenkijkers'.

    Wetgeving met voeten getreden

    Een overheidsdienst die privacy- en aanbestedingswetgeving met voeten treedt staat natuurlijk garant voor tumult en kijkcijfers. En terecht natuurlijk. Vanuit oorzaak en gevolg denken is het echter de vraag of die wetsovertredingen nou wel het meest interessant zijn. Want hoe kon het gebeuren dat een stel whizzkids in datatechnologie onder begeleiding van een extern bureau (Accenture) in een ‘kraamkamer’ werden gezet. En zo, apart van de gehele organisatie, een vrijbrief kregen voor…….Ja voor wat eigenlijk?

    Onder leiding van de directeur van de belastingdienst Hans Blokpoel is er een groot data en analytics team gestart. Missie: alle bij de belastingdienst bekende gegevens te combineren, om zo efficiënter te kunnen werken, fraude te kunnen detecteren en meer belastingopbrengsten te genereren. En zo dus waarde voor de Belastingdienst te genereren. Dit lijkt op een data science strategie. Maar wist de belastingdienst wel echt waar ze mee bezig was? Vacatureteksten die werden gebruikt om data scientists te werven spreken van ‘prutsen en pielen zonder pottenkijkers’.

    De klacht van Zembla is dat het team het niveau van ‘prutsen en pielen’ feitelijk niet ontsteeg. Fysieke beveiliging, authenticatie en autorisatie waren onvoldoende. Het was onmogelijk te zien wie bij de financiële gegevens van 11 miljoen burgers en 2 miljoen bedrijven geweest was, en of deze gedownload of gehackt waren. Er is letterlijk niet aan de wetgeving voldaan.

    Problemen met data science

    Wat bij de Belastingdienst misgaat gebeurt bij heel erg veel bedrijven en organisaties. Een directeur, manager of bestuurder zet data en analytics in om (letterlijk?) slimmer te zijn dan de rest. Geïsoleerd van de rest van de organisatie worden slimme jongens en meisjes zonder restricties aan de slag gezet met data. Uit alle experimenten en probeersels komen op den duur aardige resultaten. Resultaten die de belofte van de 'data driven organisatie' mogelijk moeten maken.

    De case van de belastingdienst maakt helaas eens te meer duidelijk dat er voor een 'data driven organisatie' veel meer nodig is dan de vaardigheid om data te verzamelen en te analyseren. Tot waarde brengen van data vergt visie (een data science strategie), een organisatiewijze die daarop aansluit (de ene data scientist is de andere niet) maar ook kennis van de restricties. Daarmee vraagt het om een cultuur waarin privacy en veiligheid gewaarborgd worden. Voor een adequate invulling van de genoemde elementen heb je een groot deel van de ‘oude’ organisatie nodig alsmede een adequate inbedding van de nieuwe eenheid of funct

    ie.

    Strategie en verwachtingen

    Data science schept verwachtingen. Meer belastinginkomsten met minder kosten, hogere omzet of minder fraude. Efficiency in operatie maar ook effectiviteit in klanttevredenheid. Inzicht in (toekomstige) marktontwikkelingen. Dit zijn hoge verwachtingen. Implementatie van data science vraagt echter ook om investeringen. Stevige investeringen in technologie en hoogopgeleide mensen. Schaarse mensen bovendien met kennis van IT, statistiek, onderzoeksmethodologie etc. Hoge verwachtingen die gepaard gaan met stevige investeringen leiden snel tot teleurstellingen. Teleurstellingen leiden tot druk. Druk leidt niet zelden tot het opzoeken van grenzen. En het opzoeken van grenzen leidt tot problemen. De functie van een strategie is deze dynamiek te voorkomen.

    Het managen van de verhouding tussen verwachtingen en investeringen begint bij een data science strategie. Een antwoord op de vraag: Wat willen we in welke volgorde volgens welke tijdspanne met de implementatie van data science bereiken? Gaan we de huidige processen optimaliseren (business executie strategie) of transformeren (business transformatie strategie)? Of moet het data science team nieuwe wijzen van werken faciliteren (enabling strategie)? Deze vragen zou een organisatie zichzelf moeten stellen alvorens met data science te beginnen. Een helder antwoord op de strategie vraag stuurt de governance (waar moeten we op letten? Wat kan er fout gaan?) maar ook de verwachtingen. Bovendien weten we dan wie er bij de nieuwe functie moet worden betrokken en wie zeker niet.

     

    Governance en excessen

    Want naast een data science strategie vraag adequate governance om een organisatie die in staat is om domeinkennis en expertise uit het veld te kunnen combineren met data. Dat vereist het in kunnen schatten van 'wat kan' en 'wat niet'. En daarvoor heb je een groot deel van de 'oude' organisatie nodig. Lukt dat, dan is de 'data driven organisatie' een feit. Lukt het niet dan kun je wachten op brokken. In dit geval dus een mogelijke blootstelling van alle financiele data van alle 11 miljoen belastingplichtige burgers en 2 miljoen bedrijven. Een branchevreemde data scientist is als een kernfysicus die in experimenten exotische (en daarmee ook potentieel gevaarlijke) toepassingen verzint. Wanneer een organisatie niet stuurt op de doelstellingen en dus data science strategie dan neemt de kans op excessen toe.

     

    Data science is veelmeer dan technologie

    Ervaringsdeskundigen weten al lang dat data science veelmeer is dat het toepassen van moderne technologie op grote hoeveelheden data. Er zijn een aantal belangrijke voorwaarden voor succes. In de eerste plaats gaat het om een visie op hoe data en data technologie tot waarde kunnen worden gebracht. Vervolgens gaat het om de vraag hoe je deze visie organisatorisch wilt realiseren. Pas dan ontstaat een kader waarin data en technologie gericht kunnen worden ingezet. Zo kunnen excessen worden voorkomen en wordt waarde gecreëerd voor de organisatie. Precies deze stappen lijken bij de Belastingdienst te zijn overgeslagen.

     

    Zembla

    De door Zembla belichtte overtreding van wetgeving is natuurlijk een stuk spannender. Vanuit het credo ‘voorkomen is beter dan genezen’ blijft het jammer dat het goed toepassen van data science in organisaties in de uitzending is onderbelicht.

     

    Bron: Business Data Science Leergang Radboud Management Academy http://www.ru.nl/rma/leergangen/bds/

    Auteurs: Alex Aalberts / Egbert Philips

  • Digital transformation strategies and tech investments often at odds

    digitaltransformation

    While decision makers are well aware that digital transformation is essential to their organizations’ future, many are jumping into new technologies that don’t align with their current digital transformation pain points, according to a new report from PointSource, a division of Globant that provides IT solutions.

    All too often decision makers invest in technologies without taking a step back to assess how those technologies fit into their larger digital strategy and business goals, the study said. While the majority of such companies perceive these investments as a fast track to the next level of digital maturity, they are actually taking an avoidable detour. 

    PointSource surveyed more than 600 senior-level decision makers and found that a majority are investing in technology that they don’t feel confident using. In fact, at least a quarter plan to invest more than 25 percent of their 2018 budgets in artificial intelligence (AI), blockchain, voice-activated technologies or facial-recognition technologies.

    However, more than half (53 percent) of companies do not feel prepared to effectively use AI, blockchain or facial-recognition technologies.

    See Also A look inside American Family Insurance's digital transformation office

    Companies are actively focusing on digital transformation, the survey showed. Ninety-four percent have increased focus on digital growth within the last year, and 90 percent said digital plays a central role in their overarching business goals.
    Fifty-seven percent of senior managers are unsatisfied with one or more of the technologies their organizations’ employees rely on. 

    Many companies feel digitally outdated, with 45 percent of decision makers considering their company’s digital infrastructure to be outdated compared with that of their competitors.

    Author: Bob Violino

    Source: Information Management

  • Do data scientists have the right stuff for the C-suite?

    The Data Science Clock v1.1 Simple1What distinguishes strong from weak leaders? This raises the question if leaders are born or can be grown. It is the classic “nature versus nurture” debate. What matters more? Genes or your environment?

    This question got me to thinking about whether data scientists and business analysts within an organization can be more than just a support to others. Can they be become leaders similar to C-level executives? 

    Three primary success factors for effective leaders

    Having knowledge means nothing without having the right types of people. One person can make a big difference. They can be someone who somehow gets it altogether and changes the fabric of an organization’s culture not through mandating change but by engaging and motivating others.

    For weak and ineffective leaders irritating people is not only a sport for them but it is their personal entertainment. They are rarely successful. 

    One way to view successful leadership is to consider that there are three primary success factors for effective leaders. They are (1) technical competence, (2) critical thinking skills, and (3) communication skills. 

    You know there is a problem when a leader says, “I don’t do that; I have people who do that.” Good leaders do not necessarily have high intelligence, good memories, deep experience, or innate abilities that they are born with. They have problem solving skills. 

    As an example, the Ford Motor Company’s CEO Alan Mulally came to the automotive business from Boeing in the aerospace industry. He was without deep automotive industry experience. He has been successful at Ford. Why? Because he is an analytical type of leader.

    Effective managers are analytical leaders who are adaptable and possess systematic and methodological ways to achieve results. It may sound corny but they apply the “scientific method” that involves formulating hypothesis and testing to prove or disprove them. We are back to basics.

    A major contributor to the “scientific method” was the German mathematician and astronomer Johannes Kepler. In the early 1600s Kepler’s three laws of planetary motion led to the Scientific Revolution. His three laws made the complex simple and understandable, suggesting that the seemingly inexplicable universe is ultimately lawful and within the grasp of the human mind. 

    Kepler did what analytical leaders do. They rely on searching for root causes and understanding cause-and-effect logic chains. Ultimately a well-formulated strategy, talented people, and the ability to execute the executive team’s strategy through robust communications are the key to performance improvement. 

    Key characteristics of the data scientist or analyst as leader

    The popular Moneyball book and subsequent movie about baseball in the US demonstrated that traditional baseball scouts methods (e.g., “He’s got a good swing.”) gave way to fact-based evidence and statistical analysis. Commonly accepted traits of a leader, such as being charismatic or strong, may also be misleading.

    My belief is that the most scarce resource in an organization is human ability and competence. That is why organizations should desire that every employee be developed for growth in their skills. But having sound competencies is not enough. Key personal qualities complete the package of an effective leader. 

    For a data scientist or analyst to evolve as an effective leader three personal quality characteristics are needed: curiosity, imagination, and creativity. The three are sequentially linked. Curious people constantly ask “Why are things the way they are?” and “Is there a better way of doing things?” Without these personal qualities then innovation will be stifled. The emergence of analytics is creating opportunities for analysts as leaders. 

    Weak leaders are prone to a diagnostic bias. They can be blind to evidence and somehow believe their intuition, instincts, and gut-feel are acceptable masquerades for having fact-based information. In contrast, a curious person always asks questions. They typically love what they do. If they are also a good leader they infect others with enthusiasm. Their curiosity leads to imagination. Imagination considers alternative possibilities and solutions. Imagination in turn sparks creativity.

    Creativity is the implementation of imagination

    Good data scientists and analysts have a primary mission: to gain insights relying on quantitative techniques to result in better decisions and actions. Their imagination that leads to creativity can also result in vision. Vision is a mark of a good leader. In my mind, an executive leader has one job (aside from hiring good employees and growing them). That job is to answer the question, “Where do we want to go?” 

    After that question is answered then managers and analysts, ideally supported by the CFO’s accounting and finance team, can answer the follow-up question, “How are we going to get there?” That is where analytics are applied with the various enterprise and corporate performance management (EPM/CPM) methods that I regularly write about. EPM/CPM methods include a strategy map and its associated balance scorecard with KPIs; customer profitability analysis; enterprise risk management (ERM), and capacity-sensitive driver-based rolling financial forecasts and plans. Collectively they assure that the executive team’s strategy can be fully executed.

    My belief is that that other perceived characteristics of a good leader are over-rated. These include ambition, team spirit, collegiality, integrity, courage, tenacity, discipline, and confidence. They are nice-to-have characteristics, but they pale compared to the technical competency and critical thinking and communications skills that I earlier described. 

    Be analytical and you can be a leader. You can eventually serve in a C-suite role

    Author: Gary Cokins 

    Source: Information Management

  • Exploring the risks of artificial intelligence

    shutterstock 117756049“Science has not yet mastered prophecy. We predict too much for the next year and yet far too little for the next ten.”

    These words, articulated by Neil Armstrong at a speech to a joint session of Congress in 1969, fit squarely into most every decade since the turn of the century, and it seems to safe to posit that the rate of change in technology has accelerated to an exponential degree in the last two decades, especially in the areas of artificial intelligence and machine learning.

    Artificial intelligence is making an extreme entrance into almost every facet of society in predicted and unforeseen ways, causing both excitement and trepidation. This reaction alone is predictable, but can we really predict the associated risks involved?

    It seems we’re all trying to get a grip on potential reality, but information overload (yet another side affect that we’re struggling to deal with in our digital world) can ironically make constructing an informed opinion more challenging than ever. In the search for some semblance of truth, it can help to turn to those in the trenches.

    In my continued interview with over 30 artificial intelligence researchers, I asked what they considered to be the most likely risk of artificial intelligence in the next 20 years.

    Some results from the survey, shown in the graphic below, included 33 responses from different AI/cognitive science researchers. (For the complete collection of interviews, and more information on all of our 40+ respondents, visit the original interactive infographic here on TechEmergence).

    Two “greatest” risks bubbled to the top of the response pool (and the majority are not in the autonomous robots’ camp, though a few do fall into this one). According to this particular set of minds, the most pressing short- and long-term risks is the financial and economic harm that may be wrought, as well as mismanagement of AI by human beings.

    Dr. Joscha Bach of the MIT Media Lab and Harvard Program for Evolutionary Dynamics summed up the larger picture this way:

    “The risks brought about by near-term AI may turn out to be the same risks that are already inherent in our society. Automation through AI will increase productivity, but won’t improve our living conditions if we don’t move away from a labor/wage based economy. It may also speed up pollution and resource exhaustion, if we don’t manage to install meaningful regulations. Even in the long run, making AI safe for humanity may turn out to be the same as making our society safe for humanity.”

    Essentially, the introduction of AI may act as a catalyst that exposes and speeds up the imperfections already present in our society. Without a conscious and collaborative plan to move forward, we expose society to a range of risks, from bigger gaps in wealth distribution to negative environmental effects.

    Leaps in AI are already being made in the area of workplace automation and machine learning capabilities are quickly extending to our energy and other enterprise applications, including mobile and automotive. The next industrial revolution may be the last one that humans usher in by their own direct doing, with AI as a future collaborator and – dare we say – a potential leader.

    Some researchers believe it’s a matter of when and not if. In Dr. Nils Nilsson’s words, a professor emeritus at Stanford University, “Machines will be singing the song, ‘Anything you can do, I can do better; I can do anything better than you’.”

    In respect to the drastic changes that lie ahead for the employment market due to increasingly autonomous systems, Dr. Helgi Helgason says, “it’s more of a certainty than a risk and we should already be factoring this into education policies.”

    Talks at the World Economic Forum Annual Meeting in Switzerland this past January, where the topic of the economic disruption brought about by AI was clearly a main course, indicate that global leaders are starting to plan how to integrate these technologies and adapt our world economies accordingly – but this is a tall order with many cooks in the kitchen.

    Another commonly expressed risk over the next two decades is the general mismanagement of AI. It’s no secret that those in the business of AI have concerns, as evidenced by the $1 billion investment made by some of Silicon Valley’s top tech gurus to support OpenAI, a non-profit research group with a focus on exploring the positive human impact of AI technologies.

    “It’s hard to fathom how much human-level AI could benefit society, and it’s equally hard to imagine how much it could damage society if built or used incorrectly,” is the parallel message posted on OpenAI’s launch page from December 2015. How we approach the development and management of AI has far-reaching consequences, and shapes future society’s moral and ethical paradigm.

    Philippe Pasquier, an associate professor at Simon Fraser University, said “As we deploy more and give more responsibilities to artificial agents, risks of malfunction that have negative consequences are increasing,” though he likewise states that he does not believe AI poses a high risk to society on its own.

    With great responsibility comes great power, and how we monitor this power is of major concern.

    Dr. Pei Wang of Temple University sees major risk in “neglecting the limitations and restrictions of hot techniques like deep learning and reinforcement learning. It can happen in many domains.” Dr. Peter Voss, founder of SmartAction, expressed similar sentiments, stating that he most fears “ignorant humans subverting the power and intelligence of AI.”

    Thinking about the risks associated with emerging AI technology is hard work, engineering potential solutions and safeguards is harder work, and collaborating globally on implementation and monitoring of initiatives is the hardest work of all. But considering all that’s at stake, I would place all my bets on the table and argue that the effort is worth the risk many times over.

    Source: Tech Crunch

  • Five Mistakes That Can Kill Analytics Projects

    Launching an effective digital analytics strategy is a must-do to understand your customers. But many organizations are still trying to figure out how to get business values from expensive analytics programs. Here are 5 common analytics mistakes that can kill any predictive analytics effort.

    Why predictive analytics projects fail

    failure of analytics

    Predictive Analytics is becoming the next big buzzword in the industry. But according to Mike Le, co-founder and chief operating officer at CB/I Digital in New York, implementing an effective digital analytics strategy has proven to be very challenging for many organizations. “First, the knowledge and expertise required to setup and analyze digital analytics programs is complicated,” Le notes. “Second, the investment for the tools and such required expertise could be high. Third, many clients see unclear returns from such analytics programs. Learning to avoid common analytics mistakes will help you save a lot of resources to focus on core metrics and factors that can drive your business ahead.” Here are 5 common mistakes that Le says cause many predictive analytics projects to fail.

    Mistake 1: Starting digital analytics without a goal

    “The first challenge of digital analytics is knowing what metrics to track, and what value to get out of them,” Le says. “As a result, we see too many web businesses that don’t have basic conversion tracking setup, or can’t link the business results with the factors that drive those results. This problem happens because these companies don’t set a specific goal for their analytics. When you do not know what to ask, you cannot know what you'll get. The purpose of analytics is to understand and to optimize. Every analytics program should answer specific business questions and concerns. If your goal is to maximize online sales, naturally you’ll want to track the order volume, cost-per-order, conversion rate and average order value. If you want to optimize your digital product, you’ll want to track how users are interact with your product, the usage frequency and the churn rate of people leaving the site. When you know your goal, the path becomes clear.”

    Mistake 2: Ignoring core metrics to chase noise

    “When you have advanced analytics tools and strong computational power, it’s tempting to capture every data point possible to ‘get a better understanding’ and ‘make the most of the tool,’” Le explains. “However, following too many metrics may dilute your focus on the core metrics that reveal the pressing needs of the business. I've seen digital campaigns that fail to convert new users, but the managers still setup advanced tracking programs to understand user 

    behaviors in order to serve them better. When you cannot acquire new users, your targeting could be wrong, your messaging could be wrong or there is even no market for your product - those problems are much bigger to solve than trying to understand your user engagement. Therefore, it would be a waste of time and resources to chase fancy data and insights while the fundamental metrics are overlooked. Make sure you always stay focus on the most important business metrics before looking broader.”

    Mistake 3: Choosing overkill analytics tools

    “When selecting analytics tools, many clients tend to believe that more advanced and expensive tools can give deeper insights and solve their problems better,” Le says. “Advanced analytics tools may offer more sophisticated analytic capabilities over some fundamental tracking tools. But whether your business needs all those capabilities is a different story. That's why the decision to select an analytics tool should be based on your analytics goals and business needs, not by how advanced the tools are. There’s no need to invest a lot of money on big analytics tools and a team of experts for an analytics program while some advanced features of free tools like Google Analytics can already give you the answers you need.”

    Mistake 4: Creating beautiful reports with little business value

    “Many times you see reports that simply present a bunch of numbers exported from tools, or state some ‘insights’ that has little relevance to the business goal,” Le notes. “This problem is so common in the analytics world, because a lot of people create reports for the sake of reporting. They don’t think about why those reports should exist, what questions they answer and how those reports can add value to the business. Any report must be created to answer a business concern. Any metrics that do not help answer business questions should be left out. Making sense of data is hard. Asking right questions early will

    help.”

    Mistake 5: Failing to detect tracking errors

    “Tracking errors can be devastating to businesses, because they produce unreliable data and misleading analysis,” Le cautions. “But many companies do not have the skills to setup tracking properly, and worse, to detect tracking issues when they happen. There are many things that can go wrong, such as a developer mistakenly removing the tracking pixels, transferring incorrect values, the tracking code firing unstably or multiple times, wrong tracking rule's logic, etc. The difference could be so subtle that the reports look normal, or are only wrong in certain scenarios. Tracking errors easily go undetected because it takes a mix of marketing and tech skills. Marketing teams usually don’t understand how tracking works, and development teams often don’t know what ‘correct’ means. To tackle this problem, you should frequently check your data accuracy and look for unusual signs in reports. Analysts should take an extra step to learn the technical aspect of tracking, so they can better sense the problems and raise smart questions for the technical team when the data looks suspicious.”

    Author: Mike Le

    Source: Information Management

  • Gartner: 5 cool vendors in data science and machine learning

    data scienceResearch firm Gartner has identified five "cool vendors" in the data science and machine learning space, identifying the features that make their products especially unique or useful. The report, "5 Cool Vendors in Data Science and Machine Learning" was written by analysts Peter Krensky, Svetlana Sicular, Jim Hare, Erick Brethenoux and Austin Kronz. Here are the highlights of what they had to say about each vendor.

    DimensionalMechanics

    Bellevue, Washington
    www.dimensionalmechanics.com
    “DimensionalMechanics has built a data science platform that breaks from market traditions; where more conventional vendors have developed work flow-based or notebook-based data science environments, DimensionalMechanics has opted for a “data-science metalanguage,” Erick Brethenoux writes. “In effect, given the existing use cases the company has handled so far, its NeoPulse Framework 2.0 acts as an “AutoDL” (Auto-Deep Learning) platform. This makes new algorithms and approaches to unusual types of data (such as images, videos and sounds) more accessible and deployable.”

    Immuta

    College Park, Maryland
    www.immuta.com
    “Immuta offers a dedicated data access and management platform for the development of machine learning and other advanced analytics, and the automation of policy enforcement,” Peter Krensky and Jim Hare write. “The product serves as a control layer to rapidly connect and control access between myriad data sources and the heterogeneous array of data science tools without the need to move or copy data. This approach addresses the market expectation that platforms supporting data science will be highly flexible and extensible to the data portfolio and toolkit of a user’s choosing.”

    Indico

    Boston, Massachusetts
    www.indico.io
    “Indico offers a group of products with a highly accessible set of functionality for exploring and modeling unstructured data and automating processes,” according to Peter Krensky and Austin Kronz. “The offering can be described as a citizen data science toolkit for applying deep learning to text, images and document-based data. Indico’s approach makes deep learning a practical solution for subject matter experts (SMEs) facing unstructured content challenges. This is ambitious and exciting, as both deep learning and unstructured content analytics are areas where even expert data scientists are still climbing the learning curve.”

     

    Octopai

    Rosh HaAyin, Israel & New York, New York
    www.octopai.com
    “Octopai solves a foundational problem for data-driven organizations — enabling data science teams and citizen data scientists to quickly find the data, establish trust in data sources and achieve transparency of data lineage through automation,” explains Svetlana Sicular. “It connects the dots of complex data pipelines by using machine learning and pattern analysis to determine the relationships among different data elements, the context in which the data was created, and the data’s prior uses and transformations. Such access to more diverse, transparent and trustworthy data leads to better quality analytics and machine learning.”

     

    ParallelM

    Tel Aviv, Israel & Sunnyvale, California
    www.parallelm.com
    “ParallelM is one of the first software platforms principally focused on the data science operationalization process,” Erick Brethenoux writes. “The focus of data science teams has traditionally been on developing analytical assets, while dealing with the operationalization of these assets has been an afterthought. Deploying analytical assets within operational processes in a repeatable, manageable, secure and traceable manner requires more than a set of APIs and a cloud service; a model that has been scored (executed) has not necessarily been managed. ParallelM’s success and the general development of operationalization functionality within platforms will be an indicator of the success of an entire generation of data scientists.”

     Source: Information Management

     

  • Hadoop: waarvoor dan?

    Hadoop

    Flexibel en schaalbaar managen van big data

    Data-infrastructuur is het belangrijkste orgaan voor het creëren en leveren van goede bedrijfsinzichten . Om te profiteren van de diversiteit aan data die voor handen zijn en om de data-architectuur te moderniseren, zetten veel organisaties Hadoop in. Een Hadoop-gebaseerde omgeving is flexibel en schaalbaar in het managen van big data. Wat is de impact van Hadoop? De Aberdeen Group onderzocht de impact van Hadoop op data, mensen en de performance van bedrijven.

    Nieuwe data uit verschillende bronnen

    Er moet veel data opgevangen, verplaatst, opgeslagen en gearchiveerd worden. Maar bedrijven krijgen nu inzichten vanuit verborgen data buiten de traditionele gestructureerde transactiegegevens. Denk hierbij aan: e-mails, social data, multimedia, GPS-informatie en sensor-informatie. Naast nieuwe databronnen hebben we ook een grote hoeveelheid nieuwe technologieën gekregen om al deze data te beheren en te benutten. Al deze informatie en technologieën zorgen voor een verschuiving binnen big data; van probleem naar kans.

    Wat zijn de voordelen van deze gele olifant (Hadoop)?

    Een grote voorloper van deze big data-kans is de data architectuur Hadoop. Uit dit onderzoek komt naar voren dat bedrijven die Hadoop gebruiken meer gedreven zijn om gebruik te maken van ongestructureerde en semigestructureerd data. Een andere belangrijke trend is dat de mindset van bedrijven verschuift, ze zien data als een strategische aanwinst en als een belangrijk onderdeel van de organisatie.

    De behoefte aan gebruikersbevoegdheid en gebruikerstevredenheid is een reden waarom bedrijven kiezen voor Hadoop. Daarnaast heeft een Hadoop-gebaseerde architectuur twee voordelen met betrekking tot eindgebruikers:

    1. Data-flexibiliteit – Alle data onder één dak, wat zorgt voor een hogere kwaliteit en usability.
    2. Data-elasticiteit – De architectuur is significant flexibeler in het toevoegen van nieuwe databronnen.

    Wat is de impact van Hadoop op uw organisatie?

    Wat kunt u nog meer met Hadoop en hoe kunt u deze data-architectuur het beste inzetten binnen uw databronnen? Lees in dit rapport hoe u nog meer tijd kunt besparen in het analyseren van data en uiteindelijk meer winst kunt behalen door het inzetten van Hadoop.

    Bron: Analyticstoday

  • Harnessing the value of Big Data

    big dataTo stay competitive and grow in today’s market, it becomes necessary for organizations to closely correlate both internal and external data, and draw meaningful insights out of it.

    During the last decade a tremendous amount of data has been produced by internal and external sources in the form of structured, semi-structured and unstructured data. These are large quantities of human or machine generated data produced by heterogeneous sources like social media, field devices, call centers, enterprise applications, point of sale etc., in the form of text, image, video, PDF and more.

    The “Volume”, “Varity” and “Velocity” of data have posed a big challenge to the enterprise. The evolution of “Big Data” technology has been a boon to the enterprise towards effective management of large volumes of structured and unstructured data. Big data analytics is expected to correlate this data and draw meaningful insights out of it.

    However, it has been seen that, a siloed big data initiative has failed to provide ROI to the enterprise. A large volume of unstructured data can be more a burden than a benefit. That is the reason that several organizations struggle to turn data into dollars.

    On the other hand, an immature MDM program limits an organization’s ability to extract meaningful insights from big data. It is therefore of utmost importance for the organization to improve the maturity of the MDM program to harness the value of big data.

    MDM helps towards the effective management of master information coming from big data sources, by standardizing and storing in a central repository that is accessible to business units.

    MDM and Big Data are closely coupled applications complementing each other. There are many ways in which MDM can enhance big data applications, and vice versa. These two types of data pertain to the context offered by big data and the trust provided by master data.

    MDM and big data – A matched pair

    At first hand, it appears that MDM and big data are two mutually exclusive systems with a degree of mismatch. Enterprise MDM initiative is all about solving business issues and improving data trustworthiness through the effective and seamless integration of master information with business processes. Its intent is to create a central trusted repository of structured master information accessible by enterprise applications.

    The big data system deals with large volumes of data coming in unstructured or semi-structured format from heterogeneous sources like social media, field devises, log files and machine generated data.  The big data initiative is intended to support specific analytics tasks within a given span of time after that it is taken down. In Figure 1 we see the characteristics of MDM and big data.  

     

    MDM

    Big Data

    Business Objective

      Provides a single version of trust of Master and Reference information.

      Acts as a system of record / system of reference for enterprise.

      Provides cutting edge analytics and offer a competitive advantage

    Volume of Data and Growth

      Deals with Master Data sets which are smaller in volume

      Grow with relatively slower rate.

      Deal with enormous large volumes of data, so large that current databases struggle to handle it.

      The growth of Big Data is very fast.

    Nature of Data

      Permanent and long lasting

      Ephemeral in nature; disposable if not useful.

    Types of Data (Structure and Data Model)

      It is more towards containing structured data in a definite format with a pre-defined data model.

      Majority of Big Data is either semi-structured or unstructured, lacking in a fixed data model.

    Source of Data

      Oriented around internal enterprise centric data.

      Platform to integrate the data coming from multiple internal and external sources including social media, cloud, mobile, machine generated data etc.

    Orientation

      Supports both analytical and operational environment.

      Fully analytical oriented

    Despite apparent differences there are many ways in which MDM and big data complement each other.

    Big data offers context to MDM

    Big data can act as an external source of master information for the MDM hub and can help enrich internal Master Data in the context of the external world.  MDM can help aggregate the required and useful information coming from big data sources with  internal master records.

    An aggregated view and profile of master information can help  link the customer correctly and in turn help perform effective analytics and campaign. MDM can act as a hub between the system of records and system of engagement.

    However, not all data coming from big data sources will be relevant for MDM. There should be a mechanism to process the unstructured data and distinguish the relevant master information and the associated context. NoSQL offering, Natural Language Processing, and other semantic technologies can be leveraged towards distilling the relevant master information from a pool of unstructured/semi-structured data.

    MDM offers trust to big data

    MDM brings a single integrated view of master and reference information with unique representations for an enterprise. An organization can leverage MDM system to gauge the trustworthiness of data coming from big data sources.

    Dimensional data residing in the MDM system can be leveraged towards linking the facts of big data. Another way is to leverage the MDM data model backbone (optimized for entity resolution) and governance processes to bind big data facts.

    The other MDM processes like data cleansing, standardization, matching and duplicate suspect processing can be additionally leveraged towards increasing the uniqueness and trustworthiness of big data.

    MDM system can support big data by:

    • Holding the “attribute level” data coming from big data sources e.g. social media Ids, alias, device Id, IP address etc.
    • Maintaining the code and mapping of reference information. 
    • Extracting and maintaining the context of transactional data like comments, remarks, conversations, social profile and status etc. 
    • Facilitating entity resolution.
    • Maintaining unique, cleansed golden master records
    • Managing the hierarchies and structure of the information along with linkages and traceability. E.g. linkages of existing customer with his/her Facebook id linked-in Id, blog alias etc.
    • MDM for big data analytics – Key considerations

    Traditional MDM implementation, in many cases, is not sufficient to accommodate big data sources. There is a need for the next generation MDM system to incorporate master information coming from big data systems. An organization needs to take the following points into consideration while defining Next Gen MDM for big data:

    Redefine information strategy and topology

    The overall information strategy needs to get reviewed and redefined in the context of big data and MDM. The impact of changes in topology needs to get accessed thoroughly. It is necessary to define the linkages between these two systems (MDM and big data), and how they operate with internal and external data. For example, the data coming from social media needs to get linked with internal customer and prospect data to provide an integrated view at the enterprise level.

    Information strategy should address following:

    Integration point between MDM and big data - How big data and MDM systems are going to interact with each other.
    Management of master data from different sources - How the master data from internal and external sources is going to be managed.
     Definition and classification of master data - How the master data coming from big data sources gets defined and classified.
    Process of unstructured and semi-structured master data - How master data from big data sources in the form of unstructured and semi-structured data is going to be processed.
    Usage of master data - How the MDM environment are going to support big data analytics and other enterprise applications.

    Revise data architecture and strategy

    The overall data architecture and strategy needs to be revised to accommodate changes with respect to the big data. The MDM data model needs to get enhanced to accommodate big data specific master attributes. For example the data model should accommodate social media and / or IoT specific attributes such as social media Ids, aliases, contacts, preferences, hierarchies, device Ids, device locations, on-off period etc. Data strategy should get defined towards effective storage and management of internal and external master data.

    The revised data architecture strategy should ensure that:

    • The MDM data model accommodates all big data specific master attributes
    • The local and global master data attributes should get classified and managed as per the business needs
    • The data model should have necessary provision to interlink the external (big data specifics) and internal master data elements. The necessary provisions should be made to accommodate code tables and reference data.

     Define advanced data governance and stewardship

     A significant amount of challenges are associated towards governing Master Data coming from big data sources because of the unstructured nature and data flowing from various external sources. The organization needs to define advance policy, processes and stewardship structure that enable big data specifics governance.

    Data governance process for MDM should ensure that:

    Right level of data security, privacy and confidentiality to be maintained for customer and other confidential master data.
    Right level of data integrity to be maintained between internal master data and master data from big data sources. 
    Right level of linkages between reference data and master data to exist.
    Policies and processes need to be redefined/enhanced to support big data and related business transformation rules and control access for data sharing and distribution, establishing the ongoing monitoring and measurement mechanisms and change.
    A dedicated group of big data stewards available for master data review, monitoring and conflict management.

    Enhance integration architecture

     The data integration architecture needs to be enhanced to accommodate the master data coming from big data sources. The MDM hub should have the right level of integration capabilities to integrate with big data using Ids, reference keys and other unique identifiers.

    The unstructured, semi-structured and multi-structured data will get parsed using big data parser in the form of logical data objects. This data will get processed further, matched, merged and get loaded with the appropriate master information to the MDM hub.

    The enhanced integration architecture should ensure that:

    The MDM environment has the ability to parse, transform and integrate the data coming from the big data platform.
    The MDM environment has the intelligence built to analyze the relevance of master data coming from big data environment, and accept or reject accordingly.

    Enhance match and merge engine

     MDM system should enhance the “Match & Merge” engine so that master information coming from big data sources can correctly be identified and integrated into the MDM hub. A blend of probabilistic and deterministic matching algorithm can be adopted.

    For example, the successful identification of the social profile of existing customers and making it interlinked with existing data in the MDM hub. The context of data quality will be more around the information utility for the consumer of the data than objective “quality”.

    The enhanced match and merge engine should ensure that:

    • The master data coming from big data sources get effectively matched with internal data residing in the MDM Hub.
    • The “Duplicate Suspect” master records get identified and processed effectively.
    • The engine should recommend the “Accept”, “Reject”, “Merge” or “Split” of the master records coming from big data sources.

     

    In this competitive era, organizations are striving hard to retain their customers.  It is of utmost importance for an enterprise to keep a global view of customers and understand their needs, preferences and expectations.

    Big data analytics coupled with MDM backbone is going to offer the cutting edge advantage to enterprise towards managing the customer-centric functions and increasing profitability. However, the pairing of MDM and big data is not free of complications. The enterprise needs to work diligently on the interface points so to best harness these two technologies.

    Traditional MDM systems needs to get enhanced to accommodate the information coming from big data sources, and draw a meaningful context. The big data system should leverage MDM backbone to interlink data and draw meaningful insights.

    Bron: Information Management, 2017, Sunjay Kumar

  • Hé Data Scientist! Are you a geek, nerd or suit?

    NerdData scientists are known for their unique skill sets. While thousands of compelling articles have been written about what a data scientist does, most of these articles fall short in examining what happens after you’ve hired a new data scientist to your team. 

    The onboarding process for your data scientist should be based on the skills and areas of improvement you’ve identified for the tasks you want them to complete. Here’s how we do it at Elicit.

    We’ve all seen the data scientist Venn diagrams over the past few years, which includes three high-level types of skills: programming, statistics/modeling, and domain expertise. Some even feature the ever-elusive “unicorn” at the center. 

    While these diagrams provide us with a broad understanding of the skillset required for the role in general, they don’t have enough detail to differentiate data scientists and their roles inside a specific organization. This can lead to poor hires and poor onboarding experiences.

    If the root of what a data scientist does and is capable of is not well understood, then both parties are in for a bad experience. Near the end of 2016, Anand Ramanathan wrote a post that really stuck with me called //medium.com/@anandr42/the-data-science-delusion-7759f4eaac8e" style="box-sizing:border-box;background-color:transparent;color:rgb(204, 51, 51);text-decoration:none">The Data Science Delusion. In it, Ramanathan talks about how within each layer of the data science Venn diagram there are degrees of understanding and capability.

    For example, Ramanathan breaks down the modeling aspect into four quadrants based on modeling difficulty and system complexity, explaining that not every data scientist has to be capable in all four quadrants—that different problems call for different solutions and different skillsets. 

    For example, if I want to understand customer churn, I probably don’t need a deep learning solution. Conversely, if I’m trying to recognize images, a logistic regression probably isn’t going to help me much.

    In short, you want your data scientist to be skilled in the specific areas that role will be responsible for within the context of your business.

    Ramanathan’s article also made me reflect on our data science team here at Elicit. Anytime we want to solve a problem internally or with a client we use our "Geek Nerd Suit" framework to help us organize our thoughts.

    Basically, it states that for any organization to run at optimal speed, the technology (Geek), analytics (Nerd), and business (Suit) functions must be collaborating and making decisions in lockstep. Upon closer inspection, the data science Venn diagram is actually comprised of Geek (programming), Nerd (statistics/modeling), and Suit (domain expertise) skills.

    But those themes are too broad; they still lack the detail needed to differentiate the roles of a data scientist. And we’d heard this from our team internally: in a recent employee survey, the issue of career advancement, and more importantly, skills differentiation, cropped up from our data science team.

    As a leadership team, we always knew the strengths and weaknesses of our team members, but for their own sense of career progression they were asking us to be more specific and transparent about them. This pushed us to go through the exercise of taking a closer look at our own evaluation techniques, and resulted in a list of specific competencies within the Geek, Nerd, and Suit themes. We now use these competencies both to assess new hires and to help them develop in their careers once they’ve joined us.

    For example, under the Suit responsibilities we define a variety of competencies that, amongst other things, include adaptability, business acumen, and communication. Each competency then has explicit sets of criteria associated with them that illustrate a different level of mastery within that competency. 

    We’ve established four levels of differentiation: “entry level,” “intermediate,” “advanced” and “senior.” To illustrate, here’s the distinction between “entry level” and “intermediate” for the Suit: Adaptability competency:

    Entry Level:

    • Analyzes both success and failures for clues to improvement.
    • Maintains composure during client meetings, remaining cool under pressure and not becoming defensive, even when under criticism.

    Intermediate:

    • Experiments and perseveres to find solutions.
    • Reads situations quickly.
    • Swiftly learns new concepts, skills, and abilities when facing new problems.

    And there are other specific criteria for the “advanced” and “senior” levels as well. 

    This led us to four unique data science titles—Data Scientist I, II, and III, as well as Senior Data Scientist, with the latter title still being explored for further differentiation. 

    The Geek Nerd Suit framework, and the definitions of the competencies within them, gives us clear, explicit criteria for assessing a new hire’s skillset in the three critical dimensions that are required for a data scientist to be successful.

    In Part 2, I’ll discuss what we specifically do within the Geek Nerd Suit framework to onboard a new hire once they’ve joined us—how we begin to groom the elusive unicorn. 

    Source: Information Management

    Author: Liam Hanham

  • Hoe werkt augmented intelligence?

    artificial-intelligenceComputers en apparaten die met ons meedenken zijn al lang geen sciencefiction meer. Artificial intelligence (AI) is terug te vinden in wasmachines die hun programma aanpassen aan de hoeveelheid was en computerspellen die zich aanpassen aan het niveau van de spelers. Hoe kunnen computers mensen helpen slimmer te beslissen? Deze uitgebreide whitepaper beschrijft welke modellen in het analyseplatform HPE IDOL worden toegepast.

    Mathematische modellen zorgen voor menselijke maat

    Processors kunnen in een oogwenk een berekening uitvoeren waar mensen weken tot maanden mee bezig zouden zijn. Daarom zijn computers betere schakers dan mensen, maar slechter in poker waarin de menselijke maat een grotere rol speelt. Hoe zorgt een zoek- en analyseplatform ervoor dat er meer ‘mens’ in de analyse terechtkomt? Dat wordt gerealiseerd door gebruik te maken van verschillende mathematische modellen.

    Analyses voor tekst, geluid, beeld en gezichten

    De kunst is om uit data actiegerichte informatie te verkrijgen. Dat lukt door patroonherkenning in te zetten op verschillende datasets. Daarnaast spelen classificatie, clustering en analyse een grote rol bij het verkrijgen van de juiste inzichten. Niet alleen teksten worden geanalyseerd, steeds vaker worden ook geluidsbestanden en beelden, objecten en gezichten geanalyseerd.

    Artificial intelligence helpt de mens

    De whitepaper beschrijft uitvoerig hoe patronen worden gevonden in tekst, audio en beelden. Hoe snapt een computer dat de video die hij analyseert over een mens gaat? Hoe wordt van platte beelden een geometrisch 3d-beeld gemaakt en hoe beslist een computer wat hij ziet? Denk bijvoorbeeld aan een geautomatiseerd seintje naar de controlekamer als het te druk is op een tribune of een file ontstaat. Hoe helpen theoretische modellen computers als mensen waarnemen en onze beslissingen ondersteunen? Dat en meer leest u in de whitepaper Augmented intelligence Helping humans make smarter decisions. Zie hiervoor AnalyticsToday

    Analyticstoday.nl, 12 oktober 2016

  • How Nike And Under Armour Became Big Data Businesses

    960x0Like the Yankees vs the Mets, Arsenal vs Tottenham, or Michigan vs Ohio State, Nike and Under Armour are some of the biggest rivals in sports.
     
    But the ways in which they compete — and will ultimately win or lose — are changing.
     
    Nike and Under Armour are both companies selling physical sports apparel and accessories products, yet both are investing heavily in apps, wearables, and big data.  Both are looking to go beyond physical products and create lifestyle brands athletes don’t want to run without.
     
    Nike
     
    Nike is the world leader in multiple athletic shoe categories and holds an overall leadership position in the global sports apparel market. It also boasts a strong commitment to technology, in design, manufacturing, marketing, and retailing.
     
    It has 13 different lines, in more than 180 countries, but how it segments and serves those markets is its real differentiator. Nike calls it “category offense,” and divides the world into sporting endeavors rather than just geography. The theory is that people who play golf, for example, have more in common than people who simply happen to live near one another.
     
    And that philosophy has worked, with sales reportedly rising more than 70% since the company shifted to this strategy in 2008. This retail and marketing strategy is largely driven by big data.
     
    Another place the company has invested big in data is with wearables and technology.  Although it discontinued its own FuelBand fitness wearable in 2014, Nike continues to integrate with many other brands of wearables including Apple which has recently announced the Apple Watch Nike+.How Nike And Under Armour Became Big Data Businesses
     
    But the company clearly has big plans for its big data as well. In a 2015 call with investors about Nike’s partnership with the NBA, Nike CEO Mark Parker said, “I’ve talked with commissioner Adam Silver about our role enriching the fan experience. What can we do to digitally connect the fan to the action they see on the court? How can we learn more about the athlete, real-time?”
     
    Under Armour
     
    Upstart Under Armour is betting heavily that big data will help it overtake Nike. The company has recently invested $710 million in acquiring three fitness app companies, including MyFitnessPal, and their combined community of more than 120 million athletes — and their data.
     
    While it’s clear that both Under Armour and Nike see themselves as lifestyle brands more than simply apparel brands, the question is how this shift will play out.
     
    Under Armour CEO Kevin Plank has explained that, along with a partnership with a wearables company, these acquisitions will drive a strategy that puts Under Armour directly in the path of where big data is headed: wearable tech that goes way beyond watches
     
    In the not-too-distant future, wearables won’t just refer to bracelets or sensors you clip on your shoes, but rather apparel with sensors built in that can report more data more accurately about your movements, your performance, your route and location, and more.
     
    “At the end of the day we kept coming back to the same thing. This will help drive our core business,” Plank said in a call with investors. “Brands that do not evolve and offer the consumer something more than a product will be hard-pressed to compete in 2015 and beyond.”
     
    The company plans to provide a full suite of activity and nutritional tracking and expertise in order to help athletes improve, with the assumption that athletes who are improving buy more gear.
     
    If it has any chance of unseating Nike, Under Armour has to innovate, and that seems to be exactly where this company is planning to go. But it will have to connect its data to its innovations lab and ultimately to the products it sells for this investment to pay off.
     
     
    Source: forbes.com, November 15, 2016
  • Kunstmatige intelligentie leert autorijden met GTA

    Zelfrijdende auto toekomst-geschiedenis

    Wie ooit Grand Theft Auto (GTA) heeft gespeeld, weet dat de game niet is gemaakt om je aan de regels te houden. Toch kan GTA volgens onderzoekers van de Technische Universiteit Darmstadt een kunstmatige intelligentie helpen om te leren door het verkeer te rijden. Dat schrijft het universiteitsmagazine van MIT, Technology Review.

    Onderzoekers gebruiken het spel daarom ook om algoritmes te leren hoe ze zich in het verkeer moeten gedragen. Volgens de universiteit is de realistische wereld van computerspelletjes zoals GTA heel erg geschikt om de echte wereld beter te begrijpen. Virtuele werelden worden al gebruikt om data aan algoritmes te geven, maar door games te gebruiken hoeven die werelden niet specifiek gecreëerd te worden.

    Het leren rijden in Grand Theft Auto werkt ongeveer gelijk als in de echte wereld. Voor zelfrijdende auto’s worden objecten en mensen, zoals voetgangers, gelabeld. Die labels kunnen aan het algoritme, waardoor die in staat is om in zowel de echte wereld als de videogame onderscheid te maken tussen verschillende voorwerpen of medeweggebruikers.

    Het is niet de eerste keer dat kunstmatige intelligentie wordt ingezet om computerspelletjes te spelen. Zo werkte onderzoekers al aan een slimme Mario en wordt Minecraft voor eenzelfde doeleinde gebruikt als GTA. Microsoft gebruikt de virtuele wereld namelijk om personages te leren hoe ze zich door de omgeving moeten manoeuvreren. De kennis die wordt opgedaan kan later gebruikt worden om robots in de echte wereld soortgelijke obstakels te laten overwinnen.

    Bron: numrush.nl, 12 september 2016

     

  • Lessons From The U.S. Election On Big Data And Algorithms

    The failure to accurately predict the outcome of the elections has caused some backlash against big data and algorithms. This is misguided. The real issue is failure to build unbiased models that will identify trends that do not fit neatly into our present understanding. This is one of the most urgent challenges for big data, advanced analytics and algorithms.  When speaking with retailers on this subject I focus on two important considerations.  The first is that convergence of what we believe to be true and what is actually true is getting smaller.

    things-you-know-300x179

    This is because people, consumers, have more personal control than ever before.  They source opinions from the web, social media, groups and associations that in the past where not available to them.  For retailers this is critical because the historical view that the merchandising or marketing group holds about consumers is likely growing increasingly out of date.  Yet well meaning business people performing these tasks continue to disregard indicators and repeat the same actions.  Before consumers had so many options this was not a huge problem since change happened more slowly.  Today if you fail to catch a trend there are tens or hundreds of other companies out there ready to capitalize on the opportunity.  While it is difficult to accept, business people must learn a new skill, leveraging analytics to improve their instincts.

    The second is closely related to the first but with an important distinction; go where the data leads. I describe this as the KISS that connects big data to decisions.
    The KISS is about extracting knowledge, testing innovations, developing strategies, and doing all this at high speed. The KISS is what allows the organization to safely travel down the path of discovery – going where the data leads – without falling down a rabbit hole.
    KISS1-300x164
    Getting back to the election prognosticators, there were a few that did identify the trend.  They were repeatedly laughed at and disregarded. This is the foundation of the problem, organizations must foster environments where new ideas are embraced and safely explored.  This is how we will grow the convergence of things we know. 
     
    Source: Gartner, November 10, 2016
  • Localization uses Big Data to Drive Big Business

    There’s growing interest in using big data for business localization now, although the use of customer data for optimal orientation of busi

    localization

    ness locations and promotions has been around for at least a decade.

    There’s growing interest in using big data for business localization now, although the use of customer data for optimal orientation of business locations and promotions has been around for at least a decade.

    In 2006, the Harvard Business Review declared the endof big-box retail standardization in favor of catering to customers’ local and regional tastes, fostering innovation, and – not incidentally – making it harder for competitors to copy their store formats by changing up the one-size-fits-all approach. A decade later, analytics are affordable for businesses of all sizes, giving smaller players in a variety of industries the ability to localize as well.

    An example of early localization of items sold comes from Macy’s. Executive search firm Caldwell Partners describes the department-store chain’s vast localization project, which began in the mid-2000s to differentiate store inventories for customer preferences, beginning in markets such as Miami, Columbus, and Atlanta. This strategy has helped Macy’s remain profitable despite ongoing major declines in department-store sales in recent years.

    Localization for stronger consumer appeal, better product offerings

    In hospitality, hotel chains now use localization strategies to compete with locally owned boutique hotels and with Airbnb rentals that promise a “live like a local” experience.

    Visual News reports that Millennials’ tastes and preferences are driving this trend. These younger travel enthusiasts want a unique experience at each destination, even if they’re staying in properties owned by the same hotel brand.

    Hospitality Technology notes that today’s customer profile data gives hotel chains a “360 degree view of customer spending behavior across industries, channels, and over time,” for more precise location orientation and targeted marketing.

    In fact, any consumer-facing business can benefit from using local-market data. GIS firm ESRI has described how individual bank branches can orient their loan offerings to match the needs and risk profiles of customers in the immediate area. Other elements that can be localized to suit area customers’ tastes and spending power include product prices, menu items, location hours, staffing levels, décor, and product displays.

    Localization for more effective marketing

    Outside the store itself, localization is a powerful tool for improving the return on marketing. By using detailed data about local customer behavior, retailers, restaurants and other businesses can move from overly broad promotions to segmented offers that closely align with each segment’s preferences.

    In some cases, this type of marketing localization can reduce expenses (for example, by lowering the total number of direct-mail pieces required for a campaign) while generating higher redemption rates.

    Localization of marketing efforts goes beyond cost savings to the establishment of customer loyalty and competitive advantage. Study after study shows that consumers expect and respond well to offers based on their preferences, but companies have been slow to provide what customers want.

    An international study reported by Retailing Today in June found that 78% of consumers make repeat purchases when they receive a personalized promotion, and 74% buy something new. Despite this, the study found that less than 30% of the companies surveyed were investing heavily in personalization.

    A similar 2015 study focusing on North American consumers, described by eMarketer, found that more than half of the consumers surveyed wanted promotions tailored to their product preferences, age range, personal style, and geographic location. That study found that although 71% of the regional retailers in the survey say they localize and personalize promotional emails, half the consumers said they got promotional emails that didn’t align with their preferences.

    Clearly, there’s room for improvement in the execution of localized marketing, and businesses that get it right will have an advantage with customers whose expectations are going unmet right now.

    Smart localization and orientation involve understanding the available data and knowing how to use it in cost-effective ways to give customers the information they want. It also involves rethinking the way businesses and consumers interact, and the role geography plays in business.

    Localization and careful audience targeting may be the keys to business survival. A 2013 Forrester report proclaimed that in the digital age, “the only sustainable competitive advantage is knowledge of and engagement with customers.”

    With so much power of choice in the hands of consumers, it’s up to retailers, restaurants and other businesses to earn their loyalty by delivering what they want in real time, no matter where they’re located.

    Author: Charles Hogan

    Charles Hogan is co-founder and CEO at Tranzlogic. He has over 20 years of experience in fintech, data analytics, retail services and payment processing industries. Follow on twitter @Tranzlogic)

  • Noord-Nederland bundelt krachten in unieke opleiding Data Science

    HanzeHogeschool logo-300x169Op 7 maart start de opleiding Data Science in Noord-Nederland. Om de al maar groeiende hoeveelheid data te managen leidt IT Academy Noord-Nederland professionals uit het Noorden op tot data scientist. Met geaccrediteerde vakken van de Hanzehogeschool Groningen en de Rijksuniversiteit Groningen slaat de opleiding een brug tussen toegepast en wetenschappelijk onderwijs. De opleiding is opgezet in samenwerking met het bedrijfsleven.

    Er liggen steeds meer kansen voor bedrijven en instellingen om met enorme hoeveelheden data op innovatieve wijze nieuwe producten en diensten aan te bieden. Hoe kunnen bedrijven omgaan met deze data en hoe zit het met privacy en het eigendom van data? Het verzamelen van data is stap één, maar het kunnen ordenen en analyseren creëert waarde. Een bekend voorbeeld is Uber die door het gebruik van Big Data een compleet nieuw (disruptive) business model voor de vervoerssector heeft gecreëerd.


    De vraag naar data scientists neemt toe. De opleiding Data Science is de eerste van zijn soort in Noord-Nederland. Het RDW speelde met haar data-intensieve bedrijfsvoering en roep om een opleiding op het gebied van Big Data een cruciale rol in de ontwikkelfase van de opleiding. Om het programma met de juiste elementen te laden bundelde de IT Academy de krachten van de Hanzehogeschool en de RUG. Hoogleraren en docenten van beide instellingen zullen delen van het programma verzorgen. Daarnaast zorgen gastsprekers van andere kennisinstellingen en het bedrijfsleven voor casuïstiek uit de praktijk om de opgedane kennis gelijk toe te passen.

    IT Academy Noord-Nederland
    IT Academy Noord-Nederland biedt state-of-the-art onderwijs, doet onderzoek door middel van open samenwerking tussen bedrijven, kennisinstellingen en organisaties om zo in Noord-Nederland het innovatief vermogen te versterken, werkgelegenheid in ICT te stimuleren en een aantrekkelijke landingsplaats voor talent te zijn. IT Academy Noord-Nederland is een initiatief van de Hanzehogeschool Groningen, Rijksuniversiteit, Samenwerking Noord en IBM Client Innovation Center.

    Source: Groninger krant

  • Organizing Big Data by means of using AI

    Artificial IntelligenceNo matter what your professional goals are, the road to success is paved with small gestures. Often framed via KPIs – key performance indicators, these transitional steps form the core categories contextualizing business data. But what 

    data matters?

    In the age of big data, businesses are producing larger amounts of information than ever before and there needs to be efficient ways to categorize and interpret that data. That’s where AI comes in.

    Building Data Categories

    One of the longstanding challenges with KPI development is that there are countless divisions any given business can use. Some focus on website traffic while others are concerned with social media engagement, but the most important thing is to focus on real actions and not vanity measures. Even if it’s just the first step toward a sale, your KPIs should reflect value for your bottom line.

     

    Small But Powerful

    KPIs typically cover a variety of similar actions – all Facebook behaviors or all inbound traffic, for example. The alternative, though, is to break down KPI-type behaviors into something known as micro conversions. 

    Micro conversions are simple behaviors that signal movement toward an ultimate goal like completing a sale, but carefully gathering data from micro conversions and tracking them can also help identify friction points and other barriers to conversion. This is especially true any time your business undergoes a redesign or institutes a new strategy. Comparing micro data points from the different phases, then, is a high value means of assessment.

    AI Interpretation

    Without AI, this micro data would be burdensome to manage – there’s just so much of it –but AI tools are both able to collect data and interpret it for application, particularly within comparative frameworks. All AI needs is well-developed KPIs.

    Business KPIs direct AI data collection, allow the system to identify shortfalls, and highlight performance goals that are being met, but it’s important to remember that AI tools can’t fix broader strategic or design problems. With the rise of machine learning, some businesses have come to believe that AI can solve any problem, but what it really does it clarify the data at every level, allowing your business to jump into action.

    Micro Mapping

    Perhaps the easiest way to describe what AI does in the age of big data is with a comparison. Your business is a continent and AI is the cartographer that offers you a map of everything within your business’s boundaries. Every topographical detail and landmark is noted. But the cartographer isn’t planning a trip or analyzing the political situation of your country. That’s up to someone else. In your business, that translates to the marketing department, your UI/UX experts, or C-suite executives. They solve problems by drawing on the map.

    Unprocessed big data is overwhelming – think millions of grains of sand that don’t mean anything on their own. AI processes that data into something useful, something with strategic value. Depending on your KPI, AI can even draw a path through the data, highlighting common routes from entry to conversion, where customers get lost – what you might consider friction points, and where they engage. When you begin to see data in this way, it becomes clear that it’s a world unto itself and one that has been fundamentally incomprehensible to users. 

    Even older CRM and analytics programs fall short when it comes to seeing the big picture and that’s why data management has changed so much in recent years. Suddenly, we have the technology to identify more than click-through-rates or page likes. AI fueled by big data is a new organization era with an emphasis on action. If you’re willing to follow the data, AI will draw you the map

     

    Author: Lary Alton

    Source: Information Management

  • Predictive modelling in Market Intelligence is hot

    IRCMSTR14533 Global Predictive Analytics Market 500x457

    Market intelligence is nog steeds een functie in bedrijven die onderbelicht is. Hoe vaak hebben bedrijven accuraat en actueel in beeld hoe groot hun markt precies is? En of deze groeit of krimp vertoont?

    B2C bedrijven kunnen tegen aanzienlijke bedragen nog dure rapporten kopen bij de informatiemakelaars van deze wereld. En als ze dan het geluk hebben dat voor hen relevante segmentaties zijn gebruikt kan dat inderdaad wat opleveren. B2B bedrijven hebben een veel grotere uitdaging. Markt data is doorgaans niet commercieel beschikbaar en zal moeten worden geproduceerd (al dan niet met behulp van B2C data). Waarmee markt data voor deze bedrijven eigenlijk nog duurder wordt.

    Bovenstaande discussie gaat bovendien nog slechts om data over de marktomvang en –waarde. De basis zou je kunnen zeggen. Data over concurrenten, marktaandelen, productontwikkelingen en marktbepalende trends is minstens zo relevant om een goede koers te kunnen bepalen maar ook tactische (inkoop, pricing, distributie) beslissingen te kunnen nemen.

    Toch zijn er mogelijkheden! Ook met behulp van schaarse data is het mogelijk marktdata te gaan reconstrueren. Het uitgangspunt: Als we op zoek gaan in die markten waar we wel data hebben naar voorspellende variabelen dan kunnen andere marktdata wellicht worden ‘benaderd’ of ‘geschat’. Een vorm van statistische reconstructie van marktdata die vaak betrouwbaarder blijkt dat dan die van surveys of expert panels. Meer en meer wordt deze techniek toegepast in market intelligence. Dus ook in dit vakgebied doet data science haar intrede.

    Als dit gemeengoed is, is de stap naar het voorspellen van markten natuurlijk niet ver meer weg. Meer en meer wordt die vraag natuurlijk gesteld. Kunnen we ook in kaart brengen hoe de markt er over 5 of misschien zelfs 10 jaar uitziet? Dit kan! En de kwaliteit van die voorspellingen neemt toe. En daarmee het gebruik. Market intelligence wordt er alleen maar leuker van! En het spel om de knikkers natuurlijk alleen maar interessanter.

    Source: Hammer, market intelligence

    http://www.hammer-intel.com

     

     

  • Samsung plans to open AI center in Cambridge

    samsung logoSamsung Electronics Co. Ltd., the Korean-based electronics giant, will open a new artificial-intelligence center in Cambridge, England, as the company seeks to benefit from cutting-edge academic research into the technology.

    Andrew Blake, a pioneering researcher in the development of systems that enable computers to interpret visual data, and a former director of Microsoft Corp.’s Cambridge Research Lab, will head the new Samsung AI center, the company said Tuesday.

    The center may hire as many as 150 AI experts, bringing the total number of people Samsung has working on research and development in the U.K. to 400 "in the near future," the company said.

    U.K. Prime Minister Theresa May said Samsung’s new lab would create high-paying, high-skilled jobs. "It is a vote of confidence in the U.K. as a world leader in artificial-intelligence," she said. 

    Samsung said it selected Cambridge because the University of Cambridge is world-renowned for its work on machine-learning and because the city already had a number of other prominent AI research labs, including Microsoft’s.

    Blake said the new Cambridge lab would focus on areas such as getting computers to recognize human emotions and ways to improve how people communicate and interact with increasingly intelligent machines.

    Hyun-suk Kim, Samsung’s chief executive officer, said the company would be looking at uses of AI that help provide users of devices, such as the Korean manufacturer’s phones, with more personalized services that better understood human behavior.

    Samsung joins a number of technology companies ramping up research into artificial-intelligence around the globe. Facebook Inc. announced the opening of two new AI labs, in Pittsburgh and Seattle, earlier this month. DeepMind, the London-based artificial intelligence company owned by Alphabet Inc., announced the opening of a new lab in Paris in March and last year expanded in Montreal and Edmonton, Alberta, in Canada.

    But new corporate research labs have often poached top academic computer scientists, luring them with pay packages that sometimes reach into seven figures, raising fears about a brain drain that may ultimately undercut the training of the next generation of scientists. In one of the most infamous examples, Uber hired 40 researchers and engineers away from Carnegie Mellon University’s robotics lab in Pittsburgh to staff its own self-driving car effort.

    In some cases, companies have tried to allay such fears by emphasizing that top academic hires will maintain a university affiliation or continue to have some role supervising students and teaching. Samsung said Blake will continue to be affiliated with the University of Cambridge and supervise PhD students despite his appointment.

     

    Source: Bloomberg

  • SAS Academy for Data Science in september van start in Nederland

    downloadVoor toekomstige en praktiserende data scientists zijn er weinig mogelijkheden om officiële papieren te halen voor hun werkveld. SAS introduceert daarom de SAS Academy for Data Science. Voor Europese deelnemers gaat deze opleiding in september van start in Nederland. In het programma van de SAS Academy for Data Science wordt kennisontwikkeling voor technologieën als big data, advanced analytics en machine learning gecombineerd met essentiële communicatieve vaardigheden voor data scientists.

    “De sleutel om concurrentievoordeel te behalen uit de enorme hoeveelheden data zijn analytics en de mensen die ermee kunnen werken”, vertelt Pascal Lubbe, Manager Education bij SAS. “De Academy for Data Science biedt kansen aan professionals die starten op dit gebied of hun capaciteiten verder willen ontwikkelen. Ook kunnen bedrijven een speciaal in-house programma laten ontwikkelen voor hun medewerkers. De studenten werken voor de opleiding met SAS-software, maar zijn bij het afronden van de opleiding breed gekwalificeerd als data scientist.”

    De tracks van de SAS Academy for Data Science bestaan uit verschillende elementen; een klassikale instructie, een hands-on case of team project, certificeringsexamens en coaching. Iedere track neemt zes weken in beslag. Door de examens succesvol af te leggen kunnen studenten een of twee diploma’s behalen: SAS Certified Big Data Professional en/of SAS Certified Data Scientist.

    Krachtige mix

    De SAS Academy for Data Science onderscheidt zich door de krachtige mix van praktische ervaring met analytics, computing, statistics en zakelijke kennis en presentatievaardigheden. De lessen worden geleid door experts, begeleid door een coach en studenten krijgen de beschikking tot de SAS-omgeving.

    De opleiding kent twee levels: in het eerste level worden studenten opgeleid om de ‘SAS Certified Big Data Professional credential’ te behalen. Ze leren hoe ze big data kunnen beheren en opschonen en de data te visualiseren met SAS en Hadoop. Level 2 is de opleiding tot gecertificeerd SAS Data Scientist, met predictive modeling, machine learning, segmentatie en text analytics. Ook wordt ingegaan hoe SAS samenwerkt met open source programmeertalen. En minstens zo belangrijk: studenten leren hoe ze met onmisbare communicatieve capaciteiten betekenis geven aan data voor stakeholders.

    Analytics-talent

    “SAS is bijna 40 jaar actief in het data science-vakgebied waarbij we telkens hebben ingespeeld op de behoeften van klanten. Nu vragen onze klanten om analytics-talent”, zegt Jim Goodnight, CEO van SAS. “Werkgevers vertrouwen gecertificeerde SAS-professionals niet alleen voor het beheren en analyseren van de data, maar ook om de betekenis en gevolgen voor de business te begrijpen. Door de analyseresultaten duidelijk te communiceren kunnen betere beslissingen genomen worden.”

    Source: Emerce

  • SAS Data Science en Analytics Day coming up!

    Artificial Intelligence (AI) is een onderwerp dat bij veel bedrijven op de agenda staat, maar concrete toepassingen staan vaak nog in de kinderschoenen. Tijdens de sessie 'Innovate with Analytics' zijn veel verschillende toepassingen van Artificial Intelligenc in de praktijk voorbijgekomen. Het werd zelfs duidelijk dat AI grote relevantie kan hebben voor de edele voetbalsport. Al doet bijgaande illustratie vermoeden dat de Nederlandse voetbalgoeroe Cruijff daar zo zijn vragen bij heeft. Bent u nieuwsgierig naar nog meer toepassingen? kom dan op 31 mei naar de SAS Data Science & Analytics Day en hoor alles over de laatste ontwikkelingen en trends op het gebied van data science en artificial intelligence.

    Als we het over AI hebben, dan is het belangrijk om eerst de definitie scherp voor ogen te hebben, stelt Mark Bakker, data strategist bij SAS. Dikwijls worden afbeeldingen van menselijk ogende robots of de Hollywood-klassieker Terminator gebruikt om AI toe te lichten. Terwijl dit deterministische beeld helemaal niet past bij de AI-toepassingen die tegenwoordig worden ingezet om betere bedrijfsresultaten te behalen. Volgens Bakker is AI: 'the science of training systems to emulate human tasks through learning and automation'. AI is dus geen zelfregulerende robot, maar een hulpmiddel voor menselijk handelen. Juist als de machine het werk beter kan analyseren of uitvoeren dan een mens.

    Natural language & image modelling

    Bakker en veel van zijn collega's proberen machines op een menselijke manier te laten communiceren. Hiervoor leren ze de machine om beelden, geluiden en tekst te begrijpen. Een interessant aandachtsgebied hierbij is de interpretatie van 'natural language'. Voor een machine is tekst altijd ongestructureerde data, terwijl mensen door het toevoegen van leestekens zorgen voor de juiste interpretatie bij de partij waarmee ze willen communiceren. Een machine zou volgens Bakker moeite hebben met de interpretatie van de zin: 'I am really happy, not'. Terwijl een menselijke lezer hierbij snel zal begrijpen dat de schrijver van dit bericht niet gelukkig is.

    Bakker laat ook zien hoe SAS een machine aanleert een kat te herkennen op een afbeelding met 'image modelling'. Op de foto is de schaduw van een kat op de muur te zien. De machine kan in eerste instantie bijvoorbeeld denken dat het om een deurmat gaat. Naast stilstaande beelden is het ook mogelijk om emotie te meten in videobeelden. Via AI bepaalt de machine hoeveel procent positieve emotie waar te nemen is. Natuurlijk, zo beaamt Bakker, is het heel interessant om dieper in dit soort ontwikkelingen te duiken, maar het wordt pas echt bruikbaar als je de opgedane inzichten ook kunt toepassen. Een mooi voorbeeld hiervan is de 'hard hat test'. Door middel van het analyseren van live-videobeelden kan een bedrijf controleren of een medewerker zijn valhelm op heeft. Op deze manier garandeert de organisatie dat er aan de veiligheidseisen op de werkplaats wordt voldaan.

    BallJames

    Een van de sportiefste toepassingen van AI is BallJames. Deze oplossing van het Nederlandse bedrijf SciSports heeft als doel 'to give AI back to football clubs'. De wereldvoetbalbond FIFA verbiedt het gebruik van sensoren op het veld, spelers of bal tijdens wedstrijden. Omdat er bij clubs behoefte is aan accurate, 3D-data registreren veertien camera's voor BallJames alle handelingen van de spelers op verschillende plekken van het voetbalveld. Het bijzondere aan BallJames is dat het een zelflerende oplossing is. Met deep learning algoritmes is het mogelijk om allerlei statistieken te genereren voor zowel de spelers, coaches als scouts. In de Eredivisie is Heracles Almelo de eerste club waar de camera's langs het veld alle activiteiten monitoren.

    The Edge

    De camera's van BallJames genereren per wedstrijd zo'n 1,4 terabyte data per stuk. Door de grote hoeveelheid informatie is het belangrijk direct te weten welke onderdelen je nodig hebt voor de analyse, zodat niet alle verzamelde data verstuurd en bewaard hoeft te worden. Tegenwoordig kan dit zo dicht mogelijk bij de bron, of 'on the edge'. In het voorbeeld van BallJames is de camera 'on the edge', de camera verzamelt en analyseert de dat

    a. Maar ook een sensor op de wiek van een windmolen of een termometer in een afgesloten zeecontainer kan dit beginpunt zijn. Het analyseren van data 'on the edge' heeft veel voordelen, legt Joao Oliveira, Principal Business Solutions Manager Information Management, uit. Zo stelt het bedrijven in staat om proactief te handelen bij bepaalde situaties. Een laser-camera in een winkel kan van elke klant een 'avatar' maken. Bij verdacht gedrag wil de winkelier geen seintje krijgen, maar automatisch de deuren sluiten zodat hij niet achter een mogelijke dief aan hoeft te rennen.

    Direct deployment

    Het is mogelijk om de data direct om te zetten in acties: 'direct deployment on the edge'. Om een 

    bepaalde activiteit of analyse uit te voeren hoeft de data dus niet eerst naar de cloud gestuurd te worden. Dit scheelt organisaties tijd en geld, zegt Oliveira. Stel dat je via analytics in de cloud achterhaalt dat een model van bijvoorbeeld een windmolen-sensor moet worden aangepast, dan zorgt dit voor een tijdelijke stop of vertraging van de processen van de gehele windmolen. Bovendien wil je dit voor een enkele windmolenwiek of een onderdeel daarvan kunnen aanpassen, zonder meerdere windmolens in het park stil te hoeven zetten. Een ander voorbeeld dat Oliveira geeft zijn de zogeheten 'smart containers' op zeeschepen, waarbij de temperatuur in de container real-time gemeten wordt. Tijdens lange zeeroutes is het niet altijd mogelijk - of heel kostbaar - om data naar de cloud te versturen, terwijl het automatisch aanzetten van de airconditioning kan zorgen voor minder bederf van goederen in de container.

    Bron: Analytics today

    https://www.analyticstoday.nl/blog/ai-in-de-praktijk-van-voetbal-data-tot-slimme-sluizen/?utm_source=ATnieuwsbrief2018-week11utm_medium=email&utm_campaign=ATnieuwsbrief2018-week11

     

  • The Top 5 Trends in Big Data for 2017

    Last year the big data market centered squarely on technology around the Hadoop ecosystem. Since then, it’s been all about ‘putting big data to work’ thro

    top 5ugh use cases shown to generate ROI from increased revenue and productivity and lower risk.

    Now, big data continues its march beyond the crater. Next year we can expect to see more mainstream companies adopting big data and IoT, with traditionally conservative and skeptic organizations starting to take the plunge.

    Data blending will be more important compared to a few years ago when we were just getting started with Hadoop. The combination of social data, mobile apps, CRM records and purchase histories via advanced analytics platforms allow marketers a glimpse into the future by bringing hidden patterns and valuable insights on current and future buying behaviors into light.

    The spread of self-service data analytics, along with widespread adoption of the cloud and Hadoop, are creating industry-wide change that businesses will either take advantage of or ignore at their peril. The reality is that the tools are still emerging, and the promise of the (Hadoop) platform is not at the level it needs to be for business to rely on it.

    As we move forward, there will be five key trends shaping the world of big -Data:

    The Internet of Things (IoT)

    Businesses are increasingly looking to derive value from all data; large industrial companies that make, move, sell and support physical things are plugging sensors attached to their ‘things’ into the Internet. Organizations will have to adapt technologies to map with IoT data. This presents countless new challenges and opportunities in the areas of data governance, standards, health and safety, security and supply chain, to name a few.

    IoT and big data are two sides of the same coin; billions of internet-connected 'things' will generate massive amounts of data. However, that in itself won't usher in another industrial revolution, transform day-to-day digital living, or deliver a planet-saving early warning system. Data from outside the device is the way enterprises can differentiate themselves. Capturing and analyzing this type of data in context can unlock new possibilities for businesses.

    Research has indicated that predictive maintenance can generate savings of up to 12 percent over scheduled repairs, leading to a 30 percent reduction in maintenance costs and a 70 percent cut in downtime from equipment breakdowns. For a manufacturing plant or a transport company, achieving these results from data-driven decisions can add up to significant operational improvements and savings opportunities.

    Deep Learning

    Deep learning, a set of machine-learning techniques based on neural networking, is still evolving, but shows great potential for solving business problems. It enables computers to recognize items of interest in large quantities of unstructured and binary data, and to deduce relationships without needing specific models or programming instructions.

    These algorithms are largely motivated by the field of artificial intelligence, which has the general goal of emulating the human brain’s ability to observe, analyze, learn, and make decisions, especially for extremely complex problems. A key concept underlying deep learning methods is distributed representations of the data, in which a large number of possible configurations of the abstract features of the input data are feasible, allowing for a compact representation of each sample and leading to a richer generalization.

    Deep learning is primarily useful for learning from large amounts of unlabeled/unsupervised data, making it attractive for extracting meaningful representations and patterns from Big Data. For example, it could be used to recognize many different kinds of data, such as the shapes, colors and objects in a video — or even the presence of a cat within images, as a neural network built by Google famously did in 2012.

    As a result, the enterprise will likely see more attention placed on semi-supervised or unsupervised training algorithms to handle the large influx of data.

    In-Memory Analytics

    Unlike conventional business intelligence (BI) software that runs queries against data stored on server hard drives, in-memory technology queries information loaded into RAM, which can significantly accelerate analytical performance by reducing or even eliminating disk I/O bottlenecks. With big data, it is the availability of terabyte systems and massive parallel processing that makes in-memory more interesting.

    At this stage of the game, big data analytics is really about discovery. Running iterations to see correlations between data points doesn't happen without millisec

    onds of latency, multiplied by millions/billions of iterations. Working in memory is at three orders of magnitude faster than going to disk.

    In 2014, Gartner coined the term HTAP - Hybrid Transaction/Analytic Processing, to describe a new technology that allows transactions and analytic processing to reside in the same in-memory database. It allows application leaders to innovate via greater situation awareness and improved business agility, however entails an upheaval in the established architectures, technologies and skills driven by use of in-memory computing technologies as enablers.

    Many businesses are already leveraging hybrid transaction/analytical processing (HTAP); for example, retailers are able to quickly identify items that are trending as bestsellers within the past hour and immediately create customized offers for that item.

    But there’s a lot of hype around HTAP, and businesses have been overusing it. For systems where the user needs to see the same data in the same way many times during the day, and there’s no significant change in the data, in-memory is a waste of money. And while you can perform analytics faster with HTAP, all of the transactions must reside within the same database. The problem is, that most analytics efforts today are about putting transactions from many different systems together.

    It’s all on Cloud

    Hybrid and public cloud services continue to rise in popularity, with investors claiming their stakes. The key to big data success is in running the (Hadoop) platform on an elastic infrastructure.

    We will see the convergence of data storage and analytics, resulting in new smarter storage systems that will be optimized for storing, managing and sorting massive petabytes of data sets. Going forward, we can expect to see the cloud-based big data ecosystem continue its momentum in the overall market at more than just the “early adopter” margin.

    Companies want a platform that allows them to scale, something that cannot be delivered through a heavy investment on a data center that is frozen in time. For example, the Human Genome Project started as a gigabyte-scale project but quickly got into terabyte and petabyte scale. Some of the leading enterprises have already begun to split workloads in a bi-modal fashion and run some data workloads in the cloud. Many expect this to accelerate strongly as these solutions move further along the adoption cycle.

     

    There is a big emphasis on APIs to unlock data and capabilities in a reusable way, with many companies looking to run their APIs in the cloud and in the data center. On-premises APIs offer a seamless way to unlock legacy systems and connect them with cloud applications, which is crucial for businesses that want to make a cloud-first strategy a reality.

    More businesses will run their APIs in the cloud, providing elasticity to better cope with spikes in demand and make efficient connections, enabling them to adopt and innovate faster than competition.

    Apache Spark

    Apache Spark is lighting up big data. The popular Apache Spark project provides Spark Streaming to handle processing in near real time through a mostly in-memory, micro-batching approach. It has moved from being a component of the Hadoop ecosystem to the big data platform of choice for a number of enterprises.

    Now the largest big data open source project, Spark provides dramatically increased data processing speed compared to Hadoop, and as a result, is much more natural, mathematical, and convenient for programmers. It provides an efficient, general-purpose framework for parallel execution.

    Spark Streaming, which is the prime part of Spark, is used to stream large chunks of data with help from the core by breaking the large data into smaller packets and then transforming them, thereby accelerating the creation of the RDD. This is very useful in today’s world where data analysis often requires the resources of a fleet of machines working together.

    However, it’s important to note that Spark is meant to enhance, not replace, the Hadoop stack. In order to gain even greater value from big data, companies consider using Hadoop and Spark together for better analytics and storage capabilities.

    Increasingly sophisticated big data demands means the pressure to innovate will remain high. If they haven’t already, businesses will begin to see that cus

    tomer success is a data job. Companies that are not capitalizing on data analytics will start to go out of business, with successful enterprises realizing that the key to growth is data refinement and predictive analytics.

    Information Management, 2016; Brad Chivukala

  • Tips for Creating a Winning Data Scientist Team

    Finding the right mix of support to do more with your data is no easy task. Data scientist teamData scientists remain in high-demand, and fetch top dollar. Here are some tips on how to assemble a winning team.

    So much data, so little time

    Organizations continue to struggle with how to get more out of their data. “It’s not a new challenge, but the problem is only exacerbated as more data is exchanged and created at petabyte scale,” confirms Dermot O’Connor, cofounder and vice president at Boxever. “The proliferation of data and the pressure for organizations to turn data into business value has increased demand for data science professionals.” Approximately 10 percent of the workforce at Boxever is data scientists, and O’Connor shared his views on how to best assemble a data science team.

    Seeking the ‘total package’

    “When a company seeks to hire a data scientist, it's typically seeking someone with skills in advanced programming and statistical analysis, along with expertise in a particular industry segment,” O’Connor explains. “The need is great, and the skills gap is widening: A study by McKinsey predicts that ‘by 2018, the U.S. alone may face a 50 percent to 60 percent gap between supply and requisite demand of deep analytic talent.’ Good data scientists are often referred to as ‘unicorns’ because it is so rare to find professionals who possess all the right skills to meet today’s requirements.”

    Still the top job in America

    “As the ‘top job in America in 2016,’ data scientists don’t come cheap,” O'Connor confirms. “How can today’s organizations harness the brains behind data science to get the most out of their investment, whether in talent or technology? Here are some things to consider when building your data science team…”

    Data science is a team sport

    “There are many facets to creating successful data science teams in a practical, operational sense,” O’Connor says. “It’s rare to hire just one or two on staff, so remember that for data scientists as much as any other role, strength comes in numbers.”

    Outsource to innovate

    “If you do the math, a team of seasoned data scientists – let’s say only five – will cost you well over $1 million annually in fixed costs,” O’Connor notes. “And like many in IT functions, they’re likely to be pulled in many directions. Having a dedicated resource to optimize your systems with networks getting increasingly smarter with every interaction via machine learning is one way to ensure that projects are efficient while blending technology platform costs with the costs for data science talent that drives them.”

    Balance functional and strategic tasks

    “Part of the reason data scientists are so in demand is because they have concrete skills in predictive analytics that others – in IT and business roles – lack,” O’Connor explains. “That being said, you’ll need sufficient talent and resources to both write and maintain software and algorithms while also gathering insights from internal teams and customers to customize and optimize the logic behind them.”

    Set data scientists up for success with the right data management systems

    “High volume, omni-channel systems are very complex – and time consuming – to manage,” says O’Connor. “Having a hub where data at the individual customer level is aggregated helps set the foundation for data scientists to really shine. Finding ways to automate processes so that the right data is available on demand will make any data scientist’s life easier and will make more possible under their strategic guidance.”

    Expect to ‘see inside the black box’ of AI

    “A data scientist should be tasked with explaining the process of machine learning and artificial intel

    ligence in layman’s terms to bring in others into their realm throughout the enterprise,” O’Connor explains. “This is essential for gathering insights that make predictions stronger and actions more focused by design. And as marketers take on greater oversight of data, it’s important that CMOs and other decision-makers find complementary talent and technology to help them see the big picture to explore all that’s possible with their data.”

    Bron: Information Management, 2016

  • Van Business Intelligence naar Data Science

    691283Organisaties die al jaren ervaring hebben met de inzet van datawarehouses en Business Intelligence gaan steeds vaker Data Science-toepassingen ontwikkelen. Dat is logisch, want data heeft een impact op iedere organisatie; van retailer, reisorganisatie en financiële instelling tot ziekenhuis. Er wordt zelfs beweerd dat we momenteel in een vierde industriële revolutie zijn aanbeland, waarbij data als productiefactor is toegevoegd aan het lijstje mensen, kapitaal en grondstoffen. Hoe verhouden BI en Data Science zich tot elkaar en op welke manier maak je als BI-organisatie de stap naar Data Science-toepassingen?


    Algoritmes en Data
    Big Data is in een aantal jaar razendsnel opgekomen. Inmiddels zijn we van de Big Data-hype terechtgekomen in een tijd waarin het juist gaat over het voorspellen, de tijd van Data Science, waarin machine learning, artificial intelligence en deep learning een steeds grotere rol spelen. We komen terecht in een wereld waarin singularity, het moment waarop systemen intelligenter zijn dan de mens, steeds dichterbij komt. Of we dit punt ooit zullen bereiken weet niemand, wat er zal gebeuren op dat moment is nog onzekerder. Maar wat wel een feit is, is dat de wereld om ons heen steeds meer gedomineerd wordt door algoritmes en data. 
    Hadoop heeft met zijn andere manier om data op te slaan en doorzoekbaar te maken een cruciale rol gespeeld in de Big Data-revolutie. Door de toegenomen rekenkracht en de afgenomen kosten van opslagcapaciteit is het tegenwoordig mogelijk om vrijwel onbeperkte hoeveelheden data op te slaan en beschikbaar te maken, waardoor data en technologie steeds minder een belemmering zijn voor innovatie.

    Data en Technologie
    Innoveren met data draait vanzelfsprekend om data en om technologie, maar deze komen steeds meer en gemakkelijker beschikbaar. Denk aan bijvoorbeeld de opkomst van open source technologie, waardoor je de technologie kan zoeken bij de toepassing. Dit was vroeger wel anders, toen waren het de grote organisaties die zich een licentie op dure software konden veroorloven om concurrentievoordeel mee op te bouwen. Open source is natuurlijk niet gratis, maar de kosten groeien lineair naarmate je een technologie meer gebruikt en niet zoals bij licensed producten, exponentieel.

    Verdwijnt Business Intelligence?
    Zowel Business Intelligence als Data Science draaien om slim gebruik van data. Business intelligence zorgt voor rapportages, zoals financiële rapporten, die een accuraat beeld schetsen van wat er heeft plaatsgevonden. Bij Data Science draait het om vooruitkijken met het vergroten van bedrijfswaarde als doel. Vanwege het experimentele karakter van Data Science hoeven uitkomsten niet altijd raak te zijn.  
    In de praktijk dragen dashboards, visualisaties en rapporten vaak bij aan de bewustwording over de waarde van data. Het is niet ongebruikelijk dat een directie een visie en strategie gericht op datagedreven toepassingen gaat ontwikkelen op basis van datavisualisaties en dashboards. 

    Voldoen bestaande organisatiestructuren nog wel?
    Organisaties die aan de slag gaan met datagedreven toepassingen doen er goed aan hun organisatie eens goed onder de loep te nemen. Innoveren draait niet om het schrijven van een Project Initiation Document (oftewel PID), maar om het simpelweg starten. Projectresultaten leiden niet altijd tot een valide business case, bij innovatie hoort ook falen. Kijk naar Google, toch een van de meest succesvolle organisaties wat betreft datatoepassingen, daar falen ook veel projecten. Het is zaak om te experimenteren en in korte iteraties te bepalen of je verder gaat of niet. Fail fast!

    Innoveren als een startup
    Waar Google, Microsoft en Apple de technologie zelf ontwikkelden in hun garage, zijn het nu startups die vaak starten met behulp van state-of-the art technologie die beschikbaar is als open source product. Studenten leren op de universiteit te werken met open source, technologie die ze ook thuis kunnen gebruiken. Organisaties die talent willen aantrekken zullen ook open source moeten adopteren om interessant te blijven als werkgever.
    Het nadeel van bestaande organisaties is dat de werkwijze zich vaak niet goed leent voor innovatie. Bij een online retailer werd een afdeling verantwoordelijk voor conversie. Vol enthousiasme ging de afdeling ‘Conversie’ aan de slag met het ontwikkelen van productaanbevelingen. Al vrij snel bleek het succes van de afdeling afhankelijk te zijn van de prestaties van andere afdelingen die andere targets nastreefden. De inkoper kocht volgens eigen KPI’s producten in en de marketeer bepaalde op zijn eigen manier de prijzen. De engineers en front-end developers bepaalden op basis van eigen testen de gebruikerservaring. Door de afhankelijkheid van andere afdelingen en conflicterende doelen per afdeling had de afdeling ‘Conversie’ dus feitelijk geen controle over zijn eigen succes.

    De enige manier om deze kloof te slechten is door te gaan werken in multidisciplinaire teams, die verantwoordelijk zijn voor features en niet voor processen. Deze teams kennen een heel andere dynamiek doordat verschillende disciplines samenwerken en samen dezelfde verantwoordelijkheid dragen, zoals bijvoorbeeld conversie. Startups hebben het wat dat betreft gemakkelijk, zij hebben geen bestaande organisatie, zij beginnen met het aantrekken van de juiste mensen en bouwen de skills gaandeweg op. Waar vroeger de systemen het kostbaarst waren, zijn het tegenwoordig de mensen die van de grootste waarde zijn.

    De rol van de Data Scientist
    Data Science heeft een centrale rol in teams die zich richten op innovatie en de ontwikkeling van datagedreven producten. Data Science is hiermee echt een businessafdeling en zeker geen ondersteunende afdeling die voor de business werkt. Een Data Scientist heeft over het algemeen ook een ander profiel dan een BI-specialist.
    Een Data Scientist is een soort van schaap met vijf poten. Een Data Scientist beschikt over het algemeen over een statistische achtergrond, heeft kennis van machine learning en bouwt naast modellen ook applicaties. Daarnaast is een Data Scientist communicatief vaardig en van nature nieuwsgierig, waardoor hij graag experimenteert en onderzoekt. Josh Wills, destijds verantwoordelijk voor Data Science bij Cloudera omschreef het als volgt: “Een Data Scientist is iemand die beter is in statistiek dan een software engineer en beter in software engineering dan een statisticus”. 

    Van BI naar Data Scientist
    Veel datawarehouse- en Business Intelligence-specialisten hebben programmeerervaring en zouden de stap naar Data Science kunnen zetten door zich bijvoorbeeld te verdiepen in Python en R en statistiek. Het helpt ook als organisaties functies creëren voor Data Scientists, niet alleen zodat externe consultancy-organisaties kennis kunnen overdragen maar ook zodat het voor bestaande medewerkers eenvoudiger wordt om door te groeien. Zodra organisaties de waarde erkennen van Data Science zal duidelijk worden dat het de mensen zijn die het verschil maken in de razendsnelle ontwikkeling van datatoepassingen en technologische innovatie.

    Bron: biplatform.nl

     

  • Van data driven naar data-informed besluitvorming

    intuitie 855x500Veel organisaties starten net met het data driven maken van hun besluitvorming, anderen zijn al verder gevorderd. De prominentere plaats van Big Data en algoritmen in besluitvorming van organisaties lijkt op het eerste gezicht alleen maar een positieve ontwikkeling. Wie wil er nou niet de customer journey kunnen volgen, de lead time verkorten en maximaal wendbaar zijn? Wie wil er geen slimme algoritmen waardoor complex speurwerk én moeilijke beslissingen geautomatiseerd worden?

    Besluitvorming, gedreven door Big Data en algoritmen, kent echter een aantal valkuilen: beslissingen, die teveel steunen op data, bevorderen een cultuur waarin medewerkers minder kritisch zijn, minder verantwoordelijkheid nemen en minder vertrouwen op hun eigen kennis en ervaring. Deze valkuilen zijn vooral van toepassing als de data en algoritmen nog niet ver genoeg ontwikkeld zijn, wat bij veel organisaties het geval is. Daarom pleiten wij voor ‘data-informed’ besluitvorming, waarin organisaties een balans vinden tussen enerzijds data en algoritmen, en anderzijds intuïtie, gestoeld op kennis en ervaring. In deze werkwijze is de medewerker nog in control. Hij verschuilt zich niet achter data en algoritmen, maar gebruikt deze om slimmere beslissingen te nemen.

    De upside van data driven besluitvorming

    De Big Data revolutie ontstond vanuit de groeiende aanwas en rijkere data die wordt verzameld en opgeslagen. Bovendien maakt slimme tooling het onttrekken en analyseren van data steeds gemakkelijker. Organisaties als Google, Tesla en de campagneteams van Hillary Clinton en Donald Trump zijn baanbrekend met hun datagedreven besluitvorming. Zo gebruikt Google Big Data en complexe algoritmen om advertenties te optimaliseren, zodat deze zo goed mogelijk bij de doelgroep aansluiten. Tesla zet sensoren en Big Data in om technische problemen op afstand te detecteren en te verhelpen (of zelfs te voorspellen en te voorkomen), waardoor recalls tot het verleden behoren. Dergelijke toepassingen zijn niet alleen weggelegd voor hippe startups, opgeschaalde multinationals of presidentskandidaten met veel geld. Datagedreven sturen kan iedereen door bijvoorbeeld met één proces of product te starten.

    Nederlandse vervoersbedrijven bepalen aan de hand van een voorspellend model de materieel- en personeelsinzet. Dit helpt hen om de mobiliteit tijdens pieken beter te stroomlijnen en geeft hen de kans om de dienstverlening keer op keer te verbeteren. Energiebedrijven gebruiken data voor het plegen van preventief onderhoud en het verduurzamen van hun processen. Profvoetbalclubs zetten tijdens wedstrijden data in om de klantbeleving te vergroten door spelers op het veld te volgen of zelf beelden te laten maken en te delen via social media en smartphones.

    De valkuilen van data driven besluitvorming

    Wanneer organisaties puur op basis van data en algoritmen beslissingen nemen, noemen we dat ‘data driven’ of ‘data centric’. Veel processen en zelfs beslissingen zijn (deels) geautomatiseerd, het menselijk brein verdwijnt naar de achtergrond en de data staat centraal in de besluitvorming. Wanneer algoritmen en data nog onvoldoende ontwikkeld zijn, verhoogt dit de kans op de volgende valkuilen:

    • Aannames worden onvoldoende getoetst;
    • Contextkennis wordt onvoldoende ingezet;
    • De data is onbetrouwbaar.

    Aannames worden onvoldoende getoetst

    In de aanloop naar de economische crisis van 2008 stuurden veel financiële instellingen op basis van risicomodellen die bijna niemand meer begreep. Het risico van hypotheekproducten schatten zij veel te laag in. Zij stelden de modellen nauwelijks ter discussie, maar gebruikten ze als verantwoording van correct handelen. Het resultaat: een systemische miscalculatie die bijna niemand zag aankomen, met desastreuze gevolgen.

    Dit voorbeeld illustreert dat het risicovol is om aannames van algoritmen niet of minder goed te laten toetsen door de mens én wat er gebeurt als we het vertrouwen in onze eigen intuïtie kwijtraken. Intuïtie kan een waardevolle toevoeging op data zijn, want met één van beiden dek je nog zelden de relevante werkelijkheid af.

    Contextkennis wordt onvoldoende ingezet

    Het CBS stelde dat Nederlanders in 2011 meer gingen lenen. Dit baseerden zij op hogere creditcardbestedingen. Maar wat was het geval? Nederlanders bestelden meer producten online en de creditcard was vaak het enige beschikbare betaalmiddel. Het CBS telde alle creditcardtransacties als leningen, ook gewone betalingen. Oftewel: iemand die online een boek of een vliegticket met een creditcard betaalde, was volgens het CBS iemand die niet meer bij de bank kon lenen en daarom zijn creditcard gebruikte.

    Dit voorbeeld illustreert het gevaar van het blind volgen van de data zonder contextkennis. Mét contextkennis had een analist op een lager detailniveau (type creditcardbesteding) geanalyseerd en geïnterpreteerd.

    De data is onbetrouwbaar

    In de campagne voor de presidentsverkiezingen van 2016 in de VS maakten zowel de teams van Hillary Clinton en Donald Trump gretig gebruik van Big Data en algoritmen. Onder meer voor nauwkeurige peilingen en efficiënte inzet van campagnemiddelen. Trump won, ondanks het beperkte budget (slechts de helft van Clinton). Het verhaal gaat dat de data van team Clinton minder betrouwbaar waren. Deelnemers van polls durfden tegenover haar team er niet voor uit te komen dat ze op Trump gingen stemmen. Tegen team Trump waren ze eerlijker. Zij zagen – tegen alle polls in – de overwinning al vijf dagen van te voren aankomen.

    Het vertrouwen in Big Data bij verkiezingscampagnes wordt nu ter discussie gesteld. Er was echter niets mis met de ontwikkelde algoritmen en de aanpak in het algemeen, maar met onbetrouwbare data zijn deze weinig waard of zelfs schadelijk, blijkt nu. Mensen kunnen nu eenmaal liegen of sociaal wenselijke antwoorden geven. In de sociale wetenschappen worden er niet voor niets allerlei strategieën toegepast om dit te minimaliseren. Het is dus belangrijk om aannames en datakwaliteit regelmatig te toetsen.

    Onjuiste of incomplete kennis kan desastreuze én onethische gevolgen hebben

    In het Amerikaanse rechtssysteem gebruiken ze geautomatiseerde data-analyse om de kans op recidive te berekenen. Er komt geen mens meer aan te pas. Ze crunchen de data en bepalen zo of iemand wel of niet vervroegd vrijkomt. Wetenschappers spreken over het doemscenario van volledig geautomatiseerde rechtspraak. Hoogleraar recht en informatisering Corien Prins: ‘Want op een gegeven moment is het uit je handen, dan heb je er niets meer over te zeggen.’

    Het belang van intuïtie

    Intuïtie wordt vaak als iets vaags of ongrijpbaars gezien. Dat heeft vooral met de definities te maken die worden gehanteerd: “iets aanvoelen zonder er over na te denken” of “het gevoelsmatig weten, zonder erover te hoeven nadenken”. Wat vaak wordt vergeten is dat intuïtie is opgebouwd op basis van kennis en ervaring. Hoe meer kennis en ervaring, hoe beter de intuïtie is ontwikkeld. Intuïtie wordt ‘bovenrationeel’ genoemd. Het werkt immers snel, moeiteloos en onbewust, in tegenstelling tot het ‘normale’ rationele denkproces, wat langzaam, complex en bewust is. Malcolm Gladwell beschreef in zijn boek Blink: The Power of Thinking Without Thinking dat bepaalde kunstcritici in een fractie van een seconde zien of een schilderij echt of namaak is, zonder dat ze daar direct een verklaring voor hebben. De ontwikkeling van kunstmatige intelligentie is nog niet zover dat zij deze experts kunnen vervangen.

    Beslissen op basis van intuïtie of onderbuikgevoel kent echter de nodige beperkingen. We hebben nogal wat vooroordelen (bias). Sommige waarheden zijn contra-intuïtief. Je denkt dat je alleen de boodschappen koopt die je echt nodig hebt. Wat blijkt: je maakt toch regelmatig gebruik van “drie-halen-twee-betalen”, waardoor je regelmatig voedsel weggooit. ‘Confirmation bias’ (tunnelvisie) is een veel voorkomende bias: we zien alleen de datapunten die in onze visie passen en alternatieven maken geen kans. Bovendien zijn we als mens niet in staat gigantische hoeveelheden data in korte tijd zonder rekenfouten te analyseren, zoals een computer dat kan. Bij deze menselijke tekortkomingen helpen data en algoritmen voor betere beslissingen.

    Van data driven naar data-informed

    Het is zaak om als organisatie geen genoegen te nemen met alleen data of alleen intuïtie. Het zijn twee bronnen die elkaar versterken. Wat is de optimale balans? Dat wordt met name bepaald door de stand van de technologie. Op gebieden waar algoritmen en kunstmatige intelligentie intuïtie nog niet kunnen vervangen, is het verstandig om ‘data-informed’ besluitvorming (zie Figuur) te hanteren. In deze aanpak is data niet leidend – zoals bij data driven besluitvorming – maar een verrijking van onze eigen capaciteiten. We hebben namelijk zelf onvoldoende mogelijkheden om alle informatie te kennen, te combineren, toe te passen en foutloos te werken. We hebben wel de kwaliteiten om niet-meetbare factoren mee te wegen, we kennen verklaringen en kunnen betekenis geven aan de data. En bovenal: we kunnen verantwoordelijkheid nemen. Data voorziet ons van informatie, maar wij gebruiken daarnaast intuïtie om beslissingen te nemen. Ditzelfde concept wordt toegepast in het vliegverkeer. Hoe goed de automatische piloot ook werkt, de menselijke piloot blijft eindverantwoordelijk. Zijn kennis en ervaring is nodig om besluiten te nemen, op basis van wat het vliegtuig voorstelt. Zowel data driven werken als volledig op basis van intuïtie werken kent dus beperkingen. Combineer het beste van beiden om als organisatie snel en gedegen besluiten te kunnen nemen.

    data driven data informed 1024x523

    Figuur. Data driven en data-informed (illustratie door Nick Leone, geïnspireerd op Fishman (2014) “The Dangers of Data Driven Marketing”).

    Case: Datagedreven verbeteren bij de Sociale Verzekeringsbank

    De Sociale Verzekeringsbank (SVB) wil hun klanten optimaal bedienen. Daarvoor is inzicht benodigd in de klantreis. De SVB brengt de digitale klantreis in beeld op basis van data, over de klantkanalen heen, met behulp van Process Mining. Deze data wordt uiteindelijk ingezet om de klantreis te sturen en te verbeteren. De SVB formuleerde onderzoeksvragen over de te verwachten klantreis. Bijvoorbeeld “Hoeveel klanten die een transactie uiteindelijk offline regelen zijn wel in de online portal geweest?” en “Op welke webpagina haken klanten af?” Data-analisten genereerden inzicht in de daadwerkelijke klantreis. Uit de data-analyse bleek bijvoorbeeld dat meer klanten dan verwacht afhaakten van online naar offline en dat zij dit vooral deden op een specifieke webpagina in de portal. De resultaten werden geduid door domeinexperts binnen de organisatie. Zij gaven direct aan dat het afhaken zeer waarschijnlijk een gevolg was van een extra authenticatie-stap. Na verdere analyse bleek dat deze stap vrij onverwacht in het proces kwam: de klant was hier niet voorbereid, waardoor zij het niet meer begrepen en/of zij niet bereid waren een extra stap te zetten. Op basis van de gezamenlijke conclusies zijn verbetervoorstellen uitgewerkt op gebied van proces, IT en webcontent. De effectiviteit hiervan is vervolgens weer getoetst door middel van data-analyse.

    Met alleen data had de SVB weinig inzicht gekregen in de context van de customer journey en beweegredenen van klanten en was er geen verbetering gerealiseerd. En met alleen intuïtie zou er veel minder inzicht in de daadwerkelijke klantreis zijn geweest. Klanten bewegen zich vaak anders dan men verwacht. Bovendien is (nog) niet elk gedrag en elke beweegreden van de klant in data te vatten.

    De basisingrediënten van data-informed werken

    Een data-informed besluitvormingscultuur herken je – naast het optimaal inzetten van data – aan kritisch denken, vertrouwen in eigen beoordelingsvermogen en (onderling) begrip van het waarom van besluiten. Een onderdeel daarvan is een periodieke toetsing van de beslismodellen. Bijvoorbeeld door regelmatig geautomatiseerde besluitvormingsprocessen achteraf te analyseren of door de feedback van klanten en andere stakeholders te gebruiken als input voor je beslismodellen. Deze cultuur van data-informed verbeteren vraagt om een datahuishouding die op orde is en expertise op gebied van data science.

    Tot slot nog een aantal concrete tips voor data-informed besluitvorming:

    • Zorg dat je personeelsbestand met data weet om te gaan. Om als organisatie competitief te zijn moeten de medewerkers kritisch zijn, complexe analyses kunnen uitvoeren en interpreteren, en acties kunnen definiëren.
    • Zorg dat je data blijft interpreteren en toetsen met je intuïtie en andersom. Bijvoorbeeld door met hypothesen of onderzoeksvragen te werken en niet te zoeken naar willekeurige verbanden. Dit scherpt je begrip over wat de data echt betekent en wat er werkelijk gebeurt in het proces of met de klant.
    • Innoveer en exploreer met nieuwe data-oplossingen in een ‘speeltuin’, om nieuwe analyses en analysemethoden te stimuleren. Implementeer deze zodra de oplossing getoetst is en de kwaliteit van de data en het algoritme op orde is.

    Source: managementsite.nl, 23 januari 2017

  • What are key trends in Big Data in 2017


    BDThe focus on big data in 2017 will be on the value of that data, according to John Schroeder, executive chairman and founder of MapR Technologies, Inc. Schroeder offers his predictions on the 6 trends in big data we can expect.

    1.Artificial Intelligence is Back in Vogue

    “In the 1960s, Ray Solomonoff laid the foundations of a mathematical theory of artificial intelligence, introducing universal Bayesian methods for inductive inference and prediction,” Schroeder explains. “In 1980 the First National Conference of the American Association for Artificial Intelligence (AAAI) was held at Stanford and marked the application of theories in software. AI is now back in mainstream discussions and the umbrella buzzword for machine intelligence, machine learning, neural networks, and cognitive computing. Why is AI a rejuvenated trend? The three V’s come to mind: Velocity, Variety and Volume. Platforms that can process the three V’s with modern and traditional processing models that scale horizontally providing 10-20X cost efficiency over traditional platforms. Google has documented how simple algorithms executed frequently against large datasets yield better results than other approaches using smaller sets. We'll see the highest value from applying AI to high volume repetitive tasks where consistency is more effective than gaining human intuitive oversight at the expense of human error and cost.”

    2.Big Data for Governance or Competitive Advantage

    “In 2017, the governance vs. data value tug-of-war will be front and center,” Schroeder predicts. “Enterprises have a wealth of information about their customers and partners. Leading organizations will manage their data between regulated and non-regulated use cases. Regulated use cases data require governance; data quality and lineage so a regulatory body can report and track data through all transformations to originating source. This is mandatory and necessary but limiting for non-regulatory use cases like customer 360 or offer serving where higher cardinality, real-time and a mix of structured and unstructured yields more effective results.”

    3.Companies Focus on Business- Driven Applications to Avoid Data Lakes From Becoming Swamps

    “In 2017 organizations will shift from the ‘build it and they will come’ data lake approach to a business-driven data approach,” says Schroeder. “Today’s world requires analytics and operational capabilities to address customers, process claims and interface to devices in real time at an individual level. For example any ecommerce site must provide individualized recommendations and price checks in real time. Healthcare organizations must process valid claims and block fraudulent claims by combining analytics with operational systems. Media companies are now personalizing content served though set top boxes. Auto manufacturers and ride sharing companies are interoperating at scale with cars and the drivers. Delivering these use cases requires an agile platform that can provide both analytical and operational processing to increase value from additional use cases that span from back office analytics to front office operations. In 2017, organizations will push aggressively beyond an “asking questions” approach and architect to drive initial and long term business value.”

    4.Data Agility Separates Winners and Losers

    “Software development has become agile where dev ops provides continuous delivery,” Schroeder says. “In 2017, processing and analytic models evolve to provide a similar level of agility as organizations realize data agility, the ability to understand data in context and take business action, is the source of competitive advantage not simply have a large data lake. The emergence of agile processing models will enable the same instance of data to support batch analytics, interactive analytics, global messaging, database and file-based models. More agile analytic models are also enabled when a single instance of data can support a broader set of tools. The end result is an agile development and application platform that supports the broadest range of processing and analytic models.”

    5.Blockchain Transforms Select Financial Service Applications

    “In 2017 there will be select, transformational use cases in financial services that emerge with broad implications for the way data is stored and transactions processed,” Schroeder explains. “Blockchain provides a global distributed ledger that changes the way data is stored and transactions are processed. The blockchain runs on computers distributed worldwide where the chains can be viewed by anyone. Transactions are stored in blocks where each block refers to the preceding block, blocks are timestamped storing the data in a form that cannot be altered. Hackers find it impossible to hack the blockchain since the world has view of the entire blockchain. Blockchain provides obvious efficiency for consumers. For example, customers won't have to wait for that SWIFT transaction or worry about the impact of a central datacenter leak. For enterprises, blockchain presents a cost savings and opportunity for competitive advantage.”

    6.Machine Learning Maximizes Microservices Impact

    “This year we will see activity increase for the integration of machine learning and microservices,” Schroeder says. “Previously, microservices deployments have been focused on lightweight services and those that do incorporate machine learning have typically been limited to ‘fast data’ integrations that were applied to narrow bands of streaming data. In 2017, we’ll see development shift to stateful applications that leverage big data, and the incorporation of machine learning approaches that use large of amounts of historical data to better understand the context of newly arriving streaming data.”

    Bron: Informatie Manegement, Januari 2017

EasyTagCloud v2.8