8 items tagged "Ongestructureerde data"

  • Data Lakes necessary for advanced market intelligence

    When The Weather Company wanted to up its game in the forecasting world, executives knew the answer was to analyze even more data. However, the company's data warehouse was too constricting; it accepted only structured data and required a

    data lakess long as six months to develop appropriate schemas.

    "Our goal was to inject data into our businesses as fast as possible to be able to see new opportunities," says Bryson Koehler, executive vice president, CTO and CIO of The Weather Company. "It's not realistic for a business to go dark on a project for any extended period of time just to clean up data. So much changes on a daily basis -- so many new sources of data -- that that journey would never be complete."

    Koehler wanted to bring in data from anywhere it originated, including personal weather stations and Internet of Things sensors, to enrich analysis. With traditional data warehouses, this would have been near impossible because of the unstructured nature of the new data, the volume, and the lengthy development time necessary to process and validate it.

    "We get data from a lot of startups, and I can't ask these companies to create a specialized format for us," Koehler says. "They would go somewhere else that would take it [as is],and that would take away a competitive advantage."

    To ward off that potential, two years ago The Weather Company became an early adopter of data lakes. This approach allows enterprises to ingest, analyze and store unstructured, semi-structured and structured data in an agnostic manner, providing a more flexible repository than traditional data warehouses.

    Author: Sandra Gittlen

    Source: Computerworld

     
  • De uitdaging van het structuur aanbrengen in ongestructureerde data

    De uitdaging van het structuur aanbrengen in ongestructureerde data

    De wereld verzamelt steeds meer data, en met een onrustbarend groeiende snelheid. Vanaf het begin van de beschaving tot ongeveer 2003 produceerde de mensheid zo’n 5 exabyte aan data. Nu produceren we deze hoeveelheid elke twee dagen. 90 procent van alle data is in de afgelopen 2 jaar gegenereerd.

    Op zich is er niets mis met data, maar het probleem is dat een groot deel hiervan ongestructureerd is. Deze ‘dark data’ omvat inmiddels al zo’n vier vijfde van de totale databerg. En daarmee beginnen de echte problemen.

    Privacy

    Ongestructureerde data is onbruikbaar. Je weet niet wat erin zit, wat de structuur is en hoeveel informatie daarvan misschien belangrijk is. Hoe kun je voldoen aan de eisen van de nieuwe privacywetgeving, als je niet eens weet welke informatie er in je data zit? Het kan gevoelige informatie zijn, zodat je de wet overtreedt zonder dat je daarvan op de hoogte bent. Totdat zich een lek voordoet en alle gegevens op straat liggen. En hoe kun je voldoen aan de wet openbaarheid bestuur en straks aan de wet open overheid, als je niet weet waar je de informatie moet vinden? De AVG verplicht je om persoonsgegevens te vernietigen als de persoon daarom vraagt. Maar als je niet weet waar je die moet vinden, sta je met de mond vol tanden.

    Databerg

    Stel je data voor als een ijsberg. Het grootste deel ligt onder water: je ziet het niet. Wat boven het water uitsteekt is de kritische informatie die je dagelijks gebruikt en die nodig is om jouw organisatie te laten werken. Direct onder het oppervlak ligt een groot deel dat ooit kritisch was. Het is gebruikt en daarna opgeslagen om vervolgens nooit meer aangeraakt te worden: redundant, overbodig en triviaal, kortom ROT.

    Het grootste deel van de berg bevindt zich daar weer onder, het is de ‘dark data’, verzameld door mensen, machines en allerlei werkprocessen. Je hebt geen idee wat er zich in dat donkere deel schuilhoudt. Het zijn gegevens die zijn verzameld door sensoren, video’s van beveiligingscamera’s, en vele, vele documenten van lang, lang geleden.

    Nieuwe inzichten

    Je kunt het natuurlijk negeren, je hebt het immers niet nodig voor je dagelijkse workflow. Maar voor hetzelfde geld bevindt zich in die dark data waardevolle informatie die gebruikt kan worden om de processen in de organisatie beter te laten verlopen. Of nieuwe toepassingen mogelijk te maken. Door data uit de berg te leggen op andere data bijvoorbeeld, kun je plotseling nieuwe inzichten verkrijgen waarmee beleid kan worden gemaakt: informatiegestuurd beleid.

    Digitale dompteur

    Als alle plannen en elke beleidsmaatregel kunnen worden onderbouwd met keiharde gegevens uit de databerg, dan hebben we de heilige graal gevonden. De kwaliteit van de dienstverlening van de overheid gaat met sprongen omhoog, en er komen nieuwe impulsen voor veiligheid, handhaving, onderhoud en schuldhulpverlening, om maar eens een paar beleidsterreinen te noemen.

    Dat zal waarschijnlijk een onbereikbaar ideaal blijven, maar we kunnen wel flinke stappen in de goede richting maken. Digitaal werken betekent voortdurend aanpassen, herordenen, migreren. Om digitale informatie te temmen is een digitale dompteur nodig: een beheeromgeving die structuur aanbrengt en die inspeelt op de voortdurende veranderingen die digitalisering met zich meebrengt.

    Bron: Managementbase

  • Decision making by smart technology

    bid-2015Zo heet het congres dat Heliview dinsdag 27 januari 2015 in ‘s Hertogenbosch organiseert over Business Intelligence & Datawarehousing. Business Intelligence blijft volgens vele bronnen op de prioriteitenlijst staan van Nederlandse organisaties. De hoeveelheid gestructureerde en ongestructureerde data neemt in recordtempo toe. Deze data is van onschatbare waarde voor organisaties. Business intelligence stelt organisaties in staat data op een slimme manier te verwerken tot de juiste informatie en daarmee tijd en geld te besparen en concurrentie voor te blijven. Slimme organisaties zijn steeds vaker ook succesvolle organisaties.  

    In het Heliview congres (dat onder dagvoorzitterschap staat van BI-kring initiatiefnemer Egbert Philips) staat de klassieke BI-driehoek centraal. Sprekers als Rick van der Lans, Arent van ‘t Spijker en vele anderen bespreken hoe organisaties betere beslissingen nemen door het slim en op maat inzetten van actuele technologische mogelijkheden op het gebied van data- en informatieverwerking. Voor wat betreft de techniek staan 27 januari centraal: social BI, mobile BI, business analytics en datawarehousing in de cloud.

    Lees hier neer over het congres

     

  • Gaat Business Intelligence nu eindelijk belang externe data ontdekken?

    De terminologie “business intelligence” blijkt in de praktijk veelal te maken te hebben met technologie en interne data. Maar gaat business intelligence daar nu alleen over? In mijn gesprekken met BI-professionals valt het me vaak op dat er verwarring heerst over de terminologie. Dus waar hebben we het eigenlijk over? Is het data science, DWH, ERP, ETL, market intelligence, customer intelligence, dashboarding? Wat maakt nu eigenlijk allemaal onderdeel uit van business intelligence?

    Definitie Business Inteligence

    Volgens Wikipedia staat business intelligence voor: “het verzamelen vangegevensbinnen de eigen handelsactiviteit en het proces van gegevens omzetten in informatie, dat vervolgens zou moeten leiden tot kennis en aanzetten tot adequate actie. Business intelligence heeft als doel competitief voordeel te creëren en organisaties slimmer te kunnen laten werken”.

    Soorten informatie

    Over welke gegevens hebben we het als we praten over het creëren van competitief voordeel? Business intelligence zou gericht moeten zijn op hetverzamelen, analyseren en distribueren van informatie (over klanten, concurrentie, marktontwikkelingen en economische, technologische en culturele trends), die van belang is voor beslissingsprocessen teneinde goed onderbouwde operationele en strategische plannen te verkrijgen. Hierbij staat vooral het business perspectief centraal. Daarnaast bestaat er ook nog het technologische perspectief waarbij ICT wordt ingezet om data te verzamelen, te integreren, te analyseren en te distribueren.

    Technologie & Gestructureerde data

    Hoe komt het toch dat het meeste geld wordt geïnvesteerd in technologie en het verzamelen en analyseren van interne en vooral financiële data? Natuurlijk is het logisch dat het management stuurt op financiële resultaten en dat de wetgever inzicht vereist in bepaalde aspecten van het reilen en zeilen van het bedrijf. Maar waarom wordt er toch zo weinig geïnvesteerd in gestructureerd verzamelen en analyseren van ongestructureerde en vooral externe data, die van cruciale invloed zijn op de performance van het bedrijf? Wellicht ligt het antwoord verscholen in het feit dat dit proces vaak niet direct te linken is aan de bedrijfsperformance van het bedrijf. Er zijn meestal geen aparte functies gecreëerd voor dit soort werkzaamheden. Men moet het naast de bestaande werkzaamheden doen en krijgen daardoor te weinig aandacht. Hiermee wordt het belang van dit soort cruciale informatie niet onderkent.

    De ontwikkelingen in de externe omgeving hebben meer impact dan ooit en daarmee neemt ook de druk op bestaande bedrijven en business modellen toe. Een voorbeeld is de opkomst van de zelfrijdende auto. Dit zal vele directe en indirecte effecten hebben. Een direct effect zal zijn dat er banenverlies optreedt bij taxibedrijven, vrachtwagenchauffeurs en rijscholen. Het zal waarschijnlijk ook het delen van auto’s verder stimuleren waardoor er een daling van eigendom van auto’s plaats vindt. Het indirecte effect is dat mensen meer besteedbaar inkomen en tijd beschikbaar hebben. Daarnaast zullen er minder auto-ongelukken optreden, waardoor er weer minder ziekenhuispatiënten zullen zijn en ook weer minder orgaandonoren. Deze ontwikkelingen hebben enorme impact op de overlevingskansen van bedrijven en daarmee neemt het belang van externe intelligence toe.

     

     

      self driving car2

     

    Investeren in externe (ongestructureerde) data

    Bedrijven zouden juist nu meer dan ooit moeten investeren in het relatief onontgonnen deel van business intelligence – het structureren van externe data (lees: market intelligence) - vanwege de steeds sneller veranderende economie mede door het gebruik van informatietechnologie. Door de (financiële) crisis hebben bepaalde herstructureringen versneld plaats gevonden waardoor ook de capaciteit om pro-actief externe veranderingen te monitoren en inzichten te creëren om nieuwe business modellen te ontwikkelen is weggesneden. Hierdoor kennen bedrijven nog minder goed hun markt, de meer algemene bedrijfsomgeving en daarmee de drivers for growth or decline. Een bevestiging van bovenstaande ontwikkelingen is terug te vinden in een significante daling van de gemiddelde levensduur van bedrijven. Het is enerzijds te hopen dat bedrijven met het oog op hun eigen performance meer belang gaan toekennen aan het structureren en analyseren van externe data om te voorkomen dat de niet geziene impact van de externe omgeving hen fataal wordt. Anderzijds is het te hopen, dat er een meer toegankelijke informatietechnologie komt, die een bedrage gaat leveren in het vereenvoudigen van dit proces.

     

    Bron: Ruud Koopmans, RK-Intelligence

     

     

     

  • Hadoop: waarvoor dan?

    Hadoop

    Flexibel en schaalbaar managen van big data

    Data-infrastructuur is het belangrijkste orgaan voor het creëren en leveren van goede bedrijfsinzichten . Om te profiteren van de diversiteit aan data die voor handen zijn en om de data-architectuur te moderniseren, zetten veel organisaties Hadoop in. Een Hadoop-gebaseerde omgeving is flexibel en schaalbaar in het managen van big data. Wat is de impact van Hadoop? De Aberdeen Group onderzocht de impact van Hadoop op data, mensen en de performance van bedrijven.

    Nieuwe data uit verschillende bronnen

    Er moet veel data opgevangen, verplaatst, opgeslagen en gearchiveerd worden. Maar bedrijven krijgen nu inzichten vanuit verborgen data buiten de traditionele gestructureerde transactiegegevens. Denk hierbij aan: e-mails, social data, multimedia, GPS-informatie en sensor-informatie. Naast nieuwe databronnen hebben we ook een grote hoeveelheid nieuwe technologieën gekregen om al deze data te beheren en te benutten. Al deze informatie en technologieën zorgen voor een verschuiving binnen big data; van probleem naar kans.

    Wat zijn de voordelen van deze gele olifant (Hadoop)?

    Een grote voorloper van deze big data-kans is de data architectuur Hadoop. Uit dit onderzoek komt naar voren dat bedrijven die Hadoop gebruiken meer gedreven zijn om gebruik te maken van ongestructureerde en semigestructureerd data. Een andere belangrijke trend is dat de mindset van bedrijven verschuift, ze zien data als een strategische aanwinst en als een belangrijk onderdeel van de organisatie.

    De behoefte aan gebruikersbevoegdheid en gebruikerstevredenheid is een reden waarom bedrijven kiezen voor Hadoop. Daarnaast heeft een Hadoop-gebaseerde architectuur twee voordelen met betrekking tot eindgebruikers:

    1. Data-flexibiliteit – Alle data onder één dak, wat zorgt voor een hogere kwaliteit en usability.
    2. Data-elasticiteit – De architectuur is significant flexibeler in het toevoegen van nieuwe databronnen.

    Wat is de impact van Hadoop op uw organisatie?

    Wat kunt u nog meer met Hadoop en hoe kunt u deze data-architectuur het beste inzetten binnen uw databronnen? Lees in dit rapport hoe u nog meer tijd kunt besparen in het analyseren van data en uiteindelijk meer winst kunt behalen door het inzetten van Hadoop.

    Bron: Analyticstoday

  • Modern Information Management: Understanding Big Data at Rest and in Motion

    Big data is the buzzword of the century, it seems. But, why is everyone so obsessed with it? Here’s what it’s all about, how companies are gathering it, and how it’s stored and used.

    7979558647 6c822e698d o YO

    What is it?

    Big data is simply large data sets that need to be analyzed computationally in order to reveal patterns, associations, or trends. This data is usually collected by governments and businesses on citizens and customers, respectively.

    The IT industry has had to shift its focus to big data over the last few years because of the sheer amount of interest being generated by big business. By collecting massive amounts of data, companies, like Amazon.com, Google, Walmart, Target, and others, are able to track buying behaviors of specific customers.

    Once enough data is collected, these companies then use the data to help shape advertising initiatives. For example, Target has used its big data collection initiative to help target (no pun intended) its customers with products it thought would be most beneficial given their past purchases.

    How Companies Store and Use It

    There are two ways that companies can use big data. The first way is to use the data at rest. The second way is to use it in motion.

    At Rest Data – Data at rest refers to information that’s collected and analyzed after the fact. It tells businesses what’s already happened. The analysis is done separately and distinctly from any actions that are taken upon conclusion of said analysis.

    For example, if a retailer wanted to analyze the previous month’s sales data. It would use data at rest to look over the previous month’s sales totals. Then, it would take those sales totals and make strategic decisions about how to move forward given what’s already happened.

    In essence, the company is using past data to guide future business activities. The data might drive the retailer to create new marketing initiatives, customize coupons, increase or decrease inventory, or to otherwise adjust merchandise pricing.

    Some companies might use this data to determine just how much of a discount is needed on promotions to spur sales growth.

    Some companies may use it to figure out how much they are able to discount in the spring and summer without creating a revenue problem later on in the year. Or, a company may use it to predict large sales events, like Black Friday or Cyber Monday.

    This type of data is batch processed since there’s no need to have the data instantly accessible or “streaming live.” There is a need, however, for storage of large amounts of data and for processing unstructured data. Companies often use a public cloud infrastructure due to the costs involved in storage and retrieval.

    Data In Motion – Data in motion refers to data that’s analyzed in real-time. Like data at rest, data may be captured at the point of sale, or at a contact point with a customer along the sales cycle. The difference between data in motion and data at rest is how the data is analyzed.

    Instead of batch processing and analyzation after the fact, data in motion uses a bare metal cloud environment because this type of infrastructure uses dedicated servers offering cloud-like features without virtualization.

    This allows for real-time processing of large amounts of data. Latency is also a concern for large companies because they need to be able to manage and use the data quickly. This is why many companies send their IT professionals to Simplilearn Hadoop admin training and then subsequently load them up on cloud-based training and other database training like NoSQL.

    9427663067 713fa3e786 o

    Big Data For The Future

    Some awesome, and potentially frightening, uses for big data are on the horizon. For example, in February 2014, the Chicago Police Department sent uniformed officers to make notification visits to targeted individuals they had identified as potential criminals. They used a computer-generated list which gathered data about those individuals’ backgrounds.

    Another possible use for big data is development of hiring algorithms. More and more companies are trying to figure out ways to hire candidates without trusting slick resume writing skills. New algorithms may eliminate job prospects based on statistics, rather than skillsets, however. For example, some algorithms find that people with shorter commutes are more likely to stay in a job longer.

    So, people who have long commutes are filtered out of the hiring process quickly.

    Finally, some insurance companies might use big data to analyze your driving habits and adjust your insurance premium accordingly. That might sound nice if you’re a good driver, but insurers know that driving late at night increases the risk for getting into an accident. Problem is, poorer people tend to work late shifts and overnights or second jobs just to make ends meet. The people who are least able to afford insurance hikes may be the ones that have to pay them.

    Source: Mobilemag

  • Toveren met Talent Analytics?

    talentmanagementOrganisaties kunnen op tal van terreinen nog winnen aan intelligentie. Afhankelijk van de definitie van intelligentie (een intelligente organisatie is echt iets anders dan dingen gewoon  slim doen) kunnen we bijvoorbeeld ook veel intelligenter HRM bedrijven.

    Zoals bij veel functionele disciplines al het geval is, komt nu ook bij HR het gebruik van informatietechnologie in de belangstelling te staan.

    Rocket science? Gaat dit de discipline overbodig maken? Welnee. Zoals altijd gaat het om het nemen van goede of betere beslissingen. In dit geval ten aanzien van de ontwikkeling van het menselijk kapitaal in de onderneming. En de beste beslissingen worden nog altijd genomen met kennis van zaken. En kennis van zaken is op data en inzichten gebaseerd. En data is steeds meer beschikbaar. Nu ook ten aanzien van mensen en hun talent. Het gaat erom die data te gebruiken. Daarvoor moeten we de data alleen toegankelijk en toepasbaar maken. En dit is geen rocket science!

    Toch raakt ook de HR manager (net als zijn collega uit andere disciplines overigens) van slag als de ‘ICT tovenaars’ met beloften van Big Data technologie aankomen. How come? Omdat we nog steeds denken dat de wetten van de functionele discipline overbodig worden als automatisering voorbij komt? Omdat we bang zijn te zeggen dat we die technologie niet snappen of er de relevantie niet van zien? Omdat we tegen de ICT-er niet durven te zeggen dat het leuk klinkt maar dat onduidelijk blijft wat de toegevoegde waarde is voor onze discipline (waar de ICT-er doorgaans niets van snapt)? Zijn dit mogelijke oorzaken? Of speelt er iets anders?

    Het is hier in ieder geval oppassen geblazen. Big data en data mining leveren geen beslissingen maar nieuwe data en correlaties; mogelijke inzichten die tot kennis kunnen verworden als we statistisch en methodisch goed genoeg zijn onderlegd. Als bijvoorbeeld blijkt dat alle goede sales managers in Oktober zijn geboren betekent dit niet dat ‘geboren in Oktober’ een kwalificerende functie-eis moet zijn.. Om maar een potentiële valkuil te noemen. Wel kunnen in alle fasen van talent management (integrale proces van talent werving, selectie, training, ontwikkeling en promotie) met behulp van meer data en datatechnologie betere beslissingen worden genomen. Een data-infrastructuur die data genereert, analyseert en op maat  aanbiedt voor besluitvorming, kan dan veel toegevoegde waarde opleveren. Mits met kennis van zaken ingericht.

  • Wrangling and governing unstructured data

    Unstructured data is the common currency in this era of the Internet of Things (IoT), cognitive computing, mobility and social networks. It’s a core rebusinessIntelligence unstructuredsource for businesses, consumers and society in general. But it’s also a challenge to manage and govern.

    Unstructured data’s prevalence

    How prevalent is unstructured data? Sizing it up can give us a good sense for the magnitude of the governance challenge. If we look at the world around us, we see how billions of things become instrumented and interconnected, generating tons of data. In the Internet of Things, the value of things is measured not only by the data they generate, but also by the way those things securely respond to and interact with people, organizations and other things.

    If we look into public social networks such as Facebook, LinkedIn or Twitter, one of the tasks will be to know what the social network data contains to extract valuable information that can then be matched and linked to the master data. And mobile devices, enabled with the Global Positioning System (GPS), generate volumes of location data that is normally contained in very structured data sets. Matching and linking it to master data profiles will be necessary.

    The volume of unstructured information is growing as never before, mostly because of the increase

    of unstructured information that is stored and managed by enterprises, but is not really well understood. Frequently, unstructured data is intimately linked to structured data—in our databases, in our business processes and in the applications that derive value from it all. In terms of where we store and manage it, the difference between structured and unstructured data is usually that the former resides in databases and data warehouses and the latter in everything else.

    In format, structured data is generated by applications, and unstructured data is free form. In addition, like structured data, unstructured data usually has metadata associated with it. But not always, and therein lies a key problem confronting enterprise information managers in their attempts to govern it all comprehensively.

    Governance of the structured-unstructured data link

    When considering the governance of unstructured data, a focus on the business processes that generate both the data itself and any accompanying metadata is important. Unstructured data, such as audio, documents, email, images and video, is usually created in a workflow or collaboration application, generated by a sensor or other device, or produced upon ingestion into some other system or application. At creation, unstructured data is often but not always associated with structured data, which has its own metadata, glossaries and schemata.

    In some industries, such as oil and gas or healthcare, we handle the unstructured data that streams from the sensors where it originated. In any case, unstructured data is usually created or managed in a business process that is linked to some structured entity, such as a person or asset. Consider several examples: 

    • An insurance claim with structured data in a claims processing application and associated documents such as police records, medical reports and car images
    • A mortgage case file with structured data in a mortgage processing application and associated  pplicant employment status and house assessment documents
    • An invoice with structured data in an asset management application and associated invoice documents
    • An asset with records managed across different applications and associated engineering drawings 

    Governance challenges enter the picture as we attempt to link all this structured and unstructured information together. That linkage, in turn, requires that we understand dependencies and references and find the right data, which is often stored elsewhere in the enterprise and governed by different administrators, under different policies and in response to different mandates.

    What considerations complicate our efforts to combine, integrate and govern structured and unstructured data in a unified fashion? We must know how we control this information, how it is exchanged across different enterprises and what are the regulations and standards to secure delivery of its value and maintain privacy.

    We also need to understand what we are going to do with the data that we collect because just collecting data for future use, just in case, is not the solution for any problems. We can easily shift from competitive advantage to unmanageable complexity.

    Governance perspectives

    Across different industries in a complicated ecosystem of connected enterprises, we handle different types of information that is exchanged, duplicated, made anonymous and duplicated again. In analytics we handle predictive models to provide recommendations resulting in critical decision making. We need to think about models’ lifecycle and track the data sets used to develop such models as well as ownership changes.

    How can governance be applied here? When we speak about information, integration and governance, we usually get different answers. Some, such as a legal record manager, focus on unstructured data curation, document classification and retention to comply with internal policies and external legislation. On the other hand, data warehouse IT groups focus on structured and transactional data and its quality to maintain the best version of the truth.

    But the business usually doesn’t care about what type of information it is. What they want to see is the whole picture that will include all related information from structured, unstructured and other sources with proper governance around it. The importance for integrated metadata management became crucial.

    Data lifecycle governance environments

    To unify governance of structured and unstructured data, enterprises need to remove borders between information silos. In addition, organizations need to be connecting people and processes inside and outside the organization. And they need to make every effort to create trusted and collaborative environments for effective information configuration and management.

    What should span all information assets, both structured and unstructured, is a consistent set of organizational policies, roles, controls and workflows focused on lifecycle data governance.

    Author: Elizabeth Koumpan

    Source: Big Data & Analytics Hub

EasyTagCloud v2.8