Data Integration Definition Problem Lösning Exempel
Transcription
Data Integration Definition Problem Lösning Exempel
Data Integration Definition Problem Data Integration är att använda och kombinera data från fler källor för analys och vetenskaplig tolkning av sammanslagen data. Det är idag vanligt att verksamhetsdata är fördelade i flera åtskilda system och databaser. Detta försvårar möjligheten att få en enkel och intuitiv integrerad helhetsbild av sitt affärsområde vilket är ett måste för beslutsfattare. Tyvärr är arbetet med att förstå vilken vilka källor som skall integreras samt att extrahera betydelsefull information ofta bortom traditionell IT kompetens. Användandet av nya former av extern data är ofta begränsad på företag. Det finns idag möjligheter att inhämta värdefull och affärskritisk information från nyheter, processövervakning, givare, sociala medier, foton, videor, lokal demografi eller väderprognoser. Allt detta bidrar till att existerande tillhandahållen data inte används till sin fulla potential och att tillgänglig extern data inte används över huvud taget. Lösning En del av dataintegration handlar om att rent fysiskt och tekniskt ”koppla in” eller ”koppla ihop” datakällor. Det är ett mer eller mindre tekniskt problem. Men för att göra information från data tillgänglig från de olika källorna kräver en övergripande förståelse för hur datakällorna ska användas. Detta kräver ofta att man utöver den tekniska kompetensen även har en mer analytisk kompetens. För att på bästa sätt använda befintliga datakällor måste man extrahera informationen ifrån dem på ett effektivt sätt. Detta bör göras så att information blir lätt blir möjlig att analysera och visualisera. Detta kräver ofta transformering, aggregering eller filtrering (”tvättning”) av rådata. Men det krävs också en förståelse för vilka beslut som fattas i verksamheten. Integration av källor som tidigare inte analyserats tillsammans möjliggör nya typer av analyser och möjliggör upptäckte av nya okända affärskritiska samband. Integration av nya externa data källor till befintliga system är därför alltid intressant. Typexempel 1: Integrering av data från flera olika IT-system Exempel Integrera data inom Safety + Efficacy + In vitro + djurmodell + klinik på ett läkemedelsföretag för att på så sätt få en helhetsbild över hur ett läkemedel fungerar. Typexempel 2: Lägg till en ny datakälla till befintliga IT-system Lägg till en extern datakälla med väderdata i realtid och integrera med befintliga system. Gör väderdata tillgänglig för att analysera tillsammans med data kring försäljning och logistik. Lämpliga aggregeringar och kopplingar av data behöver göras för att kunna förbättra planering av transporter, lagerhållning och försäljning med hjälp av väderinformation. Text Mining Definition Problem Text mining är att upptäcka meningsfulla mönster och samband från ostrukturerad information och data i form av texter. Text innehåller värdefull och ofta affärskritisk information. Inom organisationer finns ofta värdefull information dokument och rapporter. Idag finns även tillgång till stora volymer av extern information i form av nyheter, artiklar, hemsidor, reklam, väder, rapporter och sociala medier. Text är en ostrukturerad form av information och kräver ofta en förbehandling för att kunna tolkas kvantitativt. Det innebär att text ofta kräver transformering, aggregering eller filtrering (”tvättning”) innan den kan användas. Men tyvärr är processen att extrahera betydelsefull information från text ofta bortom traditionell IT kompetens. Det medför att stora volymer av potentiellt viktig information inte används. Lösning Syftet med text mining är omvandla ostrukturerade texter så att de blir möjliga att analysera med kvantitativa analysmetoder. Detta innebär att text mining inte bara kan användas för att identifiera intressant information, utan även tolka, extrahera och kvantifiera den. Inom text mining använder man sig ofta av metoder inom Natural Language Processing (NLP) vilket är ett område som omfattar utveckling av datorprogram för att analysera och generera mänskligt språk. Många av dessa metoder bygger oftast på maskininlärning, där man låter en algoritm lära sig att identifiera mönster i data (se även data mining). Utnyttjande av text mining innebär ofta att man får möjlighet att lyfta in en tidigare outnyttjad datakälla för analys. Med andra ord så kan text mining vara tillämpbart för att integrera en ny datakälla i ett beslutstödssystem med annan existerade data (se även data integration). Det kan då ge upphov till att många nya tidigare samband identifieras. Typexempel1: Analysera affärsnyheter och utveckla beslutsstöd kring fondköp Exempel Analysera korrelation kring affärsnyheter och börshandel för att utveckla en realtidsuppdaterande beslutstödssystem som ger köp-/säljrekommendationer kring fonder och värdepapper baserade på nyhetsuppdateringar. Typexempel2: Analysera social media kring kundbeteenden Analysera realtidsuppdaterande sociala medier kring trender relevanta för försäljning och marknadsföring av konsumentprodukter. Snabbare och bättre återkoppling ger effektivare försäljning, marknadsföring, logistik och tillverkning. Typexempel 3: Analysera försäkringsanmälningar och garantiärenden Analysera fritext fält inom försäkringsanmälningar, garantiärenden och bidragsärenden för att identifiera bedrägerier, tillverkningsfel och tidigare missade behov. Data Mining Definition Problem Data Mining är analys av stora datamängder för att identifiera nya mönster som är förståeliga och användbara. Den snabba teknikutvecklingen har lett till att vårt samhälle har blivit mer och mer digitaliserat. De stora datamängderna och de många parametrar som nu finns elektroniskt tillgängliga från maskiner, givare och processer ökar exponentiellt. Idag finns affärskritisk information även i extern data såsom nyheter, processövervakning, givare, sociala medier, foton, videor, lokal demografi eller väderprognoser. Tillgången till all data är svåröverblickbar och kunskapen om dessa är ofta begränsad inom en organisation. Kompetensen för att integrera, analysera och använda stora dataset explorativt för att identifiera nya sambandräcker ofta inte till i dagens organisationer. Allt detta bidrar till att intern data inte används till sin fulla potential, extern data ofta inte används över huvud taget och nya trender och samband tar onödigt lång tid att identifiera. Lösning Data mining är en process för att upptäcka nya mönster i stora datamängder. Målet med processen är att extrahera information från en datamängd och omvandla den till en förståelig och användbar struktur. Ofta används maskininlärning, antingen övervakad eller oövervakad, för att analysera data. Övervakade system tränas upp med data som har olika klasstillhörighet för att känna igen mönster som särskiljer dessa klasser. Det systemet kan i sin tur användas för att klassificera data med okänd klassindelning. Oövervakade system identifierar istället undergrupper av data som är mer lik varandra (klusteranalys) oberoende av klassificering. I data mining ingår även förbehandling av data i form av filtrering, klassificering och aggregering, samt utvärdering och tolkning av resultatet. Typexempel 1: Segmentera kunder i intressanta grupper Exempel Segmentera kunder utifrån intressanta parametrar kring konsumtionsmönster. Analysera vilka produkter och tjänster som köps eller används vid olika samma tillfällen och vid vilka tider. Är trenderna speciellt viktiga för vissa kundgrupper? Identifierade trender kan vara intressant för att optimera lager, logistik, försäljning, marknadsföring och utveckling av nya produkter. Typexempel2: Analysera transaktionsmönster Identifiera transaktionsmönster som är typiska för kortbedrägerier för att på ett tidigt stadium påvisa bedrägeriförsök. Använd maskininlärningstekniker för att träna upp ett beslutstödssystem för att automatiskt känna igen bedrägeriförsök. Ett sådant system kan användas för att identifiera misstänkta transaktioner som sedan får granskas manuellt. Modeling & Simulation Definition Problem Lösning Modeling and Simulation(M&S) är användandet av modeller, statiskt eller över tid, för att utveckla data som grund för att ta beslut. Modellering och simulering används ofta som synonyma begrepp. Genom att studera verkligheten lär vi oss teoretiska samband. Men verkligheten är inte alltid så lätt att undersöka. Realistiska experiment kan vara dyrt, långsamt, farligt, ta lång tid eller helt enkelt vara väldigt komplicerat att genomföra. I många av dessa fall kan tid och pengar sparas genom användning av M&S. Tyvärr utnyttjas denna möjlighet idag inte till fullo. Modellering och simulering används för att efterlikna en på förhand utvald aspekt av verkligheten och för att ta fram data för att förutspå konsekvenser av olika scenarier. Att använda simuleringar är generellt billigare och säkrare än att genomföra experiment. Simuleringar kan ofta även vara mer realistiska än traditionella experiment eftersom de tillåter fri konfigurering av olika parametrar. Dessutom kan simuleringar ofta genomföras snabbare än verklig tid. Modellering och simulering har många tillämpningar. Det kan användas för att stödja planering eller utforska den mest effektiva lösningen av ett problem. Det kan även användas för att stödja ett beslutsstödssystem genom att lägga till ett dynamiskt element och tillåta att beräkna uppskattningar och prediktioner. Ytterligare användningsområden innefattar utveckling och testande av system, till exempel genom att tillhandahålla en virtuell miljö i vilken tester kan genomföras. Det kan också användas för träning och utbildning genom att till exempel tillhandahålla simulatorer, virtuella utbildningsmiljöer och ”serious games”. M&S kan användas för att undersöka och få insikter i ny teknologi, och för att uppskatta prestanda av system som är för komplexa för analytiska lösningar. Exempel Typexempel 1:Simulering av aerodynamik och bulleregenskaper på en farkost. Här görs en numerisk simulering av kontinuerliga system av differentialekvationer som inte kan lösas analytiskt. I detta fall är syftet att öka förståelse, förbättra modeller, reducera kostnader och korta utvecklingstider. Typexempel 2: Simulering av genetisk drift i svenska vargstammen I detta fall görs en stokastisk simulering, typiskt använd för diskreta system där händelser inträffar probabilistiskt, och som inte kan beskrivas direkt med differentialekvationer.Här skulle en regelrätt studie ta lång tid, miljövariabler skulle vara svåra att kontrollera och en regelrätt studie skulle vara svår att genomföra även av många andra skäl. Data Visualization Definition Problem Data Visualization innebär att tydligt och effektivt kommunicera data och information visuellt. Explorative Data Visualization innebär att använda avancerade tekniker och verktyg för att identifiera mönster som annars skulle vara dolda i standard visualisering. Inom en organisation sker kommunikation av information och kunskap mellan personer och system dagligen. Volymerna av information som ska hanteras på samma tid växer. Eftersom informationen ligger till grund för viktiga beslut i verksamheten är det viktigt att kunna kommunicera effektivt. Till stor del handlar det om att slutsatser som ligger till grund för beslut behöver kommuniceras effektivt. Felaktiga kommunikationsformer, visualiseringar eller data väljs vilket gör att budskapet går förlorat. Tryckta rapporter fyller en viktig funktion, men har även brister. De är oftast inte individuellt anpassade för olika typer av beslutsfattare, de är inte interaktiva för att svara på aktuella frågor och de uppdateras inte i realtid. Lösning Exempel För att effektivt kommunicera slutsatser behöver man använda sig av datavisualisering. Det innebär att göra lämpliga val för att extrahera, tolka och summera information så tydligt och klart som möjligt. En viktig pusselbit handlar om att välja rätt visualisering av tabeller, grafer och layouter i rapporter för att utgöra stöd till viktiga beslut. En annan handlar om att välja lämpligt media för att kommunicera information och kunskap. Ibland är till exempel visuella presentationer mer lämpliga än tryckta rapporter. Vanligt förekommande kommunikationssätt är presentationer i tryckta rapporter eller i form av visuella presentationer (via t ex powerpoint) där data och kommentarer samlas med figurer, tabeller och kommentarer. Numera finns även kraftfulla applikationer för att leverera mer interaktiva rapporter eller så kallade dashboards som levererar intuitiva och tydliga presentationer av data i realtid. En dashboard kan till exempel summera ett företags hälsa med ett antal mätetal eller Key Performance Indicators (KPIs) för försäljning, produktivitet, inkomst, kundgrupp eller sociala media. Fördelen med interaktiva program är att de ofta kan generera standardiserade rapporter för utskrift eller presentation, men även erbjuda möjligheten till individualiserade dynamiska presentationer som interagerar med användaren i realtid. Interaktiva applikationer för data visualisering utgör även ett viktigt verktyg för att identifiera nya samband och mönster som annars skulle vara dolda, så kallad explorativ data visualisering. Typexempel 1: Designa en interaktiv rapport med individualiserade dashboards Designa och visulisera information för X. Möjlighet till tryckta rapporter. Interaktiv analys. Individualiserbar. Automatiskt uppdaterande. Typexempel 2: Visualisera slutsatser från data mining uppdrag Med hjälp av data mining kan man identifiera nya intressanta mönster i ens data (se data mining). För att få en bättre förståelse för vad dessa mönster innebär så behöver man ofta ta fram visualiseringar av dessa mönster så att man får en bättre inblick i vad de innebär. Decision Support Definition Problem Beslutsstöd är något som stödjer beslutstagning. Beslutsstödssystem är informationssystem som stödjer verksamheten eller organisatoriska beslutstagningsaktiviteter. Intuition har traditionellt varit ett viktigt inslag vid företagsbeslut. Intuition förser oss med en tro som vi inte kan rättfärdiga i varje fall. Forskning visar att beslut som är datadrivna är effektivare än de som är baserade på intuition. Idag ställs ofta högre krav på att beslut ska vara underbyggda med fakta och vara data-drivna. Men många viktiga företagsbeslut har fortfarande bristfälligt informationsunderlag. För att fatta ett data-drivet beslut krävs att rätt information når rätt person vid rätt tillfälle. Det handlar om kommunikation av information, teknisk infrastruktur och även företagskultur. Om en betydelsefull dataanalys inte når rätt person, landar för sent eller omotiverat ignoreras sker det till en kostnad. Lösning Exempel *Beslutsstödssystem. Många traditionella IT-system är byggda för att ta emot data i omgångar och inte för kontinuerlig ström av information som ibland krävs för realtidsbeslut. *Kunskap om att information finns och att den är betydelsefull är ibland bristfällig. Beslut sker dagligen och på olika nivåer i ett företag. Återkommande typer av beslut kräver ofta likartade underlag. Men det finns också stora och små beslut som sker på ad hoc basis. I alla fall underlättar det att ha en bra metod för att få tillgång till rätt data. Ett beslutstödssystem kan ge tillgång till verklig data och/eller simulerad data. Vi kan hjälpa till att skaffa fram, utforma och utveckla de beslutsstöden som behövs på ert företag. Utvecklandet av beslutsstödsystem ökar personlig effektivitet, snabbar upp beslutsfattande, förbättrar kommunkation och möjliggör nya för personal att lägga energi på andra saker. Exempel på behov av beslutsunderlag: Är en specifik kund kreditvärdig? Klinisk beslutsstöd kring medicinska diagnoser, är nyheten trovärdig? Information Management & Knowledge Management Definition Information Management omfattar insamling och organisering av information från en eller flera källor samt spridning av den informationen till en eller flera åhörare. Knowledge Management är att identifiera, skapa, representera och sprida insikter och erfarenheter i en organisation. Problem Inom en organisation pågår många processer och projekt samtidigt. Deras inbördes relativa position ändras kontinuerligt liksom mot en omvärld i konstant förändring. För att enklare och bättre identifiera risker eller möjligheter och signaler som kan behöva snabba beslut krävs kontinuerlig övervakning. Tyvärr är ofta metoderna för att kontinuerligt övervaka och synka data, information och kunskap på taktisk, strategisk och operativ nivå bristfällig. Det krävs mycket information och kunskap om projekt, avdelningar, processer och affärsområden för att driva en organisation. Tyvärr är ofta insikterna och erfarenheterna ”inbäddade” hos individer eller i organisationer i form av processer eller verksamheter. Det innebär att all information och kunskap inte är allmänt tillgängligför alla vid varje tidpunkt. Lösning Mycket information går att extrahera automatiskt från tillgängliga datakällor, medan annan information kräver rutinmässig insamling med manuell ”handpåläggning”. Om informationen struktureras och lagras i standardiserade format förenklar det användningen av den. Från strukturerad information finns även möjlighet att automatiskt extrahera beslutsgrundande kunskap. Om data, information och kunskap hanteras i liknande system kan det analyseras och spridas på liknande sätt. Kunskap kan då, precis som övrig information och data, också uppdateras regelbundet och gå att följa över tid. Standardisering av information och kunskap kan ske på olika sätt beroende på användningsområde och tradition. Inom projektledning är det vanligt med standardiserade mallar, definierade milestones och krav. Inom vissa områden lämpar sig score cards bra med standardiserade frågeställningar eller hypoteser. Beroende på hur beslutsprocesserna ser ut kan kunskapen organiseras på olika sätt för att enkla beslut. Vår erfarenhet är att små förbättringar inom informations- och kunskapshantering leder till stora effektiviseringsvinster. Av dessa kan nämnas bättre kontroll och övervakning, mer insikt kring den egne medarbetarens roll för hela organisationen, bättre beslut på alla nivåer, bättre samarbeten, bättre rutiner, etc.. Exempel Typexempel1: Utveckla system för standardiserad insamling av kunskap Sammanfatta tillgänglig (intern + extern) kunskap om ett sjukdomsområde eller ett läkemedelsprojekt med scorecard och visualisera i en heatmap. Typexempel2: Utveckla skräddarsytt stöd för projektarbete och projektledning Utveckla projektledningsstöd genom uppsättande av en sharepoint där olika typer av information och kunskap samlas på ett ställe. Tillsammans med protokoll, actions, kalendrar, tidsplaneringar,etc.. Statistical Analysis Statististcal Analysis är insamling, organisering, tolkning och presentation av data. Definition Problem För att fatta bra beslut krävs dataunderlag av hög kvalitet och stor trovärdighet. Det kan till exempel innebära att om trender, korrelationer och hypoteser är säkerställda och reproducerbara ger det större möjlighet att fatta bra beslut kring data. Tyvärr är ofta dataunderlaget inför viktiga beslut bristfälligt säkerställda. För att säkerställa viss information krävs dyra och tidskrävande studier. Tyvärr är frågeställningar ofta inte helt genomtänkta på förhand. Vilka kan resultera i att beviskraften i studien saknas för att övertyga investerare eller myndigheter. Med en smart försöksuppställning och design beviskraften ökas medan kostnader kan reduceras och tid sparas. Tyvärr saknas ofta insikten att kvalitet på data är kostnadseffektivt. Lösning Inom statistik använder man ofta termerna stickprov och population. Ett stickprov är en delmängd av en bestämd population (eller datamängd) som vill studeras. Med så kallad deskriptiv statistik kan populationsdatakommuniceras genom att beskriva vad som observerades i stickprovetmed begrepp som medelvärde, standardavvikelse, frekvens eller procent. Med statistisk inferens kan sannolikhetsbaserade beslut tas kring populationen. Sådana slutsatser kan uppnås med bland annat hypotestestning, uppskattningar, korrelationer, regressionsanalys, prognoser, prediktion, intrapolering och extrapolering. För att fatta beslut baseras på ett dataunderlag är det viktigt att datainsamling är gjord på ett sätt som säkerställer att tillåtna slutsatser dras. Genom att applicera statistiska metoder inom försöksplanering och studiedesign kan kostnader för studier hållas nere och kvaliteten på slutsatser ökas. Då handlar det ofta om att definiera lämpliga hypoteser att testa, uppskatta lämplig populationsstorlek och minska experimentella fel genom rätt typ av randomisering. Ett vanligt resultat är ha kunna bekräfta eller förkasta en existerande hypotes med en viss sannolikhet. Inom statistisk analys sker även prediktion eller prognoser av data med hjälp av statistiska modeller. I samband med detta diskuteras ofta om ett resultat är trovärdigt och reproducerbart. Då kan metoder som till exempel korsvalidering och känslighetsanalys med så kallad bootstrapping användas. Exempel Typexempel 1. Försöksplanering för att bekräfta att ett läkemedel har en effekt Gör en försöksplanering och studiedesign som kan bekräfta eller förkasta om ett läkemedel har en effekt hos patienter. Definiera hypoteser, uppskatta patientstorlek och experimentella fel. Bestäm även lämplig försöksdesign och randomisering. Typexempel2. Rådgivning kring trend i försäljningsdata Genom data mining har ett nytt samband kring ändrad försäljning upptäckts i ett visst kundsegment. Ledningen vill veta om trenden är statistiskt signifikant. De vill även ha rådgivning kring hur trenden kan följas upp och analyseras vidare för att bekräftas/förkastas under kommande kvartal genom lämpliga mätetal och försök. Automation and Standardization Definition Problem Lösning Exempel Automation är användandet av maskiner, kontrollsystem och informationsteknologier för att optimera produktivitet vid produktion av varor och leverans av tjänster. Standardization är att implementera tekniska standarder. Mycket tid i organisationer tillbringas med att leta efter, kommunicera eller analysera information. Viktig information är fördelad på olika ställen och tidskrävande att sammanställa till lämpligt format. Metoder för delgivning av information varierar mellan medarbetare. Mycket tid läggs på att konvertera, analysera och organisera data och information. Allt detta leder till onödig förvirring, duplicerat arbete, oändliga tolkningsdiskussisoner och minskad produktivitet. Att utveckla en teknisk standard kan innebära att sätta upp ett protokoll för hur en process ska utföras. Att automatisera en process inom informationshantering kan innebära att låta en dator utföra processer enligt en sådan teknisk standard (eller protokoll). Att standardisera och automatisera processer för inhämtning, distribution och analys av data eller information leder ofta till en stor effektivisering, kostnadsbesparing, tidseffektivisering och kvalitetshöjning. Automation och standardisering kan ske i stor eller liten skala inom integration, text mining, data mining, data visualisering, modeling & simulation, statistical analysis, information management och decision support. Typexempel 1 Implementera ett klassificeringssystem (t ex från data mining processen) till att ingå i ett automatiserat beslutstödssystem. Automatisera inhämtning, analys och förberedelse av beslutsunderlag. Typexempel 2 Standardisera en datastruktur i form av ett excel-templat för att skicka viss typ av information. Resulterar i enklare analys & tolkning. Ger möjlighet till automatisering. Typexempel 3 Automatisera analys av rutinmässig datainsamling. Förutsätter standardiserade metoder för datainsamling och för analys. Typexempel4 Automatisera genererandet av specifika rapporter eller dashboards för beslutsstöd. Förutsätter standarder för datainhämtning och data visualisering. Typexempel5 Automatisera insamlandet av litteratur och konkurrentbevakning.