Data Integration Definition Problem Lösning Exempel

Transcription

Data Integration Definition Problem Lösning Exempel
Data Integration
Definition
Problem
Data Integration är att använda och kombinera data från fler källor för analys och
vetenskaplig tolkning av sammanslagen data.
Det är idag vanligt att verksamhetsdata är fördelade i flera åtskilda system och databaser.
Detta försvårar möjligheten att få en enkel och intuitiv integrerad helhetsbild av sitt
affärsområde vilket är ett måste för beslutsfattare. Tyvärr är arbetet med att förstå vilken
vilka källor som skall integreras samt att extrahera betydelsefull information ofta bortom
traditionell IT kompetens.
Användandet av nya former av extern data är ofta begränsad på företag. Det finns idag
möjligheter att inhämta värdefull och affärskritisk information från nyheter,
processövervakning, givare, sociala medier, foton, videor, lokal demografi eller
väderprognoser. Allt detta bidrar till att existerande tillhandahållen data inte används till
sin fulla potential och att tillgänglig extern data inte används över huvud taget.
Lösning
En del av dataintegration handlar om att rent fysiskt och tekniskt ”koppla in”
eller ”koppla ihop” datakällor. Det är ett mer eller mindre tekniskt problem. Men för att
göra information från data tillgänglig från de olika källorna kräver en övergripande
förståelse för hur datakällorna ska användas. Detta kräver ofta att man utöver den
tekniska kompetensen även har en mer analytisk kompetens.
För att på bästa sätt använda befintliga datakällor måste man extrahera informationen
ifrån dem på ett effektivt sätt. Detta bör göras så att information blir lätt blir möjlig att
analysera och visualisera. Detta kräver ofta transformering, aggregering eller filtrering
(”tvättning”) av rådata. Men det krävs också en förståelse för vilka beslut som fattas i
verksamheten.
Integration av källor som tidigare inte analyserats tillsammans möjliggör nya typer av
analyser och möjliggör upptäckte av nya okända affärskritiska samband. Integration av
nya externa data källor till befintliga system är därför alltid intressant.
Typexempel 1: Integrering av data från flera olika IT-system
Exempel
Integrera data inom Safety + Efficacy + In vitro + djurmodell + klinik på ett
läkemedelsföretag för att på så sätt få en helhetsbild över hur ett läkemedel fungerar.
Typexempel 2: Lägg till en ny datakälla till befintliga IT-system
Lägg till en extern datakälla med väderdata i realtid och integrera med befintliga system.
Gör väderdata tillgänglig för att analysera tillsammans med data kring försäljning och
logistik. Lämpliga aggregeringar och kopplingar av data behöver göras för att kunna
förbättra planering av transporter, lagerhållning och försäljning med hjälp av
väderinformation.
Text Mining
Definition
Problem
Text mining är att upptäcka meningsfulla mönster och samband från ostrukturerad
information och data i form av texter.
Text innehåller värdefull och ofta affärskritisk information. Inom organisationer finns ofta
värdefull information dokument och rapporter. Idag finns även tillgång till stora volymer
av extern information i form av nyheter, artiklar, hemsidor, reklam, väder, rapporter och
sociala medier.
Text är en ostrukturerad form av information och kräver ofta en förbehandling för att
kunna tolkas kvantitativt. Det innebär att text ofta kräver transformering, aggregering
eller filtrering (”tvättning”) innan den kan användas. Men tyvärr är processen att
extrahera betydelsefull information från text ofta bortom traditionell IT kompetens. Det
medför att stora volymer av potentiellt viktig information inte används.
Lösning
Syftet med text mining är omvandla ostrukturerade texter så att de blir möjliga att
analysera med kvantitativa analysmetoder. Detta innebär att text mining inte bara kan
användas för att identifiera intressant information, utan även tolka, extrahera och
kvantifiera den.
Inom text mining använder man sig ofta av metoder inom Natural Language Processing
(NLP) vilket är ett område som omfattar utveckling av datorprogram för att analysera och
generera mänskligt språk. Många av dessa metoder bygger oftast på maskininlärning, där
man låter en algoritm lära sig att identifiera mönster i data (se även data mining).
Utnyttjande av text mining innebär ofta att man får möjlighet att lyfta in en tidigare
outnyttjad datakälla för analys. Med andra ord så kan text mining vara tillämpbart för att
integrera en ny datakälla i ett beslutstödssystem med annan existerade data (se även
data integration). Det kan då ge upphov till att många nya tidigare samband identifieras.
Typexempel1: Analysera affärsnyheter och utveckla beslutsstöd kring fondköp
Exempel
Analysera korrelation kring affärsnyheter och börshandel för att utveckla en
realtidsuppdaterande beslutstödssystem som ger köp-/säljrekommendationer kring
fonder och värdepapper baserade på nyhetsuppdateringar.
Typexempel2: Analysera social media kring kundbeteenden
Analysera realtidsuppdaterande sociala medier kring trender relevanta för försäljning
och marknadsföring av konsumentprodukter. Snabbare och bättre återkoppling ger
effektivare försäljning, marknadsföring, logistik och tillverkning.
Typexempel 3: Analysera försäkringsanmälningar och garantiärenden
Analysera fritext fält inom försäkringsanmälningar, garantiärenden och bidragsärenden
för att identifiera bedrägerier, tillverkningsfel och tidigare missade behov.
Data Mining
Definition
Problem
Data Mining är analys av stora datamängder för att identifiera nya mönster som är
förståeliga och användbara.
Den snabba teknikutvecklingen har lett till att vårt samhälle har blivit mer och mer
digitaliserat. De stora datamängderna och de många parametrar som nu finns
elektroniskt tillgängliga från maskiner, givare och processer ökar exponentiellt. Idag finns
affärskritisk information även i extern data såsom nyheter, processövervakning, givare,
sociala medier, foton, videor, lokal demografi eller väderprognoser. Tillgången till all data
är svåröverblickbar och kunskapen om dessa är ofta begränsad inom en organisation.
Kompetensen för att integrera, analysera och använda stora dataset explorativt för att
identifiera nya sambandräcker ofta inte till i dagens organisationer. Allt detta bidrar till
att intern data inte används till sin fulla potential, extern data ofta inte används över
huvud taget och nya trender och samband tar onödigt lång tid att identifiera.
Lösning
Data mining är en process för att upptäcka nya mönster i stora datamängder. Målet med
processen är att extrahera information från en datamängd och omvandla den till en
förståelig och användbar struktur.
Ofta används maskininlärning, antingen övervakad eller oövervakad, för att analysera
data. Övervakade system tränas upp med data som har olika klasstillhörighet för att
känna igen mönster som särskiljer dessa klasser. Det systemet kan i sin tur användas för
att klassificera data med okänd klassindelning. Oövervakade system identifierar istället
undergrupper av data som är mer lik varandra (klusteranalys) oberoende av klassificering.
I data mining ingår även förbehandling av data i form av filtrering, klassificering och
aggregering, samt utvärdering och tolkning av resultatet.
Typexempel 1: Segmentera kunder i intressanta grupper
Exempel
Segmentera kunder utifrån intressanta parametrar kring konsumtionsmönster. Analysera
vilka produkter och tjänster som köps eller används vid olika samma tillfällen och vid
vilka tider. Är trenderna speciellt viktiga för vissa kundgrupper? Identifierade trender kan
vara intressant för att optimera lager, logistik, försäljning, marknadsföring och utveckling
av nya produkter.
Typexempel2: Analysera transaktionsmönster
Identifiera transaktionsmönster som är typiska för kortbedrägerier för att på ett tidigt
stadium påvisa bedrägeriförsök. Använd maskininlärningstekniker för att träna upp ett
beslutstödssystem för att automatiskt känna igen bedrägeriförsök. Ett sådant system kan
användas för att identifiera misstänkta transaktioner som sedan får granskas manuellt.
Modeling & Simulation
Definition
Problem
Lösning
Modeling and Simulation(M&S) är användandet av modeller, statiskt eller över tid, för att
utveckla data som grund för att ta beslut. Modellering och simulering används ofta som
synonyma begrepp.
Genom att studera verkligheten lär vi oss teoretiska samband. Men verkligheten är inte
alltid så lätt att undersöka. Realistiska experiment kan vara dyrt, långsamt, farligt, ta lång
tid eller helt enkelt vara väldigt komplicerat att genomföra. I många av dessa fall kan tid
och pengar sparas genom användning av M&S. Tyvärr utnyttjas denna möjlighet idag inte
till fullo.
Modellering och simulering används för att efterlikna en på förhand utvald aspekt av
verkligheten och för att ta fram data för att förutspå konsekvenser av olika scenarier. Att
använda simuleringar är generellt billigare och säkrare än att genomföra experiment.
Simuleringar kan ofta även vara mer realistiska än traditionella experiment eftersom de
tillåter fri konfigurering av olika parametrar. Dessutom kan simuleringar ofta genomföras
snabbare än verklig tid.
Modellering och simulering har många tillämpningar. Det kan användas för att stödja
planering eller utforska den mest effektiva lösningen av ett problem. Det kan även
användas för att stödja ett beslutsstödssystem genom att lägga till ett dynamiskt element
och tillåta att beräkna uppskattningar och prediktioner. Ytterligare användningsområden
innefattar utveckling och testande av system, till exempel genom att tillhandahålla en
virtuell miljö i vilken tester kan genomföras. Det kan också användas för träning och
utbildning genom att till exempel tillhandahålla simulatorer, virtuella utbildningsmiljöer
och ”serious games”. M&S kan användas för att undersöka och få insikter i ny teknologi,
och för att uppskatta prestanda av system som är för komplexa för analytiska lösningar.
Exempel
Typexempel 1:Simulering av aerodynamik och bulleregenskaper på en farkost.
Här görs en numerisk simulering av kontinuerliga system av differentialekvationer som
inte kan lösas analytiskt. I detta fall är syftet att öka förståelse, förbättra modeller,
reducera kostnader och korta utvecklingstider.
Typexempel 2: Simulering av genetisk drift i svenska vargstammen
I detta fall görs en stokastisk simulering, typiskt använd för diskreta system där händelser
inträffar probabilistiskt, och som inte kan beskrivas direkt med differentialekvationer.Här
skulle en regelrätt studie ta lång tid, miljövariabler skulle vara svåra att kontrollera och en
regelrätt studie skulle vara svår att genomföra även av många andra skäl.
Data Visualization
Definition
Problem
Data Visualization innebär att tydligt och effektivt kommunicera data och information
visuellt.
Explorative Data Visualization innebär att använda avancerade tekniker och verktyg för
att identifiera mönster som annars skulle vara dolda i standard visualisering.
Inom en organisation sker kommunikation av information och kunskap mellan personer
och system dagligen. Volymerna av information som ska hanteras på samma tid växer.
Eftersom informationen ligger till grund för viktiga beslut i verksamheten är det viktigt att
kunna kommunicera effektivt.
Till stor del handlar det om att slutsatser som ligger till grund för beslut behöver
kommuniceras effektivt. Felaktiga kommunikationsformer, visualiseringar eller data väljs
vilket gör att budskapet går förlorat. Tryckta rapporter fyller en viktig funktion, men har
även brister. De är oftast inte individuellt anpassade för olika typer av beslutsfattare, de
är inte interaktiva för att svara på aktuella frågor och de uppdateras inte i realtid.
Lösning
Exempel
För att effektivt kommunicera slutsatser behöver man använda sig av datavisualisering.
Det innebär att göra lämpliga val för att extrahera, tolka och summera information så
tydligt och klart som möjligt. En viktig pusselbit handlar om att välja rätt visualisering av
tabeller, grafer och layouter i rapporter för att utgöra stöd till viktiga beslut. En annan
handlar om att välja lämpligt media för att kommunicera information och kunskap. Ibland
är till exempel visuella presentationer mer lämpliga än tryckta rapporter. Vanligt
förekommande kommunikationssätt är presentationer i tryckta rapporter eller i form av
visuella presentationer (via t ex powerpoint) där data och kommentarer samlas med
figurer, tabeller och kommentarer.
Numera finns även kraftfulla applikationer för att leverera mer interaktiva rapporter eller
så kallade dashboards som levererar intuitiva och tydliga presentationer av data i realtid.
En dashboard kan till exempel summera ett företags hälsa med ett antal mätetal eller Key
Performance Indicators (KPIs) för försäljning, produktivitet, inkomst, kundgrupp eller
sociala media. Fördelen med interaktiva program är att de ofta kan generera
standardiserade rapporter för utskrift eller presentation, men även erbjuda möjligheten
till individualiserade dynamiska presentationer som interagerar med användaren i realtid.
Interaktiva applikationer för data visualisering utgör även ett viktigt verktyg för att
identifiera nya samband och mönster som annars skulle vara dolda, så kallad explorativ
data visualisering.
Typexempel 1: Designa en interaktiv rapport med individualiserade dashboards
Designa och visulisera information för X. Möjlighet till tryckta rapporter. Interaktiv analys.
Individualiserbar. Automatiskt uppdaterande.
Typexempel 2: Visualisera slutsatser från data mining uppdrag
Med hjälp av data mining kan man identifiera nya intressanta mönster i ens data (se data
mining). För att få en bättre förståelse för vad dessa mönster innebär så behöver man
ofta ta fram visualiseringar av dessa mönster så att man får en bättre inblick i vad de
innebär.
Decision Support
Definition
Problem
Beslutsstöd är något som stödjer beslutstagning. Beslutsstödssystem är
informationssystem som stödjer verksamheten eller organisatoriska
beslutstagningsaktiviteter.
Intuition har traditionellt varit ett viktigt inslag vid företagsbeslut. Intuition förser oss
med en tro som vi inte kan rättfärdiga i varje fall. Forskning visar att beslut som är datadrivna är effektivare än de som är baserade på intuition. Idag ställs ofta högre krav på att
beslut ska vara underbyggda med fakta och vara data-drivna. Men många viktiga
företagsbeslut har fortfarande bristfälligt informationsunderlag.
För att fatta ett data-drivet beslut krävs att rätt information når rätt person vid rätt
tillfälle. Det handlar om kommunikation av information, teknisk infrastruktur och även
företagskultur. Om en betydelsefull dataanalys inte når rätt person, landar för sent eller
omotiverat ignoreras sker det till en kostnad.
Lösning
Exempel
*Beslutsstödssystem. Många traditionella IT-system är byggda för att ta emot data i
omgångar och inte för kontinuerlig ström av information som ibland krävs för
realtidsbeslut.
*Kunskap om att information finns och att den är betydelsefull är ibland bristfällig.
Beslut sker dagligen och på olika nivåer i ett företag. Återkommande typer av beslut
kräver ofta likartade underlag. Men det finns också stora och små beslut som sker på ad
hoc basis. I
alla fall underlättar det att ha en bra metod för att få tillgång till rätt data. Ett
beslutstödssystem kan ge tillgång till verklig data och/eller simulerad data. Vi kan hjälpa
till att skaffa fram, utforma och utveckla de beslutsstöden som behövs på ert företag.
Utvecklandet av beslutsstödsystem ökar personlig effektivitet, snabbar upp
beslutsfattande, förbättrar kommunkation och möjliggör nya för personal att lägga energi
på andra saker.
Exempel på behov av beslutsunderlag: Är en specifik kund kreditvärdig? Klinisk
beslutsstöd kring medicinska diagnoser, är nyheten trovärdig?
Information Management & Knowledge Management
Definition
Information Management omfattar insamling och organisering av information från en
eller flera källor samt spridning av den informationen till en eller flera åhörare.
Knowledge Management är att identifiera, skapa, representera och sprida insikter och
erfarenheter i en organisation.
Problem
Inom en organisation pågår många processer och projekt samtidigt. Deras inbördes
relativa position ändras kontinuerligt liksom mot en omvärld i konstant förändring. För
att enklare och bättre identifiera risker eller möjligheter och signaler som kan behöva
snabba beslut krävs kontinuerlig övervakning. Tyvärr är ofta metoderna för att
kontinuerligt övervaka och synka data, information och kunskap på taktisk, strategisk och
operativ nivå bristfällig.
Det krävs mycket information och kunskap om projekt, avdelningar, processer och
affärsområden för att driva en organisation. Tyvärr är ofta insikterna och
erfarenheterna ”inbäddade” hos individer eller i organisationer i form av processer eller
verksamheter. Det innebär att all information och kunskap inte är allmänt tillgängligför
alla vid varje tidpunkt.
Lösning
Mycket information går att extrahera automatiskt från tillgängliga datakällor, medan
annan information kräver rutinmässig insamling med manuell ”handpåläggning”. Om
informationen struktureras och lagras i standardiserade format förenklar det
användningen av den. Från strukturerad information finns även möjlighet att automatiskt
extrahera beslutsgrundande kunskap.
Om data, information och kunskap hanteras i liknande system kan det analyseras och
spridas på liknande sätt. Kunskap kan då, precis som övrig information och data, också
uppdateras regelbundet och gå att följa över tid. Standardisering av information och
kunskap kan ske på olika sätt beroende på användningsområde och tradition. Inom
projektledning är det vanligt med standardiserade mallar, definierade milestones och
krav. Inom vissa områden lämpar sig score cards bra med standardiserade
frågeställningar eller hypoteser. Beroende på hur beslutsprocesserna ser ut kan
kunskapen organiseras på olika sätt för att enkla beslut.
Vår erfarenhet är att små förbättringar inom informations- och kunskapshantering leder
till stora effektiviseringsvinster. Av dessa kan nämnas bättre kontroll och övervakning,
mer insikt kring den egne medarbetarens roll för hela organisationen, bättre beslut på
alla nivåer, bättre samarbeten, bättre rutiner, etc..
Exempel
Typexempel1: Utveckla system för standardiserad insamling av kunskap
Sammanfatta tillgänglig (intern + extern) kunskap om ett sjukdomsområde eller ett
läkemedelsprojekt med scorecard och visualisera i en heatmap.
Typexempel2: Utveckla skräddarsytt stöd för projektarbete och projektledning
Utveckla projektledningsstöd genom uppsättande av en sharepoint där olika typer av
information och kunskap samlas på ett ställe. Tillsammans med protokoll, actions,
kalendrar, tidsplaneringar,etc..
Statistical Analysis
Statististcal Analysis är insamling, organisering, tolkning och presentation av data.
Definition
Problem
För att fatta bra beslut krävs dataunderlag av hög kvalitet och stor trovärdighet. Det kan
till exempel innebära att om trender, korrelationer och hypoteser är säkerställda och
reproducerbara ger det större möjlighet att fatta bra beslut kring data. Tyvärr är ofta
dataunderlaget inför viktiga beslut bristfälligt säkerställda.
För att säkerställa viss information krävs dyra och tidskrävande studier. Tyvärr är
frågeställningar ofta inte helt genomtänkta på förhand. Vilka kan resultera i att
beviskraften i studien saknas för att övertyga investerare eller myndigheter. Med en
smart försöksuppställning och design beviskraften ökas medan kostnader kan reduceras
och tid sparas. Tyvärr saknas ofta insikten att kvalitet på data är kostnadseffektivt.
Lösning
Inom statistik använder man ofta termerna stickprov och population. Ett stickprov är en
delmängd av en bestämd population (eller datamängd) som vill studeras. Med så kallad
deskriptiv statistik kan populationsdatakommuniceras genom att beskriva vad som
observerades i stickprovetmed begrepp som medelvärde, standardavvikelse, frekvens
eller procent. Med statistisk inferens kan sannolikhetsbaserade beslut tas kring
populationen. Sådana slutsatser kan uppnås med bland annat hypotestestning,
uppskattningar, korrelationer, regressionsanalys, prognoser, prediktion, intrapolering och
extrapolering.
För att fatta beslut baseras på ett dataunderlag är det viktigt att datainsamling är gjord
på ett sätt som säkerställer att tillåtna slutsatser dras. Genom att applicera statistiska
metoder inom försöksplanering och studiedesign kan kostnader för studier hållas nere
och kvaliteten på slutsatser ökas. Då handlar det ofta om att definiera lämpliga hypoteser
att testa, uppskatta lämplig populationsstorlek och minska experimentella fel genom rätt
typ av randomisering. Ett vanligt resultat är ha kunna bekräfta eller förkasta en
existerande hypotes med en viss sannolikhet.
Inom statistisk analys sker även prediktion eller prognoser av data med hjälp av
statistiska modeller. I samband med detta diskuteras ofta om ett resultat är trovärdigt
och reproducerbart. Då kan metoder som till exempel korsvalidering och
känslighetsanalys med så kallad bootstrapping användas.
Exempel
Typexempel 1. Försöksplanering för att bekräfta att ett läkemedel har en effekt
Gör en försöksplanering och studiedesign som kan bekräfta eller förkasta om ett
läkemedel har en effekt hos patienter. Definiera hypoteser, uppskatta patientstorlek och
experimentella fel. Bestäm även lämplig försöksdesign och randomisering.
Typexempel2. Rådgivning kring trend i försäljningsdata
Genom data mining har ett nytt samband kring ändrad försäljning upptäckts i ett visst
kundsegment. Ledningen vill veta om trenden är statistiskt signifikant. De vill även ha
rådgivning kring hur trenden kan följas upp och analyseras vidare för att
bekräftas/förkastas under kommande kvartal genom lämpliga mätetal och försök.
Automation and Standardization
Definition
Problem
Lösning
Exempel
Automation är användandet av maskiner, kontrollsystem och informationsteknologier för
att optimera produktivitet vid produktion av varor och leverans av tjänster.
Standardization är att implementera tekniska standarder.
Mycket tid i organisationer tillbringas med att leta efter, kommunicera eller analysera
information. Viktig information är fördelad på olika ställen och tidskrävande att
sammanställa till lämpligt format. Metoder för delgivning av information varierar mellan
medarbetare. Mycket tid läggs på att konvertera, analysera och organisera data och
information. Allt detta leder till onödig förvirring, duplicerat arbete, oändliga
tolkningsdiskussisoner och minskad produktivitet.
Att utveckla en teknisk standard kan innebära att sätta upp ett protokoll för hur en process
ska utföras. Att automatisera en process inom informationshantering kan innebära att låta
en dator utföra processer enligt en sådan teknisk standard (eller protokoll). Att
standardisera och automatisera processer för inhämtning, distribution och analys av data
eller information leder ofta till en stor effektivisering, kostnadsbesparing,
tidseffektivisering och kvalitetshöjning.
Automation och standardisering kan ske i stor eller liten skala inom integration, text
mining, data mining, data visualisering, modeling & simulation, statistical analysis,
information management och decision support.
Typexempel 1
Implementera ett klassificeringssystem (t ex från data mining processen) till att ingå i ett
automatiserat beslutstödssystem. Automatisera inhämtning, analys och förberedelse av
beslutsunderlag.
Typexempel 2
Standardisera en datastruktur i form av ett excel-templat för att skicka viss typ av
information. Resulterar i enklare analys & tolkning. Ger möjlighet till automatisering.
Typexempel 3
Automatisera analys av rutinmässig datainsamling. Förutsätter standardiserade metoder för
datainsamling och för analys.
Typexempel4
Automatisera genererandet av specifika rapporter eller dashboards för beslutsstöd.
Förutsätter standarder för datainhämtning och data visualisering.
Typexempel5
Automatisera insamlandet av litteratur och konkurrentbevakning.