Klasifikator Naivni Bayes
Transcription
Klasifikator Naivni Bayes
Klasifikator Naivni Bayes Odkrivanje zakonitosti v podatkih UNG, 2015 Vid Podpečan Vsebina ● Bayesova formula ● Bayesova formula kot napovedni model (Naivni Bayes) ● ocenjevanje verjetnosti ● vaje Verjetnost – kratka ponovitev ● verjetnostni poskus ● ● ● poskus, katerega rezultat je odvisen od naključja (npr. met kovanca) dogodek ● pojav, ki se v verjetnostnem poskusu lahko zgod (npr. pade cifra) ● dogodku pripada množica izidov – ugodni izidi: dogodek se je zgodil – neugodni: dogodek se ni zgodil če so vsi izidi dogodka A enako verjetni ● verjetnost dogodka A: Primer ● ● met kocke: pade šestica ● ugodni izidi: {6} ● vsi izidi: {1,2,3,4,5,6} ● verjetnost dogodka: med kartami izberemo figuro (fant, dama, ali kralj) ● ugodni izidi: {fant, dama, kralj} - za vse štiri barve (3x4=12) ● vsi izidi: {1,...,52} - toliko je kart ● verjetnost dogodka: Dogodki ● nezdružljiva dogodka ● ● neodvisna dogodka A in B ● ● ● se ne moreta zgoditi hkrati A ne vpliva na verjetnost B verjetnost unije dogodkov (A ali B ali oba) ● nezdružljiva: ● splošno: presek dogodkov (A in B hkrati) ● neodvisna: ● odvisna: pogojna verjetnost Pogojna verjetnost ● P(B|A) ● ● če sta A in B neodvisna ● ● verjetnost, da se zgodi B, če vemo, da se je zgodil A P(B|A) = P(B) primer ● mečemo par kock ● kakšna je verjetnost, da je na eni kocki 2, če vemo, da je vsota 6 ● dogodek A: vsota je 6 ● dogodek B: na eni kocki je 2 Primer (met kock) ● dogodek A se je zgodil: vsota je 6 ● ● ugodni izidi: {(1,5), (2,4), (3,3), (4,2), (5,1)} dogodek B: na eni kocki je 2 ● ugodi izidi: {(2,1), (2,2), (2,3), (2,4), (2,5), (2,6), (1,2), (3,2), (4,2), (5,2),(6,2)} - 11 možnosti ● P(B|A) = 2/5 = 0.4 = 40 % Bayesova formula ● izhajamo iz obeh pogojnih verjetnosti enako Bayesova formula Bayes kot napovedni model ● podatki: bančno posojilo lastnik hiše stan letni dohodek POSOJILO 1 da samski visok DA 2 da poročen srednji DA 3 ne ločen visok NE 4 da poročen nizek NE 5 da ločen srednji ???? nov primer, za katerega želimo napovedati posojilo ● dogodek A, ki se je zgodil: vrednosti atributov ● dogodek B: posojilo katera verjetnost je večja? Kako izračunati verjetnosti? obakrat enako, ne vpliva na verjetnost enostavno: preštejemo v tabeli težava: izračunati moramo verjetnosti za vse kombinacije parov vrednosti atributov in razreda Imamo premalo učnih podatkov! Kako izračunati verjetnosti? REŠITEV: predpostavka naivnosti (Naivni Bayes) predpostavimo, da so pri dani vrednosti razreda atributi pogojno neodvisni enostavno: preštejemo v tabeli! Naivni Bayes, formalni zapis (dve obliki) ● V – vektor vrednosti atributov < v1,....., vn > ● C – razred, možne vrednosti {c1,....,ck} Ocenjevanje verjetnosti Ocenjevanje verjetnosti: primer ● dvakrat vržemo pošten kovanec ● dvakrat pade grb ● relativna frekvenca: ● Laplace: ● m-ocena ● vemo da je kovanec pošten: p0 = 0.5 ● m = 100, ker dajemo večjo utež našemu znanju, ne podatkom