Presentation is loading. Please wait.

Presentation is loading. Please wait.

Strojno učenje (engl. machine learning)

Similar presentations


Presentation on theme: "Strojno učenje (engl. machine learning)"— Presentation transcript:

1 Strojno učenje (engl. machine learning)
Algoritmi strojnog učenja - 3

2 Strojno učenje (engl. machine learning)
Pripremio: Prof.dr.sc. Nikola Bogunović Sveučilište u Zagrebu Fakultet elektrotehnike i računarstva Temeljem izvornih dokumenata (autori zadržavaju sva prava): I.H.Witten, E.Frank DATA MINING, Practical Machine Learning Tools and Techniques Morgan Kaufmann, 2005. T.Michell MACHINE LEARNING McGraw Hill, 1997

3 Strojno učenje (engl. machine learning)
Postupci grupiranja primjera (engl. clustering)

4 Postupci grupiranja primjera
Grupiranje primjera je klasifikacijski postupak strojnog učenja bez nadgledanja (engl. unsupervised) – nisu unaprijed poznati razredi primjera za učenje. Grupiranje je organizacija kolekcije primjera (najčešće predstavljenih kao vektori mjerenja ili kao točke u višedimenzijskom prostoru) u grupe (klastere) prema međusobnoj sličnosti primjera. Primjeri unutar grupe su sličniji jedan drugome nego prema primjerima koji pripadaju drugoj grupi. Postupak grupiranja uključuje slijedeće sukcesivne korake: Predstavljanje primjera (eventualno uz izlučivanje značajki). Brojnost primjera, razreda i tipova podataka. Definicija mjere sličnosti (bliskosti) primjera (ovisi o domeni primjera). To je funkcija koja izračunava udaljenost dva primjera. Npr. Euklidska udaljenost. Grupiranje (čvrste ili neizrazite granice, hijerarhijska organizacija, vjerojatnosno grupiranje isl.). Apstrakcija podataka (kompaktan opis grupa) - ako je potrebno. Evaluacija izlaznog znanja (da li je dobiveno grupiranje suvislo, značajno i iskoristivo) – ako je potrebno.

5 Postupci grupiranja primjera
Neke definicije: Primjer – podatak koji sudjeluje u postupku grupiranja. To je vektor x koji sadrži d komponenata mjerenja (d značajki ili atributa). x = (x1 , … , xd) Individualna skalarna komponenta xi vektora x. Često se naziva vrijednost značajke ili atributa i . Dimenzionalnost primjera = d (prostor pojedinih primjera). Skup primjera.  = { x1 , … , xn }. U mnogim slučajevima skup primjera se može sagledati kao n x d matrica (vidi ranije tablice). Razredi – u grupiranju razredi nastoje predstaviti različite procese generiranja primjera u okviru skupa primjera. Kvantitativne vrijednosti značajki – kontinuirane (npr. težina), diskretne (npr. broj računala u lokalnoj mreži) ili intervalne vrijednosti (npr. trajanje nekog događaja). Kvalitativne vrijednosti značajki – neuređene ili uređene (uređene su npr. hladno-toplo-vruće).

6 Postupci grupiranja primjera
Taksonomija postupaka grupiranja Dijeljenje u particije (grupe)

7 Postupci grupiranja primjera
Hijerarhijsko grupiranje daje ugniježđeni skup grupa – particija. Particijske metode grupiranja (engl. partitional) daju samostalne grupe. Svi prikazani postupci mogu biti: Aglomerativni – postupak započinje s individualnim primjerima (svaki je svoja grupa) i sukcesivno spaja nove primjere u grupe dok nije postignut kriterij zaustavljanja. Djeljivi postupci – započinje se s jednom velikom zajedničkom grupom koja se dijeli u podgrupe. Postupci koji uzimaju sve značajke primjera odjednom ili ih uzimaju sekvencijski (jednu po jednu značajku). Čvrsto ili neizrazito grupiranje. Pojedini primjerak pripada samo jednoj grupi ili može pripadati u više grupa uz stupanj pripadnosti svakoj grupi. Deterministički ili stohastički postupci optimizacije funkcije pogreške (udaljenosti). Razlika je u metodama pretraživanja prostora stanja. Inkrementalni (analiza jednog po jednog primjera, računalno skupo) ili ne-inkrementalni postupci gdje se nastoji minimizirati broj prolaza kroz prostor primjera.

8 Postupci grupiranja primjera
Hijerarhijski postupci s jednom vezom (engl. single-link): udaljenost između grupa na istoj hijerarhijskoj razini je minimum od svih pojedinačnih udaljenosti između parova primjera vučenih iz dvije grupe (jedan primjer iz jedne a drugi primjer iz druge). Početno primjer = grupa. Hijerarhijski postupci s potpunom vezom (engl. complete link): udaljenost između grupa na istoj hijerarhijskoj razini je maksimum od svih pojedinačnih udaljenosti između parova primjera vučenih iz dvije grupe (jedan primjer iz jedne a drugi primjer iz druge). U oba slučaja dvije grupe se spajaju u grupu više hijerarhijske razine temeljem kriterija minimalne udaljenosti. gen. grupa jednom vezom potpuna veza daje korisniju hijerarhiju primjeri sa šumom

9 Single-Link algorithm
Različiti rezultati za Single-link i Complete-link Single-Link algorithm 1 5 3 4 2 6 1 3 4 5 2 6 Complete-Link algorithm 1 5 3 4 2 6 1 3 2 4 5 6

10 Različiti rezultati za Single-link i Complete-link
Single-link (10 clusters) Complete-link (2 clusters)

11 Postupci grupiranja primjera
Djeljivi postupci Postupci zasnovani na kvadratu pogreške Kriterijska funkcija za grupiranje je kvadrat pogreške e2 : gdje je K broj grupa (klastera), n broj primjera, xi(j) je i-ti primjer koji pripada j-toj grupi, a cj je centroid j-te grupe (oznaka || za vektorsku normu jer je xi(j) vektor). Centroid grupe je točka u d-dimenzijskom prostoru čije su koordinate srednje vrijednosti dimenzija svih primjera u grupi (to je "tipičan primjer"). Algoritam k-srednjih vrijednosti je tipičan predstavnik ovog postupka (biti će kasnije objašnjen detaljnije).

12 Postupci grupiranja primjera
Postupci zasnovani na teoriji grafova Npr. "minimal spanning tree" "Minimal spanning tree" (MST) je aciklički graf (stablo) koji povezuje sve čvorove grafa. Iz podataka se konstruira MST, a zatim se brišu lukovi s najvećom duljinom kako bi se formirale grupe. Luk između čvorova C i D kao najdulji se izostavlja.

13 Postupci grupiranja primjera
"Mixture-resolving" i "Mode-Seeking" postupci Pretpostavlja se da su podaci koje treba grupirati izvučeni iz nekoliko razdioba. Cilj je odrediti (estimirati) parametre svake razdiobe i eventualno broj razdioba. U najvećem broju postupaka pretpostavlja se da su podaci pristigli iz mješavine nekoliko normalnih (Gaussovskih) razdioba, te se nastoji estimirati parametre pojedine razdiobe. Tradicijski pristup temelji se na iterativnom određivanju najveće izglednosti (engl. maximum likelihood) estimatora vektora parametara pojedinih komponenata (razdioba). U postupku maksimizacije očekivanja EM (engl. expectation maximization) , započinje se s inicijalnom estimacijom vektora parametara s kojim se iterativno procjenjuju podatci i ponovo estimira (bolji) vektor parametara razdioba.

14 Postupci grupiranja primjera
Djeljivi postupak grupiranja temeljen na k-srednjih vrijednosti (engl. k-means) Koraci: (1) Slučajno odaberi k središta grupa kao k slučajno odabranih točaka unutar hipervolumena koji sadrži podatke – primjere. (2) Pridruži svaki primjer najbližem (npr. prema kvadratnoj pogrešci) ranije određenom središtu grupe (centroidu). (3) Izračunaj nova središta grupa (centroide). (4) Ako kriterij konvergencije nije postignut, vrati se na točku (2). Tipični kriteriji konvergencije su: (i) minimum ponovnog pridruživanja primjera novom središtu grupe, ili (ii) minimalno smanjenje kvadrata pogreške. Algoritam jako ovisi o slučajnom odabranom početnom (koji je naravno i završni) broj grupa. Jedna moguća varijacija postupka je razbijanje grupe ako je varijanca primjera iznad neke unaprijed specificirane razine ili spajanje dvije grupe u jednu ako je razlika njihovih centroida manja od unaprijed specificirane vrijednosti.

15 Postupci grupiranja primjera
Djeljivi postupak grupiranja temeljen na k-srednjih vrijednosti (engl. k-means) Izvornik: Andrew W. Moore, K-means and hierarhical clustering 1. Pitaj korisnika koliko grupa želi (npr. 5).

16 Postupci grupiranja primjera
Djeljivi postupak grupiranja temeljen na k-srednjih vrijednosti (engl. k-means) Izvornik: Andrew W. Moore, K-means and hierarhical clustering 2. Slučajno odaberi 5 središta grupa (crvene točke). To su početna središta.

17 Postupci grupiranja primjera
Djeljivi postupak grupiranja temeljen na k-srednjih vrijednosti (engl. k-means) Izvornik: Andrew W. Moore, K-means and hierarhical clustering 3. Za svaki primjer (podatak) pronađi kojem je središtu najbliži (uporabi kvadratnu pogrešku). Svako središte posjeduje neki podskup primjera.

18 Postupci grupiranja primjera
Djeljivi postupak grupiranja temeljen na k-srednjih vrijednosti (engl. k-means) Izvornik: Andrew W. Moore, K-means and hierarhical clustering 4. Izračuna se novi centroid svake grupe i staro središte se pomakne u taj novi centroid

19 Postupci grupiranja primjera
Djeljivi postupak grupiranja temeljen na k-srednjih vrijednosti (engl. k-means) Izvornik: Andrew W. Moore, K-means and hierarhical clustering 5. Ponavljaj postupak dok se ne dosegne kriterij završetka.

20 Strojno učenje (engl. machine learning)
Regresijski postupci (engl. regression)

21 Regresijski postupci Linearna regresija
Regresija je postupak strojnog učenja koji generira izlaznu numeričku vrijednost (ranije definirano kao izlazno znanje ili razred) temeljem atributa čije su vrijednosti isključivo numeričke. Postupak se često naziva numerička predikcija. Linearna regresija Numerička vrijednost ("razred") se izražava kao linearna kombinacija vrijednosti atributa uz ranije naučene težine w . Npr. primjer 1 je označen s x(1) i neka taj primjer ima k atributa s vrijednostima a1, … , ak . Često se zbog konvencije označavanja dodaje ekstra vrijednost atributa a0 = 1. Predikcija numeričke vrijednosti ("razred") primjera x(1) je: Pred x(1) =

22 Regresijski postupci To je naravno predikcijska a ne stvarna numerička vrijednost primjera 1. Linearna regresija nastoji odabrati težinske koeficijente wj (ima ih k+1) tako da se minimizira suma kvadrata razlika između stvarne x(i) i predikcijske vrijednosti za sve testne primjere i=0 … n. Suma je: Minimizacijska tehnika temelji se na manipulaciji s matricama (postoje brojni gotovi programski paketi). Rezultat je skup težina wj , koje se mogu koristiti za predikciju vrijednosti novoga primjera. To je linearni model podataka: Nedostatak: ako podaci pokazuju nelinearne ovisnosti, generirani linearni model (kao pravac) nije dobra prilagodba podacima.

23 Numerička predikcija i klasifikacija
Regresijski postupci Numerička predikcija i klasifikacija Numerička predikcija modelira funkciju kontinuiranih vrijednosti. Klasifikacija predviđa kategoričke razrede. Postupak linearne regresije može se uporabiti za klasifikaciju u domenama s numeričkim vrijednostima atributa. Napravi se regresija (linearni izraz) za svaki razred posebno tako da regresijski izraz testnih primjera predviđa (stvarni x(i) ) binarnu varijablu 1 ako primjer pripada razredu, odnosno 0 ako primjer ne pripada razredu. Rezultat je linearan izraz za svaki razred. Za nepoznati primjer izračuna se vrijednost linearnog izraza za svaki razred i izabere se onaj razred s najvećom predviđenom vrijednosti. Postupak se naziva više-odzivna linearna regresija (engl. multiresponse linear regression).

24 Regresijski postupci Nelinearna regresija
Neki nelinearni modeli mogu se modelirati polinomom. Polinomski regresijski model može se preslikati u linearni regresijski model. Npr. y = w0 + w1 x + w2 x2 + w3 x3 preslikava se u linearnu regresiju supstitucijom novih varijabli: x2 = x2, x3= x3 pa slijedi: y = w0 + w1 x + w2 x2 + w3 x3 Ostale funkcije višega reda mogu se također transformirati u linearni model. Neke modele, poput sume eksponencijalnih članova, nije moguće jednostavno preslikati.

25 Taksonomija ostalih modela temeljenih na regresiji
Regresijski postupci Taksonomija ostalih modela temeljenih na regresiji Generalizirani linearni modeli Varijanca izlazne (zavisne) varijable nije konstanta već je funkcija srednje vrijednosti nezavisnih varijabli. Logistička regresija - biti će posebno opisana Modelira vjerojatnost pojave događaja kao funkciju skupa prediktorskih varijabli. Poissonova regresija Modelira podatke koji slijede Poissonovu razdiobu. Log-linearni modeli (za kategoričke podatke) Aproksimiraju diskretne više-dimenzijske razdiobe vjerojatnosti. Korisni su i za sažimanje i glađenje (engl. smoothing) podataka. Regresijska stabla i stabla modela Stabla koja u listovima predviđaju kontinuirane vrijednosti a ne diskretne razrede.

26 Logistička regresija (1/4)
Regresijski postupci Logistička regresija (1/4) Više-odzivna linearna regresija (engl. multiresponse linear regression). Ne daje korektne vjerojatnosti razreda jer izlazne vrijednosti mogu pasti izvan intervala [0, 1]. Regresija temeljena na najmanjoj kvadratnoj pogrešci pretpostavlja da su pogreške pojedinih podataka statistički nezavisne i da slijede normalnu razdiobu. Logistička regresija je varijacija temeljne regresiji u kojoj odzivna varijabla (zavisna) testnih primjera ima dvije vrijednosti 0 ili 1. Te vrijednosti predstavljanju pojavu ili ne nekog događaja. Logistička regresija ne pretpostavlja linearnu zavisnost između zavisne i nezavisnih varijabli. Logistička regresija ne pretpostavlja da zavisna varijabla ili članovi pogreške slijede normalnu razdiobu.

27 Logistička regresija (2/4)
Regresijski postupci Logistička regresija (2/4) U slučaju klasifikacije u dva razreda (pozitivni i negativni), vjerojatnost pripadanja (ciljna varijabla) pozitivnom razredu je: gdje su ai vrijednosti atributa primjera kojemu nastojimo odrediti razred.. Ako se navedena vjerojatnost ne može ispravno aproksimirati linearnom regresijom (npr daje izlaz veći od 1) , gore navedena vjerojatnost zamjenjuje se s log( Pr/(1-Pr) ] , odnosno: te je model: w su težine (regresijski koeficijenti) koje treba naučiti (odrediti) iz podataka.

28 Logistička regresija (3/4)
Regresijski postupci Logistička regresija (3/4) Ovim postupkom slijedi predikcijska varijabla log[P/(1-P)] kao linearna kombinacija varijabli koje ju objašnjavaju. log[P/(1-P)] može poprimiti vrijednosti od - do +. Transformira se u P , t.j. vjerojatnost [0, 1] logističkom funkcijom: Analitički (uz uobičajeno a0 = 1) :

29 Logistička regresija (4/4)
Regresijski postupci Logistička regresija (4/4) Težine w opisanog modela određuju se slično kao i kod linearne regresije, ali umjesto kvadrata pogrešaka logistička regresija koristi log-izglednost (engl. log-likelihood) definiranu izrazom: gdje vrijednosti x(i) označuju pripadnost ili ne primjera i razredu, t.j. iznose 1 ili 0, aj(i) su vrijednosti atributa j za primjer (podatak) i. Potrebno je odabrati težine koje maksimiraju gornji izraz za log-izglednost. Postoji nekoliko tehnika maksimizacije, a najjednostavnije se temelje na iterativnim postupcima regresije prema najmanjoj kvadratnoj pogrešci sve dok log-izglednost ne konvergira prema svojem maksimumu.


Download ppt "Strojno učenje (engl. machine learning)"

Similar presentations


Ads by Google