Završni rad: Postupci za učenje asocijativnih pravila

Slides:



Advertisements
Similar presentations
Ma.
Advertisements

Click on each of us to hear our sounds.
HIRAGANA by number of strokes Images from:
ma mu mi mo me pe pi pa pu po si sa so.
1.6. Pohrana podataka.
Provisioning Windowsa 10 na IoT, mobilnim i desktop uređajima
Programi zasnovani na prozorima
Uvod u projekte Rijeka,
Programiranje - Blokovi naredbi i logički tipovi –
Teorema o 4 boje(Four color theorem)
Quick Basic.
Podatkovni višemedijski prijenos i računalne mreže Speech Recognition
Petlje FOR - NEXT.
KAKO RADI INTERNET.
PlayStation Student: Gordan Belas Datum: FESB,Split.
Europski dan programiranja
14 UNUTRAŠNJE I ANONIMNE KLASE
Armin Teskeredzic Zagreb, Hrvatska,
LAPLACEOVA TRANSFORMACIJA
Stanko Cerin Ostendo Consulting
SUDOKU Ivo Doko Saša Buzov.
Makroekonomija za preduzetnike
Pristup podacima Izvještaji
UPOTREBA RAČUNALA U PSIHOLOGIJI Ak. god. 2018/19 Doc. Dr. sc
MessageBox.
KORELACIJSKA I REGRESIJSKA ANALIZA
(カックロ ) Ivo Ivanišević Ena Melvan
Pojmovi digitalnog zapisa
PROGRAMSKI JEZIK PASCAL
PRAĆENJE STATISTIKE POSEĆENOSTI WEB-PREZENTACIJE
AMM SISTEM Opseg PLC komunikacije 72kHz±1.2kHz
MATEMATIČKI FAKULTET, UNIVERZITET U BEOGRADU
ELEKTRONIČKA POŠTA ( ) OTVARANJE RAČUNA.
Osnovni simboli jezika Pascal
FAKULTET KEMIJSKOG INŽENJERSTVA I TEHNOLOGIJE
Virtualizacija poslovnih procesa metodom „Swimlane“ dijagrama
Tomislav Novak voditelj: doc.dr.sc. Domagoj Jakobović
Programiranje – Small Basic
Seminar: Automatska rasvjeta
posljednja faza razvoja podatkovnih komunikacija
Harmonijsko pretraživanje
Sustavi za pracenje i vođenje procesa STATEFUL INSPECTION FIREWALL
Strukture podataka i algoritmi 5. VRIJEME IZVRŠAVANJA ALGORITMA
Nizovi.
Skup instrukcija procesora
Fakultet elektrotehnike i računarstva
Analiza varijance prof. dr. sc. Nikola Šakić.
Autor: Marko Pletikosa Mentor: doc.dr.sc. Domagoj Jakobović
IP SPOOFING Sveučilište u Zagrebu
Programski jezik C++ - Vježbe - 5. dio
Programski jezik Python
Programski jezik C++ - Vježbe - 4. dio
Pretraživanje pravnih izvora i baza podataka EU
VAŽNOST ČITANJA U NIŽIM RAZREDIMA OSNOVNE ŠKOLE
Ljepota matematike Slijedi nekoliko zanimljivih jednakosti koje ukazuju na ljepotu matematike te povezanost matematike s Bogom koji je izvor svih čuda.
MANAGEMENT OF NASAL INJURIES BY UK ACCIDENT AND EMERGENCY CONSULTANS
Izranjajuća Inteligencija
Programiranje - Naredbe za kontrolu toka programa – 3. dio
PROGRAMSKI SUSTAV ZA RASPOZNAVANJE TISKANOG TEKSTA
Programski jezik C++ - Vježbe - 1. dio
LimeSurvey Uvjetni prikaz pitanja Internetska istraživanja
Podatkovni višemedijski prijenos i računalne mreže Speech Recognition
7. Baze podataka Postavke MS Accessa.
Ponavljanje Pisana provjera
Programiranje - Naredbe za kontrolu toka programa – 1. dio
Utvrđivanje kvalitete oblikovanih pričuva šteta – run off analiza
INTERPOLACIJA PO DIJELOVIMA POLINOMIMA
Kako zaštititi privatnost na facebooku
Programski jezik C++ - Vježbe - 2. dio
Rekapitulacija / Zaključak
Presentation transcript:

Završni rad: Postupci za učenje asocijativnih pravila Sveučilište u Zagrebu Fakultet elektrotehnike i računarstva Završni rad: Postupci za učenje asocijativnih pravila Student: Marin Smoljanić Mentor: doc. dr. dc. Alan Jović Datum obrane: 03.07.2017

Sadržaj Osnovni koncepti asocijativnih pravila Splunk Algoritam Apriori Algoritam FP-Growth Implementacija algoritma Apriori Parsiranje ulaznih skupova podataka Usporedba vlastite implementacije s već postojećim rješenjima Zaključak

1. Osnovni koncepti asocijativnih pravila Važni termini: Element (engl. Item) Skup elemenata (engl. Itemset) Transakcija (engl. Transaction)

Asocijativno pravilo: X → Y Skup svih elemenata: I = {i1, i2, …, id} Skup svih transakcija: T = {t1, t2, …, tN} Broj signifikantnosti (engl. Support count) σ(X) = | {ti | X ⊆ ti, ti ∈ T} | Značaj ili signifikantnost (engl. Support) s(X → Y) = σ(X ∪ Y ) / N Pouzdanost (engl. Confidence) c(X → Y) = σ(X ∪ Y ) / σ(X) .

2. Splunk Programski proizvod za centralizirano upravljanje podatcima Prikupljanje, pretraživanja i analiziranje podataka u stvarnom vremenu Nadgledanje, uzbunjivanje i izvješćivanje za različite potrebe

Događaj (engl. Event) Domaćin, izvor i tip izvora (engl. Host, Source and Source Type) Polja (engl. Fields) Indeksi (engl. Indexes) Pretraga (engl. Search) Kontrolna ploča (engl. Dashboard) Jezik pretrage (engl. Search Processing Language)

3. Algoritam Apriori Dizajniran kako bi radio nad transakcijskim skupovima podataka Proces obrade razdvojen na dva potprocesa: Generiranje učestalih itemsetova (engl. Frequent itemset generation) Generiranje pravila (engl. Rule generation) Minimalni pragovi signifikantnosti i pouzdanosti

Početak Kraj Sign. >= min_sign Ne Da Ne Pouzd. >= min_pouzd Da Učitavanje elemenata iz transakcija Računanje signifikantnosti Sign. >= min_sign Ne Briši element Da Generiranje učestalih itemsetova Kraj Računanje pouzdanosti Pouzd. >= min_pouzd Ne Da Briši itemset Generiraj jako pravilo

4. Algoritam FP-Growth Izgrađuje kompaktnu strukturu FP-stabla Komprimira ulazni skup podataka Preslikavanje transakcija na staze Preklapanje staza

5. Implementacija algoritma Apriori Generiranje učestalih itemsetova Iterirajući princip (engl. Brute force) Princip Apriori Skup podataka koji sadrži K elemenata može potencijalno generirati 2K–1 učestalih itemsetova

Iterirajući princip generiranja učestalih itemsetova Računanje support count vrijednosti svakog kandidata Uspoređivanje svakog kandidata sa svakom transakcijom Zahtjeva O(NMw) usporedbi Reduciranje broja ukupnih usporedbi ili reduciranje broja kandidata

Apriori princip generiranja učestalih itemsetova Teorem: Ako je neki itemset učestal, onda su i svi itemsetovi izvedeni iz njega učestali. Antimonotonost mjere signifikantnosti Podrezivanje na temelju signifikantnosti Smanjenje eksponencijalnog prostora kandidiranih itemsetova

Iterirajuća metoda: 6 1 + 6 2 + 6 3 = 6 + 15 + 20 = 41 Princip apriori: 6 1 + 4 2 + 3 3 = 6 + 6 + 1 = 13 Smanjenje broja generiranih kandidada za 68%

Generiranje asocijativnih pravila Učestali k-titemset -> 2K–2 asocijativnih pravila Itemset W razdvaja se na dva ne prazna poditemseta, U i W-U, takvih da implikacija { U } → { W – U } zadovoljava prag minimalne pouzdanosti I = {a, b, c} : {a, b} → {c}, {a, c} → {b}, {b, c} → {a}, {a} → {b, c}, {b} → {a, c} i {c} → {a, b}. {a, b} → {c} : c( {a, b} → {c} ) = σ({a, b, c})/σ({a, b}), c(X → Y) = σ(X ∪ Y ) / σ(X)).

6. Parsiranje ulaznih skupova podataka Postojeći skupovi podataka većinom imaju kategorički formatirane podatke

7. Usporedba vlastite implementacije s već postojećim rješenjima Weka - programski proizvod koji je kreiran s ciljem rješavanja problema rudarenja podataka (engl. data mining problems) Testni skup podataka: BREAD,MILK,SALT,CHOCOLATE,BEER,JUICE,BANANAS,ORANGE,ICECREAM,EGGS 1,1,1,0,1,0,1,0,0,0 … Minimalan prag signifikantnosti (engl. Minimum support) = 0.14 Minimalan prag pouzdanosti (engl. Minimum confidence) = 0.5 Ukupan broj transakcija je 1000

Splunk Weka

Splunk Weka

Zapisi kongresnog izglasavanja u SAD-u 1984 Odgovori svakog člana kongresa SAD-a na 16 pitanja koja su provedena 1984. godine kroz anketu + dodatna varijabla = 17 diskretnih kategoričkih varijabli Minimalan prag signifikantnosti = 0.5 Minimalan prag pouzdanosti = 0.5 Ukupno 435 primjeraka

Zapisi potrošačke košarice Binarni kategorički podatci Set podataka ukupno sadrži 781 transakciju te 219 različitih varijabli. Minimalan prag signifikantnosti = 0.5 Minimalan prag pouzdanosti = 0.7

8. Zaključak Neočekivane manje razlike u rezultatima Očekivan puno lakši postupak implementacije pravila Algoritamski donesen zaključak odgovara zaključku do kojeg bi došli vlastitim zaključivanjem (engl. Cool?!  ) Algoritmi asocijativnih pravila mogu proizvesti zaključke široke životne primjene