Presentation is loading. Please wait.

Presentation is loading. Please wait.

TopX Rene Fischer.

Similar presentations


Presentation on theme: "TopX Rene Fischer."— Presentation transcript:

1 TopX Rene Fischer

2 TopX Čo je to TopX? Čo je to top-k získavanie dát?
je to nástroj pre získavanie top-k informácií/dát z textových a polo-štruktúrovaných dát Čo je to top-k získavanie dát? ide o získanie k prvkov zo skupiny dát, ktoré najlepšie vyhovujú položenému dotazu Dotazovací jazyky II TopX

3 Osnova prednášky Všeobecne o Top-X Architektúra Top-X
Interná reprezentácia dotazu Skóre model Základné spracovanie dotazu Dotazovací jazyky II TopX

4 Výhody TopX Po získaní daných top-k prvkov, ukončuje ďalšie prehľadávanie Podpora pre neurčité a nejasné(vague) vyhľadávanie na 2 typoch podmienok dotazu obsahové štrukturálne Dotazovací jazyky II TopX

5 Pôvod XML dát Mnoho zdrojov Často bez schém
Heterogénne štruktúry a anotácie znemožňujú použitie dotazovacích jazykov ako je XPath a XQuery Dotazovací jazyky II TopX

6 TopX model podporuje full-text obsahové podmienky
značka-výraz(tag-term) kombinácie traverzovacie podmienky pre všetky XPath osi absolútne relatívne Ontologicky založené relácie výrazov(terms) a názvy značiek(tag names) ako podobnostné podmienky Dotazovací jazyky II TopX

7 Typický príklad //book[about(., Information Retrieval XML) and about(.//reference, PageRank)] //author[about(.//affiliation, Standford)] v jazyku NEXI Čo ním vlastne hľadáme? autorov kníh o „Information Retrieval XML“, ktoré obsahujú následníkov pomenovaných ako „reference“ a „affilation“ s obsahom „PageRank“ a „Standford“ ľudsky povedané : autorov kníh o získavaní dát z XML, odkazujúcich sa na PageRank, zo Standfordu Dotazovací jazyky II TopX

8 Ale... ...napriek dátam presne vyhovujúcim týmto podmienkam, by to malo prípadne nájsť aj autorov kníh napr. o „statistical language models for semistructured dat“, ale radené nižšie ako presné zhody autori nie zo „Standfordu“ ale napr. z „Berkley“ nie autorov kníh, alebo napríklad monogramov, výskumných článkov ... Dotazovací jazyky II TopX

9 Niečo o Top-K algoritmoch
algoritmy, tiež známe ako limitné algoritmy(threshold algorithms) algoritmus končí po dosiahnutí určitého limitu spočívajú v prehľadávaní udržiavaných invertovaných indexov zostupne zoradených za výrazmi, hodnotami atribútov vhodné udržiavanie intervalov skóre a limít pre top-k kandidátov umožňuje prehľadávanie ukončiť po nájdení top-k prvkov, následkom čoho stačí algoritmom často prehľadať iba krátke časti zoznamov Dotazovací jazyky II TopX

10 Odbočka - Invertovaný index
indexová dátová štruktúra – mapuje výskyt slov v textoch, dokumente, dokumentoch 2 typy pamätajúci si referencie na dokumenty v ktorých sa slovo/výraz nachádza Record level inverted index plus pamätajúci si aj jeho pozíciu v rámci dokumentu vhodné pre full-text vyhľadávanie Word level inverted index ( ) Dotazovací jazyky II TopX

11 Odbočka 2 - Invertovaný index - príklad
texty T1 = „it is what it is“ T2 = „what is it“ T3 = „it is a banana“ Record level inverted index "a": {2} "banana": {2} "is": {0, 1, 2} "it": {0, 1, 2} "what": {0, 1} Word level inverted index "a": {(2, 2)} "banana": {(2, 3)} "is": {(0, 1), (0, 4), (1, 1), (2, 1)} "it": {(0, 0), (0, 3), (1, 2), (2, 0)} "what": {(0, 2), (1, 0)} Dotazovací jazyky II TopX

12 Hlavné problémy riešené TopX
skóre a indexové zoznamy sú robené pre samostatné XML elementy potreba agregovať skóre na úroveň dokumentu, XML pod-stromu – teda 2 rôzne granuality spracovania dotazu model pre skóre musí zvažovať aj špecifickosť obsahu výrazu v kombinácií s názvom elementu/atribútu napr. výraz „transaction“ by mal byť významný v elementoch <section> a <caption> ale nie v <journalname> Dotazovací jazyky II TopX

13 Hlavné problémy 2 relevantné medzivýsledky musia byť testované na spĺňanie traverzovacej podmienky dotazu čo môže vieš k „drahým“ náhodným prístupom(random access) na disk miesto vynútenia konjunktívneho vyhodnocovania dotazu, je požadované uvoľniť traverzovacie podmienky a radiť dokumenty pomocou kombinácie obsahového skóre a počtu splnených traverzovacích podmienok Dotazovací jazyky II TopX

14 Hlavné problémy 3 efektívna stratégia vyhodnocovania dotazu a prerezávanie(prunning) kandidátov musí brať v úvahu odhad oboch agregovaného skóre traverzovacie podmienky možnosť uvoľniť výrazové podmienky, názvy značiek použitím podobnosti založenie na ontológii alebo tezauru. napr : dotaz na “<book>” o “XML” by mal brať v úvahu „<monograf>“ o “semistructured data” ako kandidáta na výsledok Dotazovací jazyky II TopX

15 Hlavné komponenty systému
Dotazovací jazyky II TopX

16 Hlavné komponenty systému
môžeme ich rozdeliť do 2 hlavných skupín na vkladanie dát(data-entry) spracujúce dotaz(query-time) Dotazovací jazyky II TopX

17 Hl.komp. – 1. Indexer & Crawler
Dotazovací jazyky II TopX

18 Hl.komp. – 1. Indexer & Crawler
skupina vkladania dát pri vložení nového dokumentu je dokument parsovaný dáta sú analyzované vytvorenie alebo updatovanie indexových štruktúr Crawler ak sa jedná o dáta z webu, intranetu, ..., ktoré sa hyper-linkovo odkazujú, crawler ich môže traverzovať a zbierať dokumenty Dotazovací jazyky II TopX

19 Hl.komp. – 2. Ontology Service
Dotazovací jazyky II TopX

20 Hl.komp. – 2. Ontology Service
Komponenta, ktorá voliteľne spravuje tezaurus alebo „ľahšiu“ ontológiu s rôznymi druhmi sématnických relácií Dotazovací jazyky II TopX

21 Odbočka – Ontológia je ... výslovný (explicitní) popis určité problematiky. Je to formální a deklarativní reprezentace, která obsahuje glosář (definici pojmů) a tezaurus (definici vztahů mezi jednotlivými pojmy). Ontologie je slovníkem, který slouží k uchovávání a předávání znalosti týkající se určité problematiky. ( ) Dotazovací jazyky II TopX

22 Hl.komp. - 3. Procesor dotazov
Dotazovací jazyky II TopX

23 Hl.komp. – 3. Procesor dotazov
pri spracovaní dotazu, procesor dekomponuje dotaz vyvolá top-k algoritmus okrem toho má nastarosti udržovať medzivýsledky a kandidátov v prioritnej fronte plánuje sekvenčné náhodné prístupy do pred-počítaného indexového zoznamu – ide o multi-vláknovú architektúru procesor má k dispozícií viacero komponent(4.-6.), ktoré môžu byť na vyžiadanie zapojené a poskytovať prostriedky pre zmenšenie pracovného času Dotazovací jazyky II TopX

24 Hl.komp. – 4. Index Access Scheduler
Dotazovací jazyky II TopX

25 Hl.komp. – 4. Index Access Scheduler
Plánovač prístupu k indexom poskytuje množinu plánovacích stratégií pre usporiadaný a náhodný prístup k prvkom indexov. napr. jednoduché heuristiky, ktoré sú rozumne efektívne s veľmi nízkou réžiou pokročilé stratégie založené na pravdepodobnostných cenových modeloch, s lepšou redukciou prístupov, ale vyššou réžiou Dotazovací jazyky II TopX

26 Hl.komp. – 5. Propabilistic Candidate Prunning
Dotazovací jazyky II TopX

27 Hl.komp. – 5. Propabilistic Candidate Prunning
Pravdepodobnostné prerezávanie(stromu) kandidátov založený na matematických modeloch predpovede skóre kandidátov odhad výberu v XML elementov umožňuje to systému odhodiť kandidátov, u ktorých je malá pravdepodobnosť, že by sa dostali do top-k s kontrolovateľnou garantovanou mierou risku Dotazovací jazyky II TopX

28 Hl.komp. – 6. Dynamic Query Expansion
Dotazovací jazyky II TopX

29 Hl.komp. – 6. Dynamic Query Expansion
Dynamické rozširovanie dotazu komponenta mapuje kľúčové slová dotazu do konceptov v prístupnom tezaure alebo ontológií a inkrementálne generuje/rozširuje kandidátov je to prekladané s aktuálnym spracovaním dotazu Dotazovací jazyky II TopX

30 Jazyky dotazovania Podpora 2 typov zápisu dotazov
XPath 2.0 Full-Text jazyk NEXI podpora pre XPath.ovske osy descendant ≡ „//“ self ≡ „.“ operátor about obdoba ftcontains typický príklad dotazy v NEXI : //article[//bib[about(.//item, W3C)]] //sec[about(.//title, XML retrieval)] //par[about(., native XML databasese)] Dotazovací jazyky II TopX

31 Dátový model na dáta sa budeme dívať ako na stromový model pre polo-štruktúrované dáta ignorujú sa ľubovoľné metadata( <!...>) odkazy vo forme XLink alebo ID/IDRef atribútov s atribútmi je zachádzané ako s „deťmi“(priami potomci) príslušného uzlu textové uzly sú asociované s priamym predchodcom Dotazovací jazyky II TopX

32 Pripomenutie príkladu
//article[//bib[about(.//item, W3C)]] //sec[about(.//title, XML retrieval)] //par[about(., native XML databasese)] Dotazovací jazyky II TopX

33 Počiatočný tvar stromu/grafu príkladového dotazu
Dotazovací jazyky II TopX

34 Dotazovací model cieľový element(target element)
najpravejší, top-level uzlový test na pozíciu na ceste všetky ostatné uzly označnované ako podporné elementy(support elements) cieľové elementy dotazu určujú granualitu výsledku v našom príklade je cieľovým elementom „par“ „article“, „bib“, „item“, „sec“, „title“ sú podporné elementy Dotazovací jazyky II TopX

35 Dotazovací model 2 použitím osí pre spätný smer, by mohli v grafe dotazu vytvoriť cyklus TopX je momentálne obmedzený na DAGy orientované acyklické grafy(Directed Acyclic Graph) Dotazovací jazyky II TopX

36 Interná reprezentácia dotazu
Interpreter dotazu analyzuje dotaz dekomponuje ho do navigačných(navigational) podmienok obsahových podmienok podmienky potom tvoria uzly DAG grafu uzly sú spojené tipovanými hranami ktoré budú predstavovať štrukturálne obmedzenia každá hrana bude odpovedať nejakej XPath ose Dotazovací jazyky II TopX

37 Interná reprezentácia dotazu 2
Dotazovací jazyky II TopX

38 Interná reprezentácia dotazu 3
v našom názorovom príklade teda výskyt elementov „section“ a „title“ sú navigačné podmienky(teda aj všetky nelistové uzly) potreba výskytu výrazov „XML“ a „retrieval“ sú obsahové podmienky(teda aj všetky listy) potreba, aby element „section“ bol spojený s „title“ cez osu nasledovníka(descendant) je štrukturálne obmedzenie(teda aj každá hrana) po parsovaní, je dotaz interne reprezentovaný ako DAG, takže nezávisle na použitom jazyku Dotazovací jazyky II TopX

39 Interná reprezentácia dotazu 4
Hlavnými stavebnými kameňmi pre spracovanie dotazu sú tzv. značka-výraz páry(tag-term pairs) vznikajú spojením tokenov z „about“ operátoru s ich rodičmi v dotaze potrebujeme udržať aj informáciu o tom, že niektoré značka-výraz páry patria k rovnakému elementu, medzi patričné vrcholy sa pridávajú hrany reprezentujúce os „ja“(self) Dotazovací jazyky II TopX

40 Interná reprezentácia dotazu 5
Dotazovací jazyky II TopX

41 Interná reprezentácia dotazu 6
Branie v úvahu hrany patriace do tranzitívneho uzáveru doterajšieho grafu táto úprava je používaná, v prípade, že žiaden kandidát nespĺňa všetky pôvodné štrukturálne podmienky v takom prípade sa uvoľňujú štrukturálne podmienky pre dosiahnutie aspoň aproximovaných výsledkov Dotazovací jazyky II TopX

42 Interná reprezentácia dotazu 7
Dotazovací jazyky II TopX

43 Skóre model Hlavné stavebné bloky
značka-výraz pár – každý získa pred-vypočítané relevantnostné skóre navigačné podmienky, ktoré nie sú súčasťou značka-výraz páru, prispievajú do agregovaného skóre matchovaného pod-stromu v dokumente statickou skóre hodnotou ak všetky tranzitivitou vložené štr. podmienky vychádzajúce z daného uzla sú splnené Dotazovací jazyky II TopX

44 Skóre model 2 Môžu nastať prípady, že 1 element splňujúci podmienky dotazu, bude podmienky spĺňať v rámci dokumentu vo viacerých podstromoch preto pre každý takýto cieľový element vrátime maximum zo skôr všetkých podstromov, v rámci ktorých element spĺňa podmienky V prípade požadovania výsledku ako celý dokument, obsahujúci element spĺňajúci podmienky, bude dokumentu priradené maximum zo skôr všetkých elementov splňujúcich podmienky Dotazovací jazyky II TopX

45 Skóre model 3 Podpora pre pokročilé vyhľadávacie vlastnosti
ako sú napr. povinné kľúčové slová, negácie, matchovanie fráz v rámci about operátoru Model je aplikovateľný pre 2 typy interpetácie konjunktívna – kde každá podmienka musí byť splnená „andish“ – kde konečné poradie je vyhodnotené pomocou agregácie skóre, kde niektoré podmienky nemusia byť splnené vôbec Dotazovací jazyky II TopX

46 Obsahové skóre Element e spĺňa značka-výraz(tag-term) obsahovú podmienku ak e matchuje meno značky(tag) a podstrom s koreňom e, obsahuje výraz(term) score(e, A=t) ≡ skóre elementu e s menom A, na obsahovanie výrazu t Dotazovací jazyky II TopX

47 Obsahové skóre 2 occurence = počet výskytov výtazu t v elemente e
specificiy = odvodená z počet elementov so značkou A v celom(pravdepodobne) dokumente ako predchádzajúci, ale obsahujúci výraz t size = zvažuje veľkosť normalizovaného podstromu/elementu(som veľmi nepochopil) Dotazovací jazyky II TopX

48 Obsahové skóre 3 Vzorec pre výpočet skóre je ešte ohýbaný kvôli vyhnutiu sa extrémnym prípadom Pre about operátor s viac výrazmi pripojenými k elementu e, bude agregované skóre e spočítané ako suma cez skóre elementu každej dvojice značka-term Dotazovací jazyky II TopX

49 Štrukturálne skóre model v podstate ráta počet splnených navigačných podmienok pre kandidátov a to pripája k matchovaním obsahovým podmienkam pre každú splnenú navigačnú podmienku, ktorá nie je súčasťou značka-výraz páru, priradí malú, konštantnú, nastaviteľnú hodnotu c každá navigačná podmienka odpovedá presne 1 uzlu v dotazovom DAG grafe navigačná podmienka je splnená elementom e v dokumente d, ak všetky štrukturálne obmedzenia s tranzitívne rozšírenom grafe splnené teda hrany vychádzajúce z elemenu e Dotazovací jazyky II TopX

50 Štrukturálne skóre 2 Dotazovací jazyky II TopX

51 Štrukturálne skóre 3 bez „self“ ôs, graf obsahuje 14
štrukturálne perfektný výsledok by sa zhodoval vo všetkých 14 hranách Dotazovací jazyky II TopX

52 Skóre elementu pre každý dokument je vrátený usporiadaný zoznam cieľových elementov - T(d) pre výpočet skóre pre element e z T(d), je potreba nájsť v strome dokumentu d vhodné vsadenia DAG grafu dotazu – Trees(e) pre každý strom k z Trees(e), je skóre k vypočítané ako suma všetkých skóre splnených obsahových(C) a štrukturálnych podmienok(N) takých stromov pre e môže byť viac, preto definujeme skôre pre e ako : Dotazovací jazyky II TopX

53 Skóre elementu vysoká hodnota c nízka hodnota c
hodnota c nám určuje, či uprednostňujeme plnenie štrukturálnych podmienok, alebo hodnotových podmienok vysoká hodnota c dominujú štrukturálne požiadavky uprednostnenie výsledkov podporujúce podporné elementy nízka hodnota c zvýhodňuje kandidátov splňujúcich obsahové podmienky nevadia nejaké nesplnené štrukturálne podmienky Dotazovací jazyky II TopX

54 Skóre dokumentu v prípade požadovania výsledkov ako celých dokumentov, zdedí dokument d skóre svojho najlepšieho cieľového elementu Dotazovací jazyky II TopX

55 Povinné výrazy Nech M, podmožina {1, ..., m}, je množina obsahových podmienok značených so znakom „+”, ktorý má naznačovať ich povinnosť Skóre pre kandidátsky element e dokumentu d bude definované ako kde βi = 1 ak i je z M ináč 0 Dotazovací jazyky II TopX

56 Negácie a frázy frázová obsahová podmienka je považovaná za splnenú iba ak full-content elementu obsahuje frázu min. raz jeho skóre za túto frázu bude sumou skór za tokeny fráze frázové negácie podobne ako negácie výrazov výskyt negovanej obsahovej podmienky v dokumente by nemal celý dokument vyradiť z procesu výberu kandidáta dokument by mal dostať iba istú „penalizáciu“ alebo dostať pridané za nevyskytovanie sa podmienky Dotazovací jazyky II TopX

57 Spracovanie dotazu TopX procesor dotazu je zodpovedný za
top-k spracovanie založené na prehľadávaní indexov udržiavanie kandidátov kostra algoritmu spočíva v Kombinovanom algoritme(Combined Alboritm-CA Dotazovací jazyky II TopX

58 CA Algoritmus kombinuje
sekvenčné prehľadávanie invertovaných zoznamov indexov náhodné vyhľadávanie indexových záznamov Základom CA je „round-robin“ podobná procedúra – zotriedený prístup(sorted access – SA) ale multivláknová a dávková „round robin“ typ algoritmu plánovania proces odosielajúci výstup spať na vstup SA prechádza invertované indexy každý predstavuje zoznam všetkých elementov uspokujúcich jeden výraz-značka podmienku sú zotriedené zostupne podľa skóre Dotazovací jazyky II TopX

59 Spracovanie dotazu 2 Hlavný algoritmus je rozšírení o plánovač náhodného prístupu(random access - RA) rieši plánovanie náhodných prístupov pre riešenie ešte nerozhodnuté podmienok umožňuje riešenie navigačných a zložitejších full-text podmienok, ktoré nie sú riešiteľné prístupom k zotriedeným indexom, resp. by tieto operácie boli príliš drahé Dotazovací jazyky II TopX

60 Indexové štruktúry TopX využíva
2 hlavné indexy pre obsahové podmienky štrukturálne podmienky 1 pomocný index pozícií pre frázové podmienky Všetky indexy sú implementované v relačnom SRBD pomocou B+ stromov Dotazovací jazyky II TopX

61 Index – značka-obsah pre každý značka-obsah pár máme inverotvaný index : (tag, term, docid, pre, post, level, score, maxscore) pre/post – je pre/post order kódovanie elementu level – hĺbka v strome scóre – je skóre pre danú podmienky v elemente maxscore – max. skóre pre danú značka-výraz podmienku v rámci elementov dokumentu záznamy sú zotriedené podľa – maxscore, docid, score použivaný pre oba, sekvenčné prehľadávanie aj náhodný prístup Dotazovací jazyky II TopX

62 Index – značka-obsah 2 Dôvod usporiadania značka-výraz indexu
chceme spracovať matchujúce elementy v zostupnom poradí ale zároveň chceme spracovať všetky elementy v rámci rovnakého dokumentu a značka-výraz zhody dané zoradenie nám dáva zhody pre najväčšie skóre a zhromažďuje zároveň všetky elementy daného dokumentu Dotazovací jazyky II TopX

63 Index - štrukturálny zakódovanie polohy elementu v dokumente, ktoré nám dáva možnosť efektívneho testu pre XPath osy (tag, docid, pre, post, level) tieto záznamy sú pristupované iba náhodným vyhľadávaním pre dané elementy používaný iba pre náhodný prístup Dotazovací jazyky II TopX

64 Index – štrukturálny 2 Navigácia medzi XPath osami pomocou pre/post hodnôt test, či e1 je predok elementu e2 ak [pre(e1) < pre(e2)] AND [post(e1) > post(e2)] s pomocou ďalšej hodnoty, level, je možné analogicky určiť všetkých 13 XPath ôs Dotazovací jazyky II TopX

65 Index - pozičný pre každý výraz máme záznam
(term, docid, pos) pos – pozícia výskitu termu v dokumente používané pre testovanie matchovania fráze používaný iba pre náhodný prístup Dotazovací jazyky II TopX

66 Spracovanie dotazu 3 nech dotaz pozostáva z
m obsahových podmienok n štrukturálnych podmienok TopX, za účelom ohodnotenia a usporiadania, prehľadáva všetky značka-výraz indexi pre obsahové podmienky v dodanom poradí Dotazovací jazyky II TopX

67 Spracovanie dotazu 4 algoritmus prevádza iteratívne
prečíta záznamy aktuálne čítaného indexu pre daný dokument vyhovujúce záznamy sú hashovane spojené s dočasnými výsledkami vyhľadávania v predchádzajúcich indexoch pre daný dokument s týmto spojením je zároveň prevádzaná kontrola na navigačných podmienok pomocou pre/post poradových čísel elementov skóre sú agregované a updatované Dotazovací jazyky II TopX

68 Zpracovanie dotazu 5 Spôsob počítania skóre nám dáva určitú nejasnosť ohľadom konečného skóre kandidátov to implikuje udržiavanie nie len momentálnych top-k kandidátov, ale aj všetkých možných, ktorý by sa medzi top-k ešte mohli dostať existujú 2 prioritné fronty aktuálnych top-k výsledkov kandidátov na top-k výsledky Dotazovací jazyky II TopX

69 XPath vyhodnocovanie Po každom výbere bloku elementov dokumentu pre nejakú z obsahových podmienok, je tento blok porovnávaný ostatnými blokmi elementov daného dokumentu, ktoré sme dostali z prehľadávania indexov pre ostatné obsahové podmienky sú testované štrukturálne podmienky je prípadne agregované skóre Dokumenty, ktoré máju v každom bloku aspoň 1 element, spĺňajú všetky štrukturálne podmienky doteraz testované sú ponechané na ďalšie testovanie zvyšný kandidáti môžu byť z dôvodu šetrenia „drahej“ pamäte vypustený Dotazovací jazyky II TopX

70 XPath vyhodnocovanie Dotazovací jazyky II TopX

71 Plánovanie náhodných prístupov
Definovanie „drahých“ pedikátov ak nieje možné ho vyriešiť cez prístup k zoradeným indexom alebo by takéto riešenie bolo veľmi drahé značka podmienky(teda bez výrazu), pretože potrebujú prístup do štrukturálneho indexu frázy pretože požadujú prístup do pozíciového idexu negácie – potreba skúmania celých zoznamov Dotazovací jazyky II TopX

72 Min-probe heuristika Odkladanie testovania drahých predikátov pomocou RA tak dlho, ako je to možné Testy prevádzať iba v prípade, že by ich vyhodnotenie viedlo k posunu kandidáta do top-k Udržiavanie hodnoty skóre, ktoré by prvok nadobudol v prípade platnosti predikátu Dotazovací jazyky II TopX

73 Ben-probe plánovanie Min-probe heuristika nebrala v úvahu pomer výhoda/cena náhodného vs. zoradeného prístupu a neuvažovala nikdy o RA pri značka-term podmienkach Ben-probe – pomocou cenového modelu vyberá nasledujúci krok(RA/SA) Dotazovací jazyky II TopX

74 Ben-probe plánovanie 2 Určuje pravdepodobnosť pre dokument d,
d už bol spracovaný pomocou indexov E(d) pomocou E’(d) nie že sa kvalifikuje do konečného top-k, pomocou prediktoru skóre a odhadcu výberu(selectivity estimator) výpočty prediktoru a odhadcu by bolo zbytočne ukazovať a vysvetľovať Dotazovací jazyky II TopX

75 Expanzia dotazu Metóda pre zlepšenie odozvy(recall) pre zložité dotazy
Tradične používané metódy výber rozširovacích výrazov, ktorých tematická podobnosť je nad určitou hranicou sú sprevádzané problémami hranice musia byť „opatrne“ a ručne nastavené nevhodne zvolená hranica môže spôsobiť žiadne zlepšenie „zriedenie“ témy viesť k dotazom s veľkým množstvom výrazov čo spôsobuje stratu efektivity vyhodnocovania Zvlášť, pre XML, kde sa expanzia týka aj značiek Dotazovací jazyky II TopX

76 Expanzia dotazu 2 Technika použitá v TopX rieši tieto problémy pomocou dynamické a inkrementálneho zlučovania inverovaných zoznamov pôvodných výrazov s výrazmi potenciálne použiteľnými k expanzii Táto metóda funguje ako u výrazov, tak u značiek Dotazovací jazyky II TopX

77 Expanzia založenia na tezaure
Generovanie potenciálnych výrazov/významov pre expanziu pomocou databáze založenej na tezauru - WordNet.e Dotazovací jazyky II TopX

78 Odbočka - WordNet je najväčšia elektronicky dostupná databáza anglických slov. podst. mená, slovesá, prídavné mená a príslovky sú zgrupované do skupín známych(cognitive) synoným – synsets, kde každá predstavuje rozdielny koncept Dotazovací jazyky II TopX

79 „Od-významovanie“ významu slova
Klasické metódy rozširovania v IR trpia Viacznačnosťou – slovo má viac významov závislých na kontexte Synonymitou – viac slov má rovnaký význam Za účelom vyriešenia týchto problémov je výraz mapovaný do WordNet konceptu pomocou porovnávania určitej formy kontextu výrazu s kontextom synsetov(a ich ontologických susedov) Dotazovací jazyky II TopX

80 Výber z významov Pomocou slovných štatistík pre lokálny kontext výrazu a kandidátskeho významu kontext výrazu je tvorený dotazom kontext synsetov tvorené hyponýma – podriedený pojem inému pojmu hypernýma – nadriadený pojmu inému hyponými hypernýmov Dotazovací jazyky II TopX

81 Porovnávanie kontextov
Kontexty kandidátov sú pomocou miery porovnávané na podobnosť s kontextom výrazu. Často používané miery kosínová podobnosť(?) Kullback-Leiber divergecia Vybraný je synset, ktorého kontext je najmenej vzdialený od kontextu výrazu Dotazovací jazyky II TopX

82 Voliteľnosť expanzie TopX môže expandovať všetky výrazy, alebo iba tie, ktoré užívateľ označí pomocou operátora „~“ Dotazovací jazyky II TopX

83 Záver Zaujímavý a pomerne premyslený systém
Žiaľ pre mňa osobne, strašne zložitý text, ktorý mi dosť bránil k pochopeniu niektorých častí... Otázky ? Dotazovací jazyky II TopX

84 Zdroje Článok vydaný v „The VLDB Journal(2008) 17:81-115“
Názov : „TopX: efficient and versatile tok-k query processing for semistructured data“ Autori : M.Theobald, H.Bast, D.Majumdar, R.Schenkel, G.Weikum Informácie o „WordNet“ Niektoré definície Dotazovací jazyky II TopX


Download ppt "TopX Rene Fischer."

Similar presentations


Ads by Google