Presentation is loading. Please wait.

Presentation is loading. Please wait.

Vyhľadávanie informácií08.11.20071 Softvérové knižnice a systémy Vyhľadávanie informácií Michal Laclavík.

Similar presentations


Presentation on theme: "Vyhľadávanie informácií08.11.20071 Softvérové knižnice a systémy Vyhľadávanie informácií Michal Laclavík."— Presentation transcript:

1 Vyhľadávanie informácií08.11.20071 Softvérové knižnice a systémy Vyhľadávanie informácií Michal Laclavík

2 Vyhľadávanie informácií08.11.20072 Tools IR libraries & engines –Lucene –Egothor –Xapian –mnoGoSearch Lucene –Nutch –Porty –SearchBlox

3 Vyhľadávanie informácií08.11.20073 Lucene Indexing IndexWriter Directory –FSDirectory, RAMDirectory Analyzer Document –Collection of fields Field –Keyword, UnIndexed, UnStored, Text

4 Vyhľadávanie informácií08.11.20074 Lucene Indexing 2 Indexing Dates Boosting –Field.setBoost Indexing Numbers –Adding zeros, Analyzers Sorting –Not tokenized, Field Keyword Directory –FSDirectory, RAMDirectory Term vector –Field.Unstored(“subject”,subject,true);

5 Vyhľadávanie informácií08.11.20075 Lucene Searching IndexSearcher Term Query –Boolean, Phrase, Prefix, Range, Fuzzy (levenstein) TermQuery Hits

6 Vyhľadávanie informácií08.11.20076 Lucene Searching 2 Query q = QueryParser.parse(“search”, “field”, new SimpleAnalyzer()); –+pubdate:[20040101 TO 20041231] Java AND (Jakarta OR Apache) –Query.toString() Scoring –Similarity, DefaultSimilarity Sorting –By field, by multiple MultiFieldQueryParser Filtering

7 Vyhľadávanie informácií08.11.20077 Lucene Searching 3 Custom Sort Method –Distance search

8 Vyhľadávanie informácií08.11.20078 Lucene Analysis XY&Z Corporation – xyz@example.com WitespaceAnalyzer –[XY&Z] [Corporation] [–] [xyz@example.com] SimpleAnalyzer – kills numbers –[XY] [Z] [corporation] [xyz] [example] [com] StopAnalyzer –[XY] [Z] [corporation] [xyz] [example] [com] StandardAnalyzer –[XY&Z] [corporation] [xyz@example.com]

9 Vyhľadávanie informácií08.11.20079 Lucene Analysis 2 Indexing Querying –Query parse, QueryTerm not Analyzed Results –Tokens, position type –Terms, position TokenStream, Tokenizer, TokenFilter

10 Vyhľadávanie informácií08.11.200710 Lucene Analysis 3 Synonyms, aliases –Same position (phrase query) UTF-8 –Kodovania, znaky HTML –Content-type Nutch analysis –The quick

11 Vyhľadávanie informácií08.11.200711 SandBox Development tools –Lucli CLI –Luke – toolbox SnowBall analyzer T9 indexing example Highlite BerkleyDB

12 Vyhľadávanie informácií08.11.200712 Lucene Doc format XML –SAX parser Xserces –Digester Apache Jakarta PDF –PDFBox.org –Buildin support HTML –JTidy.sf.net –NekoHTML Word –POI – jakarta project –TextMining.org RTF –Javax.swing.text.rtf

13 Vyhľadávanie informácií08.11.200713 Tools DocSearcher Docco SearchBlox

14 Vyhľadávanie informácií08.11.200714 Lucene Ports CLucene dotLucene Plucene Perl Lupy Python PyLucene GCJ + SWIG

15 Vyhľadávanie informácií08.11.200715 Nutch Build on lucene Fetcher, searcher interface Scalable to several bilions Ranking ??? Hadoop –Implementacia MapReduce

16 Vyhľadávanie informácií08.11.200716 Other Use cases JGuru SearchBlox Alias-i

17 Vyhľadávanie informácií08.11.200717 Linux tools Catdoc –Xsl, doc –openoffice Pdftotext (XPDF) Encoding –enca

18 Vyhľadávanie informácií08.11.200718 Ine kniznice QTag –POS tagging Stemming –Snowball –Potter –Tvaroslovnik, JULS SimMetrics –Podobnosti, levenstein, cosmiera GATE


Download ppt "Vyhľadávanie informácií08.11.20071 Softvérové knižnice a systémy Vyhľadávanie informácií Michal Laclavík."

Similar presentations


Ads by Google