Presentation is loading. Please wait.

Presentation is loading. Please wait.

INFORMATION RETRIEVAL AND EXTRACTION 作業: Program 1 第十四組 組員:林永峰、洪承雄、謝宗憲.

Similar presentations


Presentation on theme: "INFORMATION RETRIEVAL AND EXTRACTION 作業: Program 1 第十四組 組員:林永峰、洪承雄、謝宗憲."— Presentation transcript:

1 INFORMATION RETRIEVAL AND EXTRACTION 作業: Program 1 第十四組 組員:林永峰、洪承雄、謝宗憲

2 一、作業平台  CPU 速度 : Athlon 1G  RAM 大小 : 384MB  作業系統 :Windows 2000  使用語言 : Java

3 二、使用的 Indexing 方法  先用 Hash Table 將 Key 跟對應的文件 (DOCNO) 存在記憶體。  然後將 key 當 file name ,文件為 data ,存成 Inverted index ,有 55,379 個 file 。  每次讀進十個檔案,在記憶體中,先做成 Hash Table ,再寫入檔案,建索引檔。  因為磁碟上的檔案格式,為有良好的建檔 格式,所以相當好搜尋。

4 三、建 Index 相關資料  建檔耗費時間 : 6 小時 :21 分 :46 秒  建檔所需空間 : 資料大小 :129MB 磁碟空間 :531MB 磁碟空間 :531MB Index 有 55,379 個 Index 有 55,379 個  Search time : 大約 0.3~5 秒  其他: 一次能夠搜尋到 1000 筆

5 四、程式畫面

6 五、程式架構 詳 註:此架構參考 書名: Information Retrieval ,作者不詳

7 六、建索引之心得  記憶體之考慮,因為文件太多,不能將所 有資料,在記憶體中一次建完 Index ,所以 應該外部處理,再分別 Merge 起來。  Stemming ,方法找到有 Poter 跟 Lovins 兩 種,測試後, Lovins 的效能比 Poter 好。  記憶體中的文件資料或查詢技巧,運用 Hash Table 及 Set 的技巧來實作。

8 七、參考書目  Modern Information Retrieval by R. Baeza-Yates and B. Ribeiro-Neto, Addison-Wesley, 1999.  Information retrieval 作者不詳. 作者不詳.


Download ppt "INFORMATION RETRIEVAL AND EXTRACTION 作業: Program 1 第十四組 組員:林永峰、洪承雄、謝宗憲."

Similar presentations


Ads by Google