期中考參考解答 Date: 2005/12/14 Multimedia Information Systems.

Slides:



Advertisements
Similar presentations
FCU, Department of ECE, IC Design Research Lab. TEL: # 4945 Pre-SIm , Post-Sim.
Advertisements

1 生物計算期末作業 暨南大學資訊工程系 2003/05/13. 2 compare f1 f2  只比較兩個檔案 f1 與 f2 ,比完後將結果輸出。 compare directory  以兩兩比對的方式,比對一個目錄下所有檔案的相 似程度。  將相似度很高的檔案做成報表輸出,報表中至少要.
布林代數的應用--- 全及項(最小項)和全或項(最大項)展開式
第七章 抽樣與抽樣分配 蒐集統計資料最常見的方式是抽查。這 牽涉到兩個問題: 抽出的樣本是否具有代表性?是否能反應出母體的特徵?
: A-Sequence 星級 : ★★☆☆☆ 題組: Online-judge.uva.es PROBLEM SET Volume CIX 題號: Problem D : A-Sequence 解題者:薛祖淵 解題日期: 2006 年 2 月 21 日 題意:一開始先輸入一個.
:Word Morphing ★★☆☆☆ 題組: Problem Set Archive with Online Judge 題號: 10508:word morphing 解題者:楊家豪 解題日期: 2006 年 5 月 21 日 題意: 第一行給你兩個正整數, 第一個代表下面會出現幾個字串,
Section 1.2 Describing Distributions with Numbers 用數字描述分配.
3Com Switch 4500 切VLAN教學.
Reference, primitive, call by XXX 必也正名乎 誌謝 : 部份文字取於前輩 TAHO 的文章.
What is static?. Static? 靜態 ? class Test { static int staticX; int instanceX; public Test(int var1, int var2) { this.staticX = var1; this.instanceX =
指導教授:陳淑媛 學生:李宗叡 李卿輔.  利用下列三種方法 (Edge Detection 、 Local Binary Pattern 、 Structured Local Edge Pattern) 來判斷是否為場景變換,以方便使用者來 找出所要的片段。
1 Web of Science 利用指引 單元二 瀏覽與處理查詢結果. 2 瀏覽檢索結果 查出的結果,預設以時間排列, 使用者可改變結果的排列方式: 還可以依被引用次數、相關度、 第一作者、刊名、出版年等排序 回到前先查的結果畫面 點選想看資料的完整書目 本館訂購範圍的期刊 全文,便可直接連結.
五小專案 黃詩晴 章乃云. 目錄 計算機 智慧盤 拼圖 記憶大挑戰 數學題庫 心得 參考文獻.
亂數產生器安全性評估 之統計測試 SEC HW7 姓名:翁玉芬 學號:
Review of Chapter 3 - 已學過的 rules( 回顧 )- 朝陽科技大學 資訊管理系 李麗華 教授.
: OPENING DOORS ? 題組: Problem Set Archive with Online Judge 題號: 10606: OPENING DOORS 解題者:侯沛彣 解題日期: 2006 年 6 月 11 日 題意: - 某間學校有 N 個學生,每個學生都有自己的衣物櫃.
: ShellSort ★★☆☆☆ 題組: Problem D 題號: 10152: ShellSort 解題者:林一帆 解題日期: 2006 年 4 月 10 日 題意:烏龜王國的烏龜總是一隻一隻疊在一起。唯一改變烏龜位置 的方法為:一隻烏龜爬出他原來的位置,然後往上爬到最上方。給 你一堆烏龜原來排列的順序,以及我們想要的烏龜的排列順序,你.
STAT0_sampling Random Sampling  母體: Finite population & Infinity population  由一大小為 N 的有限母體中抽出一樣本數為 n 的樣 本,若每一樣本被抽出的機率是一樣的,這樣本稱 為隨機樣本 (random sample)
1. 假設以下的敘述為一未提供 “ 捷徑計算 ” 能力的程式段,試用程 式設計的技巧,使此敘述經此改 寫的動作後,具有與 “ 捷徑計算 ” 之 處理方法相同之處理模式。 if and then E1 else E2 endif.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
Monte Carlo Simulation Part.2 Metropolis Algorithm Dept. Phys. Tunghai Univ. Numerical Methods C. T. Shih.
2009fallStat_samplec.i.1 Chap10 Sampling distribution (review) 樣本必須是隨機樣本 (random sample) ,才能代表母體 Sample mean 是一隨機變數,隨著每一次抽出來的 樣本值不同,它的值也不同,但會有規律性 為了要知道估計的精確性,必需要知道樣本平均數.
JAVA 程式設計與資料結構 第十章 GUI Introdution III. File Chooser  File Chooser 是一個選擇檔案的圖形介面, 無論我們是要存檔還是要開啟檔案,使 用這個物件都會讓我們覺得容易且舒適。
Introduction to Java Programming Lecture 17 Abstract Classes & Interfaces.
:Problem D: Bit-wise Sequence ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10232: Problem D: Bit-wise Sequence 解題者:李濟宇 解題日期: 2006 年 4 月 16.
24-6 設定開始與結束場景中的 程式 最後我們要替這個遊戲收個尾, 幫它把開始 的等待畫面跟結束畫面處理一下。
: The largest Clique ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11324: The largest Clique 解題者:李重儀 解題日期: 2008 年 11 月 24 日 題意: 簡單來說,給你一個 directed.
3-3 使用幾何繪圖工具 Flash 的幾何繪圖工具包括線段工具 (Line Tool) 、橢圓形工具 (Oval Tool) 、多邊星形 工具 (Rectangle Tool) 3 種。這些工具畫出 來的幾何圖形包括了筆畫線條和填色區域, 將它們適當地組合加上有技巧地變形與配 色, 不但比鉛筆工具簡單,
Matlab Assignment Due Assignment 兩個 matlab 程式 : Eigenface : Eigenvector 和 eigenvalue 的應用. Fractal : Affine transform( rotation, translation,
: Happy Number ★ ? 題組: Problem Set Archive with Online Judge 題號: 10591: Happy Number 解題者:陳瀅文 解題日期: 2006 年 6 月 6 日 題意:判斷一個正整數 N 是否為 Happy Number.
: Fast and Easy Data Compressor ★★☆☆☆ 題組: Problem Set Archive with Online Judge 題號: 10043: Fast and Easy Data Compressor 解題者:葉貫中 解題日期: 2007 年 3.
Chapter 2 Getting Started Insertion Sort: 能有效率地排序小數字的演算法 範例 :
: Problem A : MiniMice ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11411: Problem A : MiniMice 解題者:李重儀 解題日期: 2008 年 9 月 3 日 題意:簡單的說,題目中每一隻老鼠有一個編號.
: Ahoy, Pirates! ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11402: Ahoy, Pirates! 解題者:李重儀 解題日期: 2008 年 8 月 26 日 題意:有一個海盜島有 N 個海盜,他們的編號 (id)
: Multisets and Sequences ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11023: Multisets and Sequences 解題者:葉貫中 解題日期: 2007 年 4 月 24 日 題意:在這個題目中,我們要定義.
公司加入市場的決定. 定義  平均成本 = 總成本 ÷ 生產數量 = 每一單位產量所耗的成本  平均固定成本 = 總固定成本 ÷ 生產數量  平均變動成本 = 總變動成本 ÷ 生產數量.
:Nuts for nuts..Nuts for nuts.. ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 10944:Nuts for nuts.. 解題者:楊家豪 解題日期: 2006 年 2 月 題意: 給定兩個正整數 x,y.
資料結構實習-一 參數傳遞.
1 第 4 章 複 因 子 的 應 用複 因 子 的 應 用. 2 移動等額系列 並非 所謂移動系列,是指現值所在的時 間點並非 t = 0. 向 “0” 的左方移動或向 t = “0” 的右 方移動.
1 Introduction to Java Programming Lecture 2: Basics of Java Programming Spring 2008.
公用品.  該物品的數量不會因一人的消費而受到 影響,它可以同時地被多人享用。 角色分配  兩位同學當我的助手,負責:  其餘各人是投資者,每人擁有 $100 , 可以投資在兩種資產上。  記錄  計算  協助同學討論.
: Beautiful Numbers ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11472: Beautiful Numbers 解題者:邱經達 解題日期: 2011 年 5 月 5 日 題意: 若一個 N 進位的數用到該.
Section 4.2 Probability Models 機率模式. 由實驗看機率 實驗前先列出所有可能的實驗結果。 – 擲銅板:正面或反面。 – 擲骰子: 1~6 點。 – 擲骰子兩顆: (1,1),(1,2),(1,3),… 等 36 種。 決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。
Teacher : Ing-Jer Huang TA : Chien-Hung Chen 2015/6/25 Course Embedded Systems : Principles and Implementations Weekly Preview Question CH 2.4~CH 2.6 &
JAVA 程式設計與資料結構 第二十章 Searching. Sequential Searching Sequential Searching 是最簡單的一種搜尋法,此演 算法可應用在 Array 或是 Linked List 此等資料結構。 Sequential Searching 的 worst-case.
演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.
逆向選擇和市場失調. 定義  資料不對稱 在交易其中,其中一方較對方有多些資料。  逆向選擇 出現在這個情況下,就是當買賣雙方隨意在 市場上交易,與比較主動交易者作交易為佳 。
845: Gas Station Numbers ★★★ 題組: Problem Set Archive with Online Judge 題號: 845: Gas Station Numbers. 解題者:張維珊 解題日期: 2006 年 2 月 題意: 將輸入的數字,經過重新排列組合或旋轉數字,得到比原先的數字大,
Linguistics phonetic symbols. 先下載 IPA 字型檔案,執行安裝。 由於這個程式的字型目錄設定錯誤, 所以等重新開機時就會發現字型消失。 所以必須根據以下步驟來讓 Windows 加入 IPA 字型。
Learning Method in Multilingual Speech Recognition Author : Hui Lin, Li Deng, Jasha Droppo Professor: 陳嘉平 Reporter: 許峰閤.
Chapter 10 m-way 搜尋樹與B-Tree
演算法課程 (Algorithms) 國立聯合大學 資訊管理學系 陳士杰老師 Course 7 貪婪法則 Greedy Approach.
1 Introduction to Java Programming Lecture 2: Basics of Java Programming Spring 2009.
INFORMATION RETRIEVAL AND EXTRACTION 作業: Program 1 第十四組 組員:林永峰、洪承雄、謝宗憲.
: Problem E Antimatter Ray Clearcutting ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11008: Problem E Antimatter Ray Clearcutting 解題者:林王智瑞.
Teacher : Ing-Jer Huang TA : Chien-Hung Chen 2015/6/30 Course Embedded Systems : Principles and Implementations Weekly Preview Question CH7.1~CH /12/26.
: Wine trading in Gergovia ★★☆☆☆ 題組: Contest Volumes with Online Judge 題號: 11054: Wine trading in Gergovia 解題者:劉洙愷 解題日期: 2008 年 2 月 29 日 題意:在 Gergovia.
:Commandos ★★★☆☆ 題組: Contest Archive with Online Judge 題號: 11463: Commandos 解題者:李重儀 解題日期: 2008 年 8 月 11 日 題意: 題目會給你一個敵營區內總共的建築物數,以及建築物 之間可以互通的路有哪些,並給你起點的建築物和終點.
函式 Function 東海大學物理系‧資訊教育 施奇廷. 函式簡介 當程式越來越大、越複雜時,程式的維護、 除錯會變得更困難,此時必須引入函式來 簡化程式或將程式分段,將程式重複的部 分改寫為函式,將程式「模組化」 這種作法有下列優點:節省程式發展的時 間、邏輯容易瞭解、程式容易除錯、可分 工合作完成程式.
1 Introduction to Java Programming Lecture 3 Mathematical Operators Spring 2008.
: SAM I AM ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11419: SAM I AM 解題者:李重儀 解題日期: 2008 年 9 月 11 日 題意: 簡單的說,就是一個長方形的廟裡面有敵人,然 後可以橫的方向開砲或縱向開砲,每次開砲可以.
: Finding Paths in Grid ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11486: Finding Paths in Grid 解題者:李重儀 解題日期: 2008 年 10 月 14 日 題意:給一個 7 個 column.
:Problem E.Stone Game ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10165: Problem E.Stone Game 解題者:李濟宇 解題日期: 2006 年 3 月 26 日 題意: Jack 與 Jim.
著作權所有 © 旗標出版股份有限公司 第 14 章 製作信封、標籤. 本章提要 製作單一信封 製作單一郵寄標籤.
:Rings and Glue ★★☆☆☆ 題組: Problem Set Archive with Online Judge 題號: 10301: Rings and Glue 解題者:施博修 解題日期: 2011 年 5 月 18 日 題意:小約翰有了個大麻煩,他不小心將 rings.
幼兒行為觀察與記錄 第八章 事件取樣法.
CH 14-可靠度工程之數學基礎 探討重點 失效時間之機率分配 指數模式之可靠度工程.
: How many 0's? ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 11038: How many 0’s? 解題者:楊鵬宇 解題日期: 2007 年 5 月 15 日 題意:寫下題目給的 m 與 n(m
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
Presentation transcript:

期中考參考解答 Date: 2005/12/14 Multimedia Information Systems

1 第一題 (20%) Imagine you are hired to examine a text retrieval system in vector model, which does not perform well. After the examination, what suggestions you might make for improving its efficiency, and what suggestions you might make for improving its effectiveness? – 這一題主要有兩小題,一是問如何增進運算速度,一是問如何 讓結果更準。但是很多人答非所問 …… – 速度方面:考慮增進速度的方法時,不必考慮準確度,因此有 下列方法。 減少 index term 的數量 – 例如:原系統中有 1000 個 index term ,若減少至 100 個,則可以加速 建立 index 簡化計算式 硬體方面的改良 – 換更快的 CPU 或是加大記憶體 ( 當資料多時可以減少磁碟的存取次數 ) 。

2 第一題 – 準確度方面:考慮增進準確度的方法時,不必考慮速度,因此有 下列方法。 User Feedback 調整參數 ( 大家寫過作業應該知道有些參數調的好,會對準確度有影 響 ) Query expansion Preprocessing( 可以先對文件作一些分類等前處理 ) – 評分方式: 由於這題有 20 分,因此每一小題十分。考慮到此題分數比較重,因 此一個小題至少要寫兩種方法。每一個方法給五分。

3 第二題 (20%) Given the following ranked answers generated by an IR system: D2, D34, D62, D27, D236, D72, D5, D12, D23, D7, and the set of relevant documents for the corresponding query: {D3, D5, D27, D29, D34, D52, D78, D103, D152, D236}. (a) Draw a recall-precision curve. (b) Draw a graph of precision at the relevant document cutoff values 1, 2, 3, and 4. (c) What is its R-precision value? –(c) R 代表的是此 Query 的 relevant documents 的數目。而 R- precision 就是我們的系統找回來的答案中前 R 個的 precision 。 此題中, relevant documents 有十篇,故 R=10 。所以我們計算系 統找回來的答案中排名前十篇的 precision = 0.4 。故 R-precision =0.4 。

4 第二題 Precision (%) Recall (%) 0 –(a) 所畫出來的 Recall-Precision curve 如 下圖所示。其中,橫軸為 Recall 。 在畫 Recall-Precision curve 時的座標 軸都是 % 。

5 第二題 Precision (%) The number of relevant documents have been seen 0 –(b) 所畫出來的 cutoff values 如下圖所示。 由於 cutoff values 是計算系統找回指定數 量的 relevant documents 時,所算出來的 precision 。而本題指定的數目為 1, 2, 3, 4 , 所以橫軸為所指定的數目。

6 第二題 – 評分標準: 此題共 20 分,其中 (a) 和 (b) 各佔 7 分, (c) 佔 6 分。 (a) 和 (b) 座標軸畫錯扣三分,線畫錯扣四分。 (c) 小題可以用解釋的,也可以用算的。基本上只要算出 0.4 就可以了。

7 第三題 (20%) How to construct an inverted index? How to use it to process a phrase query? Why it is a good index structure? –(a) inverted index 主要是兩個部分所組成,一是 vocabulary ,一 是 occurrences 。其中, vocabulary 記載所有的 index term ,並依 照字母順序排序。而 occurrences 則記載相對應的 index term 的 所有出現位置。如下圖: text 出現在 11 和 19 ,則兩個位置都被 occurrences 記錄。 This is a text. A text has many words. Words are made from letters Letters Made Many Text words 60, …… 50, …… 28, …… 11, 19, …… 33, 40, …… vocabularyoccurrences

8 第三題 –(b) 這題題目問的是如何處理 phrase query ,而一個 phrase 通常是 由許多 words 所組成。因此,我們必須先利用 inverted index 來查 出 phrase 中的所有 words 出現的位置。然後再計算這些位置是否 符合 words 之間的順序與距離,若是,則為答案。 例如下圖,如果要找尋的 phrase 為 many words ,則我們利用 inverted index 找出 many 的位置為 28 , words 的位置為 33 和 40 。接著,我們 計算出 many 和 words 中間的距離為 5 ,因此 28+5=33 ,所以我們可 知有一個答案符合 query ,為 many 在 28 , words 在 33 。 This is a text. A text has many words. Words are made from letters Letters Made Many Text words 60, …… 50, …… 28, …… 11, 19, …… 33, 40, …… vocabularyoccurrences

9 第三題 –(c) inverted index 和其他 index 比起來有下列優點: 比起其他 index 來說, inverted index 較好實作。 使用空間小,大約只有 text size 的 30% ~ 40% 。 當整個 index 很大而無法放入記憶體時,由於 inverted index 由兩部分 組成,因此可以只將 vocabulary 的部分放在記憶體。而 occurrences 則在需要用到時才讀出該用的部分即可。如此能減少磁碟存取的次數。

10 第三題 – 評分標準: 此題共 20 分,其中 (a) 和 (b) 各佔 7 分, (c) 佔 6 分。 (a) 小題只要有寫出是記載每個 index term 的出現位置即可 (b) 注意此處問的是 phrase query 。因此回答必須能處理 phrase query , 有些人的回答只能處理單一 index term 的 query ,這是不對的。 (c) 題目問的是為何 inverted index 是一個好的 index structure 。有人卻回答 index 的好處,這兩個是差很多的。要說明 inverted index 為何是一個好的 index structure 是要和別的 index 做比較。 在 (c) 小題中,只要回答的方向是正確的,有寫出一個原因就可以了。 在回答 (c) 小題時,答案必須要符合你所選擇的 inverted index structure ,例如: 有人用 suffix trie 來當資料結構卻還寫能節省記憶體,這樣很奇怪。如果這樣 寫會被扣三分。

11 第四題 (20%) How to process a phrase query using a signature file index? What is the boundary problem when processing such a phrase query? How to deal with the boundary problem? –(a) 要利用 signature file index 來處理 phrase query 可以分成下列幾 步驟: (signature file index 如下圖所示 ) 將 phrase query 中所有 index term 的 signature 求出,並將所有得到的 signature 做 or 運算以求出 query 的 signature S Q 。 將 S Q 與每個 block 的 text signature 做 and 運算,若得到的結果能相等 於 S Q ,則有可能為答案;否則,就不可能有滿足該 phrase query 的答 案了。 對於可能為答案的 block ,實際將 data 取出檢查以確定 phrase 是否存 在其中。 Text signature This is a text. A text has many words. Words are made form letters. Block 1Block 2Block 3Block 4 Text

12 第四題 我們以左圖為例來說明上面的步驟: – 假設 phrase query 為 made.. letters ,則將 與 做 or 運算後我們可以得到整個 phrase query 的 signature 為 。 – 用 與各個 block 的 text signature 做 and 運算,發現只 有 block 4 的 text signature 和 做 and 運算後等於 。因此,其他三個 block 都不會有滿足該 phrase query 。 – 實際檢查 block 4 ,發現存在 made letters ,因此符合 query 。 h(text) = h(many) = h(words) = h(made) = h(letters) = Signature function Text signature This is a text. A text has many words. Words are made form letters. Block 1Block 2Block 3Block 4 Text

13 第四題 –(b) 由於 phrase query 是有許多 word 所組成,但是 document 在切割 block 時,可能把同一個 phrase 的 word 分成兩個 block ,這會照成我們使用 (a) 部分所 提供的找尋 phrase 的方式找不到答案,此情形稱為 boundary problem 。 以左圖為例:假設 phrase query 為 many words ,則 or 後 得到 。與所有 block 的 text signature 做 and 後都 不能得到 。按照 (a) 的說法,則不存在 many words 。但是我們發現 many words 存在 block 2 的最後 和 block 3 的開始。 h(text) = h(many) = h(words) = h(made) = h(letters) = Signature function Text signature This is a text. A text has many words. Words are made form letters. Block 1Block 2Block 3Block 4 Text

14 第四題 –(c) 要解決 boundary problem 需要考慮 phrase query 的最大可 能長度。假設 phrase query 的最大可能長度為 K ,則對於每 一個 block 的 text signature T ,我們可以將其後所有 n 個 block 的 text signature 與 T 做 or 運算,以求得新的 signature T’ 。其中,該 block 加上其後的 n 個 block 的長度須大於或等 於 K 。以後就用 T’ 與 phrase query 的 signature 做比較。 以左圖為例:假設 many words 為 phrase query 。可以發 現兩個 block 的長度就大於 many words 的長度。因此我 們在與每個 block 做比對時,需要將其 text signature 與其 後一個 block 的 text signature 做 or 運算。因此我們得到 block 2 和 block 3 的 signature T’ 為 ,可以發現 many words 的 signature 與 T’ 做 and 後等於 。我們取出 block 2 和 block 3 的 data 做最後檢查 發現果然 many words 存在。 h(text) = h(many) = h(words) = h(made) = h(letters) = Signature function Text signature This is a text. A text has many words. Words are made form letters. Block 1Block 2Block 3Block 4 Text

15 第四題 – 評分標準: 此題共 20 分,其中 (a) 和 (b) 各佔 7 分, (c) 佔 6 分。 (a) 注意此處問的是 phrase query 。因此回答必須能處理 phrase query ,有些人的回答只能處理單一 index term 的 query ,這是 不對的。 (a) 中的三步驟,有一個沒寫對就扣兩分,全錯扣七分。 (c) 小題還有其他作法,只要能解決 boundary problem 的我都給 分。例如:有人用 phrase query 中的第一個 index term 所產生 的 signature 來找到發生的位置。再將其後的 data 取出與 phrase 中的其他 index term 做比較 ( 只是這樣很慢 ……) 。

16 第五題 (20%) Compute the edit distance between the strings “xylitol” and “quijote” given the following costs: 1 for both insertion and deletion and 0.5 for replacement. xylitol q u i j o t e –Edit distance 就是兩個 strings 互相轉換所需要 的 minimum cost 。因此, 我們使用能求的 minimum cost 的 DTW 方法,計算如右圖所示。 需要注意其中 replacement 的 cost 為 0.5 。

17 第五題 – 評分標準: 所使用的方法必須要能保證所求出來的方法為 minimum cost 。 若光只有對的答案,則只給五分。 若有使用 DTW 則給五分。 因為答案和 DTW 佔十分,所以整個計算過程有錯就分段扣分, 直到剩下的十分扣完為止。