Presentation is loading. Please wait.

Presentation is loading. Please wait.

A Study on PNS and Block Length Switching in MPEG-4 Audio Coding 電通所 碩二 研究生 : 游政勳 指導教授 : 尤信程 老師.

Similar presentations


Presentation on theme: "A Study on PNS and Block Length Switching in MPEG-4 Audio Coding 電通所 碩二 研究生 : 游政勳 指導教授 : 尤信程 老師."— Presentation transcript:

1 A Study on PNS and Block Length Switching in MPEG-4 Audio Coding 電通所 碩二 研究生 : 游政勳 指導教授 : 尤信程 老師

2 Outline 1. MPEG-4 Audio Coding 2. Psychoacoustics ( 聽覺心理學 ) 3.The structure of MPEG-4 General Audio Coding 4. Perceptual Noise Substitution (PNS, 類雜訊取代 ) 5. The reserch of Block Length Switching 6. Conclusion

3 MPEG-4 Audio Coding (1) MPEG-4 Audio Coding 概分為三大類 : 1. General audio coding 2. Speech coding 3. Structured Audio

4 MPEG-4 Audio Coding (2) MPEG-4 Audio Coding 之特性 : 1. Low bit-rate 之壓縮技巧 2. 音訊物件之分類 3. Scalability 之應用

5 Psychoacoustic (1) 1. 聽覺心理學 (Psychoacoustics) 描述人耳對聲音訊號 的知覺特性 2. 聽覺心理學由聽覺實驗之結果得知 3. 音訊編碼主要利用聽覺心理學來達到壓縮的目的

6 Psychoacoustic (2) 人耳在靜音環境下的絕對聽覺門檻 :

7 Psychoacoustic (3) 臨界頻帶 (Critical band):

8 Psychoacoustic (4) 臨界頻帶之意義 : 1. 人耳之聽覺神經可由多個帶通濾波器 (band pass filter) 所組成之 模型來近似 2. 各頻帶之頻寬, 即為該頻帶中心頻率單頻音所能遮蔽之範圍 ( 頻域之遮蔽 ) 3. 愈高頻帶頻寬愈寬, 訊號愈容易互相遮蔽, 使得人耳對高頻訊號 較不敏感

9 Psychoacoustic (5) 聲音在頻域上之遮蔽效應 :

10 Psychoacoustic (6) 能量不同之頻域遮蔽 :

11 Psychoacoustic (7) 頻域遮蔽效應之分類 : (a) Noise Masking Tone (NMT), (b) Tone Masking Noise (TMN)

12 Psychoacoustic (8) 頻域遮蔽效應在音訊編碼上應用 : 1. 頻域遮蔽效應可分為 intra-band 與 inter-band 來討論 2. Intra-band: 用 NMT 與 TMN 之區分方式, 來近似頻帶內之遮蔽效應 3. Inter-band: 用 Spreading Function 來概略計算鄰近頻帶間之遮蔽效 應 4. 依上述步驟算出各頻帶訊號之遮蔽門檻, 量化雜訊 (Quantization Noise) 需小於遮蔽門檻

13 MPEG-4 General Audio Coding(1) 1. MPEG-4 GA 除了沿襲自 MPEG-2 AAC, 並多了 LTP 與 PNS 兩模 組, 以及 BSAC 與 Twin-VQ 兩編碼方式 2. 將訊號在時間上作區塊 (Block) 切分, 並以區塊為單位作時頻轉換 (MDCT) 與量化編碼 3. 有長區塊 (Long block) 與短區塊 (Short block) 兩種區塊長度可供 切換 4. 將頻譜劃分成 49 個 scale factor band, 各頻帶有不同的量化單位, 以 符合聽覺特性 Scalefactor: 各頻帶量化時之控制係數

14 MPEG-4 General Audio Coding(2)

15 MPEG-4 General Audio Coding(3) Psychoacoustic Model ( 聽覺心理模型 ): The input of psychoacoustic model: 2048 點 (long block) 或 256 點 (short block) 之時軸訊號與取樣頻率 The output of psychoacoustic model: Signal to mask ratio(SMR) 與決定長短區塊切換之 時機

16 MPEG-4 General Audio Coding(4) 聽覺心理模型之計算步驟 : Step1. 將該區塊訊號以 FFT 作時頻轉換 Step2. 以前兩個區塊之頻譜來預測現在區塊之頻譜

17 MPEG-4 General Audio Coding(5) Step3. 求各頻帶之預測誤差總和 c(b), b: band index Step4. 用預測誤差來算各頻帶之 tonality index, 其值介於 0 到 1 之 間, 1 代表 tone, 0 代表 noise Step5. 由 tonality index 求各頻帶之 SMR ( 由 tonality index 可知 訊號中 tone 與 noise 所佔之比例, 即可 利用 NMT 與 TMN 之分類, 來計算 SMR)

18 MPEG-4 General Audio Coding(6) Step6. 用 Spreading function 來修正各頻帶之 SMR 值 ( 考慮 inter-band) Step7. 將各頻帶之遮蔽門檻, 與靜音時絕對聽覺門檻取較大值 Step8. 由各頻帶之 SMR, 算出各頻帶之 Perceptual Entropy(PE), 並求 所有頻帶 PE 之總和, 以決定長短區塊之切換 由各頻帶之 SMR 值, 可決定各頻帶係數該用多少位元數作量化 ( 量化雜訊需小於遮蔽門檻 )

19 MPEG-4 General Audio Coding(7) AAC Quantization and Coding: 1. 利用雙巢狀式迴圈, 來達到量化編碼之最佳化 內迴圈 : 控制編碼所使用之位元總數 外迴圈 : 使各頻帶之量化雜訊低於遮蔽門檻 2. 使用 Huffman coding 作編碼, 有 12 種碼簿 (code-book) 可供選擇

20 Perceptual Noise Substitution (1) PNS 之原理 : 人耳對不同雜訊之判別性低 PNS 之運作 : 1. 對 5 KHz (band 25) 以上之訊號, 判別出類似雜訊的頻 帶 (Noise detection) 2. 類似雜訊之頻帶係數, 不編碼不傳送 3. 解碼端以隨機產生同能量之雜訊, 貼補於該頻帶

21 Perceptual Noise Substitution (2) PNS 之效果 : 1. 原訊號頻譜 : 2. 不啟動 PNS 解碼 後頻譜 : 3. 啟動 PNS 解碼 後頻譜 :

22 Perceptual Noise Substitution (3) ISO 標準中之雜訊偵測方法 : (1) 若聽覺心理模型中之 tonality index 小於某門檻值 (2) 前後區塊該頻帶能量之變化不能過大 (1) 與 (2) 同時成立時, 將該頻帶訊號判段成雜訊

23 Perceptual Noise Substitution (4) ISO 雜訊偵測方法之缺點 : 1. Tonality index 對些微之頻率變化太過敏感 (1)6 KHz 弦波訊號 (2)6 ~6.1KHz 弦波訊號

24 Perceptual Noise Substitution (5) ISO 雜訊偵測方法之缺點 : 1. Tonality index 對些微之頻率變化太過敏感 (1) 針對 6 KHz 弦波訊號 之統計圖 (2) 針對 6 ~6.1 KHz 弦波訊號 之統計圖

25 Perceptual Noise Substitution (6) ISO 雜訊偵測方法之缺點 : 2. 用 tonality index 判別不太準確, 且對不同類型音樂之判別性不好 Band: 1~24 Band: 25~49 ( 有作 PNS 考慮之頻帶 )

26 Perceptual Noise Substitution (7) 新雜訊偵測方法 (Donald Schulz 所提出之概念 ) PQF: Poly-phase Quadrature Filter P: 30 order linear predictor

27 Perceptual Noise Substitution (8) Noise detection 新方法與 ISO 方法之比較 1: (1) 針對 6 KHz 弦波訊號 (2) 針對 6 ~6.1KHz 弦波訊號

28 Perceptual Noise Substitution (9) Noise detection 新方法與 ISO 方法之比較 2: ( 針對兩首不同類型之音樂 ) 新方法 : ISO 之方法 :

29 Perceptual Noise Substitution (10) 相似性貼補之概念與作法 : 1. 除了以雜訊貼補外之另一貼補方式 2. 用相似度夠高之低頻頻帶係數, 貼補於有啟動 PNS 之高頻頻 帶 3. 若相似度不夠高, 仍以雜訊貼補

30 Perceptual Noise Substitution (11) 相似性之計算 : 1. 六個低頻頻帶為一組, 與高頻頻帶作比較求相似性 …………

31 Perceptual Noise Substitution (11) 相似性之計算 : 2. 將低頻與高頻頻帶, 兩者之頻寬與總能量調整到一致, 使兩者 有相同之比較基準 3. 將兩組訊號相減求誤差, 再將誤差作正規化 (Normalize), 以此 誤差來判斷相似性

32 Perceptual Noise Substitution (12) 相似性與雜訊貼補效果之比較 : 1. 原訊號頻譜 : 2. 相似性貼補 解碼後頻譜 : 3. 雜訊貼補 解碼後頻譜 :

33 Perceptual Noise Substitution (13) 聆聽實驗一 : 新雜訊偵測方法, 並僅以雜訊貼補 聆聽實驗二 : 新雜訊偵測方法, 並 動態切換貼補方式 比較對象 : ISO 標準之方法

34 Reserch of Block Length Switching(1) 為何使用 block length switching ? (Time resolution vs. Freq resolution) 1. 短區塊 (512 點 ) 有較好之時間解析度 ( 針對 Transient signal ) 2. 長區塊 (2048 點 ) 有較好之頻率解析度, 且編碼效益較好 ( 針對 Stationary signal) 3. 對 Transient signal, 使用長區塊所算出之 SMR 值並不正確, 僅得平 均之結果, 無法反映出訊號頻譜分布在短時間內之變化

35 Reserch of Block Length Switching(2) 區塊切換示意圖 :

36 Reserch of Block Length Switching(2) 對 Transient signal, 為何不能用長區塊編碼 ? (32 kbps) (Short)(long) (original)

37 Reserch of Block Length Switching(3) 對 Transient signal, 為何不能用長區塊編碼 ? (32 kbps) ( 橫軸 : 時間, 縱軸 : 頻率 ) (original) (Short)(long)

38 Reserch of Block Length Switching(4) 區塊切換之缺點 : 1. 短區塊之編碼效益較差 2. Bit-rate 64 kbps 以上時, 區塊切塊效果以不明顯 ( 位元數已 足夠 ) 3. 區塊切換機制會增加編解碼器與音訊串流之複雜度

39 Reserch of Block Length Switching(5) 取代區塊切換之方法 : 僅用長區塊編碼配合 Pre-processing and Post-processing)

40 Reserch of Block Length Switching(6) 取代區塊切換之方法 : (a) Pre-processing: 將該區塊訊號作倍率之調整, 使訊號變小 ( 倍率約 1/6 ~ 1/10) (b) Post-processing: 將訊號以此倍率之倒數, 還原成原大小

41 Reserch of Block Length Switching(7) 新方法之效能 : ( 新方法 ) (long) (original)

42 Reserch of Block Length Switching(8) 新方法與 ISO 區塊切換之聆聽實驗結果之比較 : ( 區塊切換門檻值 : 350)

43 Reserch of Block Length Switching(9) 新方法與 ISO 區塊切換之聆聽實驗結果之比較 : ( 區塊切換門檻值 : -1000, 此值之設定不佳 )

44 Reserch of Block Length Switching(10) 為何長區塊編碼配合此新方法, 可取代短區塊編碼 ? 對於暫態訊號, 人耳在短瞬間的知覺並不靈敏, 聽覺心理模型並 不適用, 因此僅用量化單位固定之波形編碼 (waveform coding) 即 可有相當之效果

45 Reserch of Block Length Switching(11) 驗證新方法類似 waveform coding: 比較原訊號與倍率調整後之訊號之量化情形 1. 原訊號量化情形 2. 倍率調整後訊號量化情形

46 Conclusion and Future Work 1. 新雜訊偵測方法可改進 ISO 方法之缺點, 且相似性貼補對某些類 音樂, 可進一步提升聲音品質 2. 實驗證明, 區塊切換機制可用較簡便之方式來取代 3. 未來在 PNS 的研究上, 可考慮用不同類型或不同機率分布之雜訊, 來動態切換貼補 4. 取代區塊切換之新方法, 是否可以建構在 MPEG-4 標準中原有 之 gain control module


Download ppt "A Study on PNS and Block Length Switching in MPEG-4 Audio Coding 電通所 碩二 研究生 : 游政勳 指導教授 : 尤信程 老師."

Similar presentations


Ads by Google