基于定點DSP的MP3音頻編碼算法研究及實現

發布時間：2010-7-1 10:10 發布者：vinda

MP3是MPEG-1國際標準中音頻壓縮層3的簡稱,單聲道比特率一般取64kbps,在采樣率44.1kHz的情況下,其壓縮比可達12倍以上,被廣泛應用于互聯網等許多場合｡由于解碼比編碼過程簡單很多,MP3播放機或隨身聽已隨處可見,但MP3編碼在單片定點DSP上實現,并要保證音質,則鮮有耳聞｡考慮到心理聲學模型在整個MP3音頻編碼算法中所占比例巨大,筆者從簡化該模型入手,采用快速算法減少子帶編碼的運算量和數據量,盡可能減少量化編碼的迭代循環次數,從而在一片美國德州儀器公司的TMS320C549TMS320C549芯片上實現了MP3的實時壓縮,用標準解碼軟件回放,主觀評定,對于通常的音頻能達到接近CD的音質｡

1 MP3編碼算法及原理

圖1是MP3編碼器的系統方框圖｡每聲道以1152個采樣值為一幀進行處理｡首先,分析子帶濾波采用正交鏡像濾波器組,將20kHz左右帶寬的信號劃分成相等帶寬的32個子帶｡然后對子帶樣值作MDCT以補償子帶濾波的不足,主要是為提高頻率分辨率､消除由子帶濾波引起的帶間混迭｡

同時采樣值通過心理聲學模型計算出各頻帶的掩蔽閾值｡

失真控制循環和非歸一化量化控制循環是量化編碼循環過程,它通過量化減少各MDCT系數的精度,使編碼比特數得以降低｡不同系數采用不同的量化階,人耳敏感的頻率量化精度高,不敏感的頻率量化精度低,量化誤差則不會被人耳察覺｡選擇量化階的依據就是心理聲學模型計算出的掩蔽閾值｡最后將量化階等信息以及霍夫曼碼打包成比特流,供解碼用｡

那么為什么掩蔽閾值能反映人耳的聽覺特點呢?

人耳的聽覺特性涉及生理聲學和心理聲學方面的問題｡例如人耳對不同頻率的聲音感覺不同就是生理方面的問題,其中對2kHz~4kHz的聲音最敏感,且低頻較高頻敏感｡敏感程度具體體現為靜態掩蔽閾值,如圖2虛線所示,表示在安靜的情況下,各種頻率的聲音剛好被聽到的音量｡與人的心理知覺有關的有掩蔽效應等｡掩蔽效應指一個聲音的聽覺感受受到另一個聲音影響的現象,分為時間掩蔽(前向､后向掩蔽)和頻率掩蔽(同時掩蔽)｡例如,當一個較強的聲音停止后,要過一會兒才能聽到另一個較弱的聲音,這就是時間掩蔽效應｡頻率掩蔽是指一個聲音對與其同時存在的臨近頻率的聲音產生的影響,如圖2實線所示｡其中標志1的實線表示:當1kHz的掩蔽聲音為60dB時,不同頻率的聲音剛好被聽到的分貝值,可見越臨近頻率被掩蔽得越厲害,且低頻更易掩蔽高頻｡因此心理聲學模型就先用FFT分析信號中包含的頻率分量,將每個頻率處受到其他所有頻率分量掩蔽的值加起來,連線得到的曲線就是掩蔽閾值,是頻率的函數｡當某頻率分量的能量處在曲線下方時,不能被人耳感覺到,則該頻率分量可用零比特編碼;另一方面,選擇量化階時若能保證量化噪聲低于掩蔽曲線,也不被人耳察覺,所以掩蔽閾值越大的頻率分量量化階可以越大｡因此用掩蔽閾值作為量化編碼的依據,就能夠保證壓縮后的聲音質量｡由于聲音信號隨時間改變,因此每幀信號都要計算兩次心理聲學模型,其中要用到大量的實驗測試數據,運算量之大是可想而知的｡

2 算法的簡化和優化

2.1 分析子帶濾波器的快速算法

分析子帶濾波器的輸入是32個采樣值,輸出是32個頻率等間隔的子帶樣值｡它首先將32個采樣值放入一個長度512的先進先出(FIFO)緩存;對該緩存加窗;然后512個緩存中每8個值累加,轉換成64個中間值;最后通過(1)式將64個中間值變換成32個采樣值:

可見用(5)式代替(1)式可以減少一半的乘法運算｡又發現(5)式和標準的IDCT非常相似,可以將Lee提出的快速IDCT算法稍加改動推導(5)式的快速算法｡所以又將32點變換分解成以下的兩個16點變換:

最終的子帶樣值是如下的蝶形組合:

X[K]=Xe[k]+(1/cos[(2k+1)π/64])Xo[k],k=0,1,…,15 (11)
X[31-k]=Xe [k]-(1/cos[(k+1)π/64])Xo[k],k=0,1,…,15(12)

直接計算(1)式需要64×32次乘法和63×32次加法,采用快速算法需16×16×2+16×2次乘法和15×16×2+16×2+31+15次加法,運算量為原來的1/4,而且數據表格所占用的存儲空間也減少為原來的1/8左右｡

2.2 心理聲學模型的簡化

根據試驗觀察發現每幀的掩蔽閾值曲線大致相同,所以考慮采用靜態聲學心理模型,具體做法是:首先對某一具有代表性的音頻幀,根據心理聲學模型計算出掩蔽閾值曲線,在壓縮其它音頻源時,不再計算每幀的心理聲學模型,而是認為每幀信號與上述被分析過的代表幀具有相同的掩蔽特性｡這樣,雖然不是很準確,但通常情況下,誤差不會太大,不易被人耳察覺,省去心理聲學模型所需的巨大運算量和存儲空間｡實踐證明編碼效果令人滿意,而且對于要求不是很高的應用場合,可以認為掩蔽閾值是頻率的常數函數,每個頻帶采用相同的量化階,也聽不出聲音質量的明顯下降｡

2.3 量化編碼迭代循環的簡化

量化編碼迭代是兩重循環過程,圖3是外迭代循環流圖,迭代的目的是在可用比特數的限制之內,以各頻帶的掩蔽值為依據,確定全局增益(體現了全局量化階)和各頻帶的縮放因子(體現了局部量化階)｡內循環逐步增加量化器步長,即全局增益,直到MDCT系數量化后可被可用比特進行霍夫曼編碼,即通過增加全局量化階以降低編碼比特數;外循環依據掩蔽閾值檢測各縮放因子帶的失真,若超過允許失真,則擴大該帶的MDCT系數,即增大該帶的縮放因子,以降低局部失真;最后一次迭代的結果作為最終的霍夫曼碼｡每一次循環都要用當前的量化階量化并霍夫曼編碼一次,運算量相當大｡從外循環可以看出掩蔽閾值最終決定縮放因子,為了能省去外迭代循環,將代表幀的縮放因子作成表格,供每幀采用｡

由于上述三個模塊是最主要并且運算量最大的模塊,通過對它們的簡化和優化,程序的大小和運算量可得到極大的減少｡

3 用定點DSP實現MP3壓縮算法

為了實現MP3的實時編碼,必須采用高速DSP芯片｡采用美國德州儀器(TI)公司的主流定點DSP芯片TMS320C549,其運算速度是100MIPS,調試開發的環境是TI公司的第三方Spectrum Digital公司的EVM評估板,板上除了TMS320C549自帶的32K字片上內存外,還有128K字片外內存,數模轉換采用TI的TLC320AD55TLC320AD55,與PC機通過JTAG口實現數據與程序的加載和調試｡

由于評估板與主機的接口速度太慢,即使能做到實時壓縮,將比特流傳給PC機存盤的速度也會跟不上｡因此筆者采用的辦法是:將原始PCM音頻數據從PC機的硬盤文件加載到板上的片外內存,壓縮后的數據傳給PC機存盤,再加載后續文件,壓縮存盤,直到整個音頻文件全部壓縮完,最后用C語言程序將各數據塊拼成MP3文件,用軟件解碼程序回放｡是否能達到實時要求只能通過測試每幀運行的指令數判斷｡

在運用快速算法計算子帶分析濾波器時,考慮到DSP芯片的特點,每分解一次,要作一次如(10)式的加法,勢必降低精度,另外(11)和(12)式的系數動態范圍太大,精度也會受到影響,因此,只分解到16點DCT運算｡

采用靜態心理聲學模型,心理聲學模型和量化編碼外循環所需的運算量就為零｡代表幀的心理聲學模型和縮放因子采用C語言或MATLAB語言編程計算,或者將網上下載的MP3文件中的縮放因子信息破譯出來加以利用,子帶分析濾波器之后的MDCT全部采用長塊｡表1是靜態縮放因子比特數和縮放因子的一種設置方案｡

另外在內循環中,首先初步選擇一個全局增益使最大量化值小于碼表可編碼的最大值,標準推薦的作法是全局增益從小開始,每循環一次量化后,比較最大量化值,并調整一次全局增益,直到滿足要求為止｡本程序省去了這一循環,事先根據最大譜線值計算出應有的全局增益,作成數據表格,程序中只需根據最大譜線值查表即可｡初始化全局增益確定后,要分區､量化､編碼并計算編碼比特數,如果比特數太大或太小都還要調整全局增益｡對這一迭代循環過程,采用折半搜索的辦法實現,也就是說第一次循環時全局增益取上述初始化值的一半,若編碼比特數超出要求,則再取一半作為新的全局增益,否則增大一半,如此不斷循環直到無法折半為止｡這種折半搜索的方法比逐一搜索要快很多｡

采用了這些簡化､優化措施以及編程技巧,整個編碼程序運算量僅需75MIPS左右,片上存儲空間占用27K字左右｡用標準的MP3回放軟件解碼,通過主觀測評,音質接近CD｡

由于本系統對心理聲學模型進行了大量的簡化,對于一般的音樂,這種簡化帶來的聲音質量的下降并不明顯,尤其是在要求不高的應用場合完全可行｡但是當應用到某些編碼難度較高的音頻信號,例如響板時,聲音質量下降較明顯｡因此如果采用更高運算速度的DSP,可在該編碼系統中加入一個完備的或簡化的動態心理聲學模型,編碼質量可進一步提高,至于簡化的動態心理聲學模型還有待進一步摸索｡

本文地址：http://www.qingdxww.cn/thread-14213-1-1.html 【打印本頁】

本站部分文章為轉載或網友發布，目的在于傳遞和分享信息，并不代表本網贊同其觀點和對其真實性負責；文章版權歸原作者及原出處所有，如涉及作品內容、版權和其它問題，我們將根據著作權人的要求，第一時間更正或刪除。