熱門關(guān)鍵詞：ZigBee 功率放大器愛特梅爾 Cortex-M0 STM32

如何實(shí)現(xiàn)高性能的DSP處理(上)

發(fā)布時間：2009-5-13 08:32 發(fā)布者：DSP

關(guān)鍵詞： dsp , 高性能

應(yīng)用開發(fā)通常開始于在個人電腦或工作站編寫的C原型代碼，然后將代碼移植到嵌入式處理器中，并加以優(yōu)化。本系列文章則將這種層面的優(yōu)化在系統(tǒng)級擴(kuò)展到包括以下三方面的技術(shù)：內(nèi)存管理，DMA管理，系統(tǒng)中斷管理。這些優(yōu)化措施與程序代碼優(yōu)化同樣重要。在大多數(shù)系統(tǒng)中，有很多的數(shù)據(jù)需要傳輸，并需要很高的數(shù)據(jù)傳輸速率。因此，你最終會混合使用處理器中的所有存儲器，如內(nèi)部存儲器和外部存儲器。

軟件架構(gòu)選擇

在開始設(shè)計之前，我們必須確定使用什么類型的軟件“架構(gòu)”，所謂架構(gòu)是在嵌入式系統(tǒng)中搬移程序代碼和數(shù)據(jù)的軟件底層結(jié)構(gòu)。由于架構(gòu)定義了使用多少存儲和其他系統(tǒng)資源，因此，架構(gòu)也影響系統(tǒng)的性能。設(shè)計的架構(gòu)也能反映某些性能特性、是否易于使用，以及其他應(yīng)用要求。軟件架構(gòu)劃分為以下幾類：高速實(shí)時處理；易編程要求優(yōu)于對性能的要求；以性能為第一考慮。

第一類高速實(shí)時處理架構(gòu)，對于安全性至關(guān)重要的應(yīng)用程序或沒有外部存儲器的系統(tǒng)是很理想的。在這種情況下，要么是無法忍受緩沖數(shù)據(jù)所需的時間，或者是沒有相應(yīng)的系統(tǒng)資源，由于沒有外部存儲器，故所有工作都需在片內(nèi)完成。在這種情況下，需要先讀取并處理數(shù)據(jù)，再進(jìn)行判決，然后刪除數(shù)據(jù)。然而，這里必須保證的是，在當(dāng)前幀的所有處理完成前正在使用的緩沖數(shù)據(jù)幀不會被覆蓋。

例如，車道偏離系統(tǒng)就是一個安全性至關(guān)重要的應(yīng)用。在這個系統(tǒng)中，通常不能在做出判斷前等待33毫秒的全幀數(shù)據(jù)，更好的做法是處理幀的一部分。例如，您可以從幀末尾處開始檢測車道，因此只需讀入數(shù)據(jù)幀末尾部分的數(shù)據(jù)。

第二種架構(gòu)通常用在是否易于編程是最重要的考慮因素的情況。這種架構(gòu)對于需要快速面市的應(yīng)用，以及需要迅速開發(fā)樣機(jī)和易于編程超過對性能的要求等應(yīng)用都是十分理想的，它也同樣降低了開發(fā)難度。

當(dāng)需要達(dá)到系統(tǒng)的最優(yōu)性能時，第三類架構(gòu)就是合適的選擇。由于重點(diǎn)是性能，所以需要對某些因素，諸如處理器、數(shù)據(jù)流、帶寬效率和優(yōu)化技術(shù)等的選擇，做仔細(xì)的考慮。然而，這種架構(gòu)的不足之處在于可復(fù)用性和可升級性方面有所降低。

在開發(fā)周期中，事先規(guī)劃好指令和數(shù)據(jù)流是十分重要的，這也包括對是否需要外部存儲器或者緩存做出重要決定。這樣，開發(fā)人員就可以集中精力利用處理器的結(jié)構(gòu)特點(diǎn)，并調(diào)整性能，而不需要重新審視初始設(shè)計。

高速緩存概述

高速緩存能夠以很快的存取時間(通常是單個周期)將指令和數(shù)據(jù)存儲在處理器片內(nèi)存儲器中。高速緩存的實(shí)現(xiàn)是因?yàn)闇p少了系統(tǒng)對單周期訪問的存儲器資源數(shù)量的需求�；诟咚倬彺娴奶幚砥鹘Y(jié)構(gòu)，開始時將數(shù)據(jù)放置在低成本的低速外部存儲器中，需要時，高速緩存可自動地將其中的指令和數(shù)據(jù)傳輸?shù)教幚砥鞯钠瑑?nèi)存儲器。

指令和數(shù)據(jù)高速緩存為Blackfin處理器核提供了最高帶寬的傳輸路徑，但高速緩存存在的問題是它不能預(yù)測程序接下來需要的究竟是哪些數(shù)據(jù)和指令，因此，高速緩存提供了一些功能，使用戶可以控制高速緩存的操作。在Blackfin處理器中一些關(guān)鍵的指令段就可以鎖定到高速指令緩存中，這樣在需要的時候可以直接使用。

值得注意的是，當(dāng)高速緩存決定需要保留哪些指令時，它會自動保留最近使用最多的指令段。由于DSP軟件花費(fèi)大部分的時間在循環(huán)上，這樣DSP程序往往會重復(fù)訪問相同的指令。因此，在不需要任何用戶干預(yù)情況下，指令高速緩存可以大大提高系統(tǒng)性能。

此外，除了高速指令緩存的功能外，高速數(shù)據(jù)緩存還提供了“直寫”和“回寫”模式。在“直寫”模式中，在高速緩存中對數(shù)據(jù)的修改要傳送到外部存儲器中�？傊�，編程最好開始采用“回寫”模式，可以提高10-15％的效率，在大多數(shù)算法中，比“直寫”模式更加有效率。如果數(shù)據(jù)在多種資源中需要共享，由于要維護(hù)數(shù)據(jù)的一致性，因此采用“直寫”模式也是有用的。比如，在ADSP-BF561處理器中，要實(shí)現(xiàn)兩個處理器核數(shù)據(jù)的共享，則“直寫”模式就十分有用。在單核處理器中，如果DMA控制器和高速緩存訪問同樣的數(shù)據(jù)，這種模式也是有益的。

利用DMA提升性能

DMA是提高系統(tǒng)性能的另一個有效工具。因?yàn)镈MA的訪問獨(dú)立于處理器核，處理器核可以專注于處理數(shù)據(jù)。在理想的配置中，處理器核只需要設(shè)置DMA控制器，并在數(shù)據(jù)傳輸完畢時響應(yīng)中斷即可。

通常，高速外設(shè)和其他大多數(shù)外設(shè)都具有DMA傳輸能力。某些DMA控制器也允許外部存儲器與內(nèi)部存儲器，以及存儲器空間內(nèi)的數(shù)據(jù)傳遞。若設(shè)計者仔細(xì)地設(shè)計系統(tǒng)，將取得巨大的性能提升，因?yàn)槿魏蜠MA控制器傳輸?shù)臄?shù)據(jù)都不需要處理器核“操心”。

Blackfin處理器支持二維DMA的傳輸，如圖1所示。左側(cè)顯示的是輸入緩沖區(qū)數(shù)據(jù)，紅、綠、藍(lán)三基色數(shù)據(jù)交替放置。一維到二維的DMA轉(zhuǎn)換將交替的數(shù)據(jù)轉(zhuǎn)換成獨(dú)立的紅、綠、藍(lán)數(shù)據(jù)。圖1的左下角為讀入數(shù)據(jù)的偽程序代碼。如果沒有DMA控制器，這些數(shù)據(jù)傳輸就只能由處理器核完成。使用DMA控制器后，則DMA負(fù)責(zé)數(shù)據(jù)傳輸，傳輸完畢并中斷處理器核，處理器核則可解放出來做其他任務(wù)，如數(shù)據(jù)處理等。

圖1：二維DMA存儲器訪問模式。

DMA也可以與高速緩存聯(lián)合使用。通常，DMA傳輸首先將高速外設(shè)中的數(shù)據(jù)讀入到處理器的外部存儲器，數(shù)據(jù)高速緩存則將數(shù)據(jù)從外部存儲器讀入到處理器內(nèi)部。進(jìn)行這種操作通常需要使用“乒乓”緩沖器，一個緩沖區(qū)用于數(shù)據(jù)傳輸，另一個用于數(shù)據(jù)處理，圖2說明了這種操作方式。DMA控制器將數(shù)據(jù)傳輸?shù)絙uffer0時，處理器核則訪問buffer1，反之亦然。

圖2：DMA和高速緩存聯(lián)合使用時數(shù)據(jù)一致性的維護(hù)。

當(dāng)聯(lián)合使用DMA和高速緩存時，維持DMA控制器讀入的數(shù)據(jù)與高速緩存中數(shù)據(jù)的一致性是很重要的，圖2說明了如何完成這一操作。當(dāng)外設(shè)生成新的數(shù)據(jù)，DMA控制器則將數(shù)據(jù)放置在一個新的緩沖區(qū)，并產(chǎn)生中斷，通知處理器核可以處理這些數(shù)據(jù)。當(dāng)處理器核處理該緩沖區(qū)數(shù)據(jù)前，與該緩沖區(qū)相應(yīng)的高速緩存行被設(shè)為無效，從而強(qiáng)制高速緩存從主存儲器中取出數(shù)據(jù)，這樣就可以確保一致性。這種方法主要的缺點(diǎn)是它不能達(dá)到單一DMA模型的性能，這里DMA控制器采用將緩沖區(qū)的數(shù)據(jù)直接讀入內(nèi)部存儲器的模式。

指令劃分

指令劃分(instructionpartitioning)通常比較簡單。如果程序代碼能容納在內(nèi)部存儲器中，只需要關(guān)閉指令高速緩存，直接把程序代碼映射到內(nèi)部存儲器就可以獲得最大的效能。然而，多數(shù)應(yīng)用程序代碼不能全部容納在內(nèi)部存儲器中，所以必須打開高速指令緩存。

高速緩存容量通常小于外部存儲器，但這并不是一個問題，因?yàn)閷τ诙鄶?shù)嵌入式軟件，“通常20％的程序代碼的運(yùn)行時間占整個運(yùn)行時間的80％”。大多數(shù)情況下，最耗時間的程序代碼都很小，足夠放置到高速緩存中，所以高速緩存器能夠充分發(fā)揮其作用。

為了提高性能，還可以使用指令的線鎖機(jī)制(line-lockingmechanism)，鎖定程序的最關(guān)鍵的部分代碼。如需要進(jìn)一步提高性能，可以關(guān)閉指令高速緩存并采用“存儲器覆蓋”的機(jī)制代替，該機(jī)制使用DMA將程序代碼傳輸?shù)揭粋€存儲器塊，而同時在另一個存儲器塊上執(zhí)行操作。

數(shù)據(jù)劃分

數(shù)據(jù)劃分通常沒有指令劃分那么簡單。和程序代碼劃分一樣，如果數(shù)據(jù)緩沖區(qū)可以被容納在內(nèi)部存儲器中，你就沒有多余的工作。如果不是，首要任務(wù)就是要區(qū)分靜態(tài)數(shù)據(jù)(如用于查找表)和動態(tài)數(shù)據(jù)。數(shù)據(jù)高速緩存在靜態(tài)數(shù)據(jù)方面使用較好，而DMA通常在動態(tài)數(shù)據(jù)方面性能更佳。

即使使用了數(shù)據(jù)高速緩存，也通常需要設(shè)立一個外設(shè)DMA傳輸通道，將數(shù)據(jù)從外設(shè)傳輸?shù)酵獠看鎯ζ�。如果采用了�?shù)據(jù)高速緩存，可以將這些數(shù)據(jù)讀入到內(nèi)部存儲器，只要在訪問數(shù)據(jù)前使高速緩存的緩沖區(qū)無效即可。如果正在使用DMA，則可以建立DMA傳輸，將數(shù)據(jù)從外部存儲器讀入到內(nèi)部存儲器。

相關(guān)閱讀：如何實(shí)現(xiàn)高性能的DSP處理(下)

　供稿：ADI公司

本文地址：http://www.qingdxww.cn/thread-3027-1-1.html 【打印本頁】

本站部分文章為轉(zhuǎn)載或網(wǎng)友發(fā)布，目的在于傳遞和分享信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)；文章版權(quán)歸原作者及原出處所有，如涉及作品內(nèi)容、版權(quán)和其它問題，我們將根據(jù)著作權(quán)人的要求，第一時間更正或刪除。