接上篇 4 設(shè)置簡(jiǎn)單系統(tǒng) 協(xié)議處理一般情況下屬于狀態(tài)事務(wù)。必須先順序讀取在多個(gè)時(shí)鐘周期內(nèi)進(jìn)入總線的數(shù)據(jù)包字,然后根據(jù)數(shù)據(jù)包的某些字段決定進(jìn)一步操作。通常應(yīng)對(duì)這種處理的方法是使用狀態(tài)機(jī),對(duì)數(shù)據(jù)包進(jìn)行迭代運(yùn)算,完成必要的處理。例3是一種簡(jiǎn)單的狀態(tài)機(jī),用于根據(jù)上一級(jí)的輸入丟棄或轉(zhuǎn)發(fā)數(shù)據(jù)包。該函數(shù)接收三個(gè)參數(shù):一個(gè)是通過“inData”流接收到的輸入分組數(shù)據(jù);一個(gè)是通過“validBuffer”流顯示數(shù)據(jù)包是否有效的1位旗標(biāo);第三個(gè)是稱為“outData”的輸出分組數(shù)據(jù)流。注意Vivado HLS函數(shù)中的參數(shù)是按引用傳遞的。這在使用較為復(fù)雜的Vivado HLS流的時(shí)候是必要的。ap_uint等較為簡(jiǎn)單的數(shù)據(jù)類型則可按值傳遞。 第2行中的流水線編譯指令指示Vivado HLS將該函數(shù)流水線化,讓初始化間隔為1(II=1),即每個(gè)時(shí)鐘周期處理一個(gè)新的輸入數(shù)據(jù)字。Vivado HLS負(fù)責(zé)核驗(yàn)設(shè)計(jì),并確定需要在設(shè)計(jì)中引入多少個(gè)流水線級(jí)來滿足調(diào)度限制要求。 例3:使用Vivado HLS的有限狀態(tài)機(jī) 1 void dropper(stream& inData, stream>& validBuffer, stream& outData) { 2 #pragma HLS pipeline II=1 enable_flush 3 4 static enum dState {D_IDLE = 0, D_STREAM, D_ DROP} dropState; 5 axiWord currWord = {0, 0, 0, 0}; 6 7 switch(dropState) { 8 case D_IDLE: 9 if (!validBuffer.empty() && !inData.empty()) { 10 ap_uint valid = validBuffer.read(); 11 inData.read(currWord); 12 if (valid) { 13 outData.write(currWord); 14 dropState = D_STREAM; 15 } 16 } 17 else 18 dropState = D_DROP; 19 break; 20 case D_STREAM: 21 if (!inData.empty()) { 22 inData.read(currWord); 23 outData.write(currWord); 24 if (currWord.last) 25 dropState = D_IDLE; 26 } 27 break; 28 case D_DROP: 29 if (!inData.empty()) { 30 inData.read(currWord); 31 if (currWord.last) 32 dropState = D_IDLE; 33 } 34 break; 35 } 36 } 第4行用于聲明一個(gè)靜態(tài)枚舉變量,用于表達(dá)該FSM中的狀態(tài)。使用枚舉與否可以選擇,不過能讓代碼更容易閱讀,因?yàn)榭梢越o狀態(tài)適當(dāng)?shù)孛2贿^使用任何整數(shù)或ap_unit變量也能得到與之類似的結(jié)果。第5行用于聲明一個(gè)“axiWord”類型的變量,用于存儲(chǔ)準(zhǔn)備從輸入中讀取的分組數(shù)據(jù)。 第7行中的開關(guān)語句用于表達(dá)實(shí)際的狀態(tài)機(jī)。建議使用開關(guān),但非強(qiáng)制要求。使用if-else決策樹也能執(zhí)行同樣的功能。開關(guān)語句能夠讓Vivado HLS工具更高效地枚舉所有狀態(tài),并優(yōu)化得到的狀態(tài)機(jī)RTL代碼。 執(zhí)行從D_IDLE狀態(tài)開始,此時(shí)FSM從第10行和第11行的兩個(gè)輸入流讀取。這兩行分別代表兩種流對(duì)象讀取方法。這兩種方法均從設(shè)定的流讀取,然后將結(jié)果存儲(chǔ)到給定變量中。這種方法采取阻塞式讀取,意味著如果該方法調(diào)用無法順序執(zhí)行,就會(huì)暫停執(zhí)行該函數(shù)調(diào)用中的其余代碼。在試圖讀取空流的時(shí)候會(huì)發(fā)生這種情況。 5 流分割和合并 在協(xié)議處理中,根據(jù)協(xié)議棧特定字段轉(zhuǎn)發(fā)數(shù)據(jù)包給不同模塊,然后在發(fā)送前將不同的流重新組合,是一項(xiàng)關(guān)鍵功能。Vivado HLS允許使用高級(jí)架構(gòu)來推動(dòng)這一轉(zhuǎn)發(fā)過程,具體如例4中所示的流合并。 例4:簡(jiǎn)單的流合并情況 1 void merge(stream inData[NUM_MERGE_ STREAMS], stream&outData) { 2 #pragma HLS INLINE off 3 #pragma HLS pipeline II=1 enable_flush 4 5 static enum mState{M_IDLE = 0, M_STREAM} mergeState; 6 static ap_uint rrCtr = 0; 7 static ap_uint streamSource = 0; 8 axiWord inputWord = {0, 0, 0, 0}; 9 10 switch(mergeState) { 11 case M_IDLE: 12 bool streamEmpty[NUM_MERGE_STREAMS]; 13 #pragma HLS ARRAY_PARTITION variable=stream- Empty complete 14 for (uint8_t i=0;i 15 streamEmpty = inData.empty(); 16 for (uint8_t i=0;i 17 uint8_t tempCtr = streamSource + 1 + i; 18 if (tempCtr >= NUM_MERGE_STREAMS) 19 tempCtr -= NUM_MERGE_STREAMS; 20 if(!streamEmpty[tempCtr]) { 21 streamSource = tempCtr; 22 inputWord = inData[streamSource]. read(); 23 outData.write(inputWord); 24 if (inputWord.last == 0) 25 mergeState = M_STREAM; 26 break; 27 } 28 } 29 break; 30 case M_STREAM: 31 if (!inData[streamSource].empty()) { 32 inData[streamSource].read(inputWord); 33 outData.write(inputWord); 34 if (inputWord.last == 1) 35 mergeState = M_IDLE; 36 } 37 break; 38 } 39 } 本例體現(xiàn)的是模塊合并功能的使用,其中一個(gè)流陣列作為輸入(inData),一個(gè)單流作為輸出(outData)。這個(gè)模塊的功能是以無區(qū)別的方式從輸入流讀取數(shù)據(jù),然后將讀取的數(shù)據(jù)輸出給輸出流。該模塊采用雙級(jí)FSM實(shí)現(xiàn),其結(jié)構(gòu)與前文介紹的結(jié)構(gòu)一致。 FSM的第一個(gè)狀態(tài)用于確保選擇輸入流的無區(qū)別性(fairness)。實(shí)現(xiàn)的方法是使用循環(huán)算法檢查隊(duì)列。該算法在完成上一隊(duì)列的訪問之后,即從下一隊(duì)列起查找新的數(shù)據(jù)。第17到19行的代碼采用的即是此循環(huán)算法。常量NUM_MERGE_STREAMS用于設(shè)定待合并的流的數(shù)量。接下來的第20行負(fù)責(zé)測(cè)試當(dāng)前的流,其內(nèi)容用tempCntr變量標(biāo)示。如果當(dāng)前流非空,則將其設(shè)置為活躍流(第21行)。然后從該流中讀取數(shù)據(jù)(第22行)。如果讀取的數(shù)據(jù)字不是最后一個(gè)數(shù)據(jù)字(由第24行負(fù)責(zé)檢查),則狀態(tài)機(jī)進(jìn)入M_STREAM狀態(tài),然后輸出來自該流的剩余數(shù)據(jù)字。在處理完成最后一個(gè)數(shù)據(jù)字后,F(xiàn)SM返回M_IDLE狀態(tài),然后重復(fù)上述過程。 這個(gè)模塊引入了一個(gè)新的編譯指令,稱為“array_partition”。該編譯指令能讓Vivado HLS了解為了提高吞吐量,是否需要把一個(gè)陣列拆分為多個(gè)子陣列。如果未加設(shè)定,Vivado HLS會(huì)使用雙端口BRAM來訪問陣列。如果要在一個(gè)時(shí)鐘周期中訪問陣列兩次以上,如果不適當(dāng)?shù)靥岣叱跏蓟g隔(II)的值,該工具將無法調(diào)度這些訪問。在本例中,略去array_partition編譯指令,將NUN_MERGE_STREAMS值設(shè)為8,就可以讓II=4。但因?yàn)橄肽軌蛟诿總(gè)時(shí)鐘周期內(nèi)訪問steamEmpty陣列的所有元素,讓目標(biāo)II=1,我們需要對(duì)這個(gè)陣列進(jìn)行充分分區(qū)。在本例中,該陣列實(shí)現(xiàn)為一組基于觸發(fā)器的寄存器。 拆分輸入流的過程耳熟能詳,把來自一個(gè)流的數(shù)據(jù)字正確地路由到一個(gè)流陣列即可。 6 抽取字段和重新對(duì)齊字段 在包處理中,抽取字段和重新對(duì)齊字段是最基本的操作之一。由于數(shù)據(jù)包一般是經(jīng)過多個(gè)時(shí)鐘周期內(nèi)通過總線到達(dá)模塊的,常見的情況是需要的字段要么在它們抵達(dá)的數(shù)據(jù)字中未能對(duì)齊,要么分散在多個(gè)數(shù)據(jù)字中(往往兩種情況都有)。因此要處理這些字段,必須將它們從數(shù)據(jù)流中抽取出來,存入緩存然后重新對(duì)齊以便處理。 例5:源MAC地址抽取示例 1 if (!inData.empty()) { 2 inData.read(currWord); 3 switch(wordCount) { 4 case 0: 5 MAC_DST = currWord.data.range(47, 0); 6 MAC_SRC.range(15, 0) = currWord.data. range(63, 48); 7 break; 8 case 1: 9 MAC_SRC.range(47 ,16) = currWord. data.range(31, 0); 10 break; 11 case 2: 12 …… 例5是一個(gè)非常簡(jiǎn)單的字段抽取和再對(duì)齊示例。這個(gè)示例從以太網(wǎng)報(bào)頭中抽取源MAC地址。數(shù)據(jù)通過稱為“inData”的64位流抵達(dá)。在每個(gè)時(shí)鐘周期讀入數(shù)據(jù)(第2行)。隨后根據(jù)讀取的數(shù)據(jù)字執(zhí)行合適的語句。因此在第5行中源MAC地址的頭16位被抽取出來,并移位到MAC_SRC變量的起始部分。在下一時(shí)鐘周期中,MAC地址的其余32位抵達(dá)總線,然后存入MAC_SRC變量的32位更高位中。 7 用多級(jí)層級(jí)創(chuàng)建系統(tǒng) 上文討論了如何使用Vivado HLS實(shí)現(xiàn)簡(jiǎn)單的三級(jí)流水線。但是一般的包處理系統(tǒng)可能會(huì)包含分布在層級(jí)結(jié)構(gòu)中多個(gè)層面的多個(gè)模塊。圖2即是這種系統(tǒng)的示例。在本例中,層級(jí)結(jié)構(gòu)的第一層由兩個(gè)模塊組成,每個(gè)模塊下面包括三個(gè)子模塊。這個(gè)示例中的頂層模塊與前面介紹的簡(jiǎn)單系統(tǒng)中頂層模塊相似。但包含有三個(gè)子模塊的較低層模塊使用INLINE編譯指令來解析函數(shù),將其子模塊推送到頂層,如例6所示。 例6:Vivado HLS中的中間模塊 1 void module2 (stream &inData, stream&outData) { 2 #pragma HLS INLINE 3 4 ……… 因此在Vivado HLS完成綜合后,系統(tǒng)基本如圖3所示。這樣Vivado HLS就能正確地根據(jù)這些模塊創(chuàng)建數(shù)據(jù)流架構(gòu),完成模塊的流水線化,然后同步執(zhí)行。在嵌入該函數(shù)后,各模塊和信號(hào)保持原來的名稱不變。 8 使用高級(jí)語言結(jié)構(gòu) 高層次綜合的主要優(yōu)勢(shì)之一在于可以使用高級(jí)語言結(jié)構(gòu)來表達(dá)復(fù)雜對(duì)象,與傳統(tǒng)RTL設(shè)計(jì)相比,顯著提高了抽象水平。下面的例子是描述一個(gè)小型查找表。 例7中的代碼用于內(nèi)容可尋址存儲(chǔ)器(CAM)類定義,它使用類對(duì)象創(chuàng)建一個(gè)表,供存儲(chǔ)和恢復(fù)上述原型系統(tǒng)的ARP數(shù)據(jù)。該類有一個(gè)私有成員,這個(gè)私有成員是一個(gè)由“noOfArpTableEntries”條“arpTableEntry”類型記錄組成的陣列。這種類型屬于一種數(shù)據(jù)結(jié)構(gòu),包括MAC地址、對(duì)應(yīng)的IP地址和用于說明該條記錄是否包含有效數(shù)據(jù)的一個(gè)數(shù)位。 例7:CAM類定義 1 class cam { 2 private: 3 arpTableEntry filterEntries[noOfArpTableEntries]; 4 public: 5 cam(); 6 bool write(arpTableEntry writeEntry); 7 bool clear(ap_uint clearAddress); 8 arpTableEntry compare(ap_uint searchAddress); 9 }; 這個(gè)類也包括四種在這個(gè)表上運(yùn)算方法(其中一個(gè)是構(gòu)造器)。其中的一個(gè),即比較法,用于實(shí)現(xiàn)真正的查找功能。本例通過提供IP地址來返回相應(yīng)的MAC地址。處理的方法是使用“for”循環(huán)查找表中的每一條記錄,搜索有相同IP地址的有效記錄。然后完整地返回這條記錄。如果沒有找到,就返回?zé)o效記錄。為讓設(shè)計(jì)實(shí)現(xiàn)II=1的目標(biāo),必須完全展開這個(gè)循環(huán)。 例8:用于CAM類的比較法 1 arpTableEntry cam::compare(ap_uint searchAddress) { 2 for (uint8_t i=0; i 3 if (this->filterEntries.valid == 1 && searchAddress == this->filterEntries.ipAddress) 4 return this->filterEntries; 5 } 6 arpTableEntry temp = {0, 0, 0}; 7 return temp; 8 } 上述經(jīng)驗(yàn)和示例明確說明,用戶可以使用Vivado HLS充分發(fā)揮高級(jí)編程結(jié)構(gòu)的作用,用類似軟件的方法描述包處理系統(tǒng)。采用RTL是難以實(shí)現(xiàn)的。 9 10GBps速率下的協(xié)議處理 與傳統(tǒng)RTL相比,Vivado HLS可使用C/C++在FPGA上迅速方便地實(shí)現(xiàn)協(xié)議處理設(shè)計(jì),充分發(fā)揮高級(jí)語言帶來的效率提升優(yōu)勢(shì)。另外還具有下列優(yōu)點(diǎn):使用C函數(shù)輕松完成系統(tǒng)構(gòu)建;數(shù)據(jù)通過流交換,提供類似FIFO的標(biāo)準(zhǔn)化接口;靈活的流控制和HLS編譯指令,便于使用該工具實(shí)現(xiàn)需要的架構(gòu)。借助這些功能,用戶無需重寫源代碼就能夠迅速判研多種不同設(shè)計(jì)方案的利弊。 出于解釋這類設(shè)計(jì)的基本概念的目的,上文討論了一種能夠應(yīng)答ping和ARP請(qǐng)求,解析IP地址查詢的簡(jiǎn)單ARP服務(wù)器。結(jié)果證明用Vivado HLS設(shè)計(jì)的模塊能夠以10Gbp乃至更高的線速完成協(xié)議處理。 |