    一、產品概述 設備基于3U VPX的導冷結構,集成FPGA接口預處理卡,GPU板卡、飛騰ARM處理卡,實現光纖、差分電口或者Camera link的圖像接入,FPGA信號預處理,GPU AI計算,飛騰ARM的采集管理存儲。 二、系統組成 系統組成包括:3U VPX機箱電源、3U VPX背板、 1塊3U VPX V7采集處理板、1塊3U VPX AGX orin GPU計算主板、1塊3U VPX飛騰處理器計算板。    2.1基于XC7V690T的3U VPX信號處理板(274)  本板卡系我司自主研發的基于3U VPX導冷架構的信號處理板,適用于高速圖像處理等。芯片采用工業級設計。該處理板包含1片Xilinx公司的Virtex7系列FPGA-XC7V690T-2FFG1761I。板載兩組64位寬DDR3,每組容量4GB,一個HPC FMC接口。VPX接口連接4組x4 GTH,24組LVDS,一路RS422,一路1000Base-T。板卡的電氣與機械設計依據VPX標準(VITA 46.0),支持導冷,能夠滿足用戶在特殊環境下的使用需求。
  板卡功能 | 參數內容 | 主處理器 | Xilinx XC7V690T-2FFG1761I | 板卡標準 | VPX VITA 46.0 | 電氣規范 | PCIe 2.0,3.0 X4 | FMC接口 | FMC ANSI/VITA 57.1 – 2008 ,ASP-134486-01 HPC中LA,HA,HB全部接口和DP0~DP7 8路高速接口 | 板載緩存 | 兩組DDR3,每組512Mx64bit(4GB), MT41K512M8RH-125-IT | 加載Flash | BPI加載模式,BPI Flash 2Gb | VPX接口 | P1: GTX x16, 支持PCIe、SRIO協議 P2: LVDS x24,一路RS422,一路1000Base-T | 仿真器接口 | 1x 6Pin JTAG接口,間距2.54mm | LED | 兩個,電源狀態指示燈,FPGA狀態指示燈(可編程) | 復位方式 | 外復位 | 板卡尺寸 | 100mm x 160mm x20mm | 板卡重量 | (含散熱片) | 板卡供電 | +12V@4A | 板卡功耗 | 48W | 工作溫度 | Industrial -20℃到+70℃ |
光纖收發子卡、2711子卡、Cameralink子卡   2.2 基于3U VPX的AGX Orin GPU計算主板(735)  Jetson AGX Orin 采用 NVIDIA Ampere 架構 GPU 和 Arm Cortex-A78AE CPU,以及新一代深度學習和視覺加速器。高速 IO、204GB/s 的內存帶寬以及 32GB 的 DRAM 能夠饋送多個并發 AI 應用程序管道。采用 Jetson AGX Orin,您現在可以部署更大型、更復雜的模型,解決自然語言理解、3D 感知和多傳感器融合等問題。Jetson Orin算力高達275 TOPS,是上一代多個并發 AI推理管道性能的8倍,加上支持多個傳感器高速接口,可為新時代機器人提供理想的解決方案. GPU | 2048-core NVIDIA Ampere architecture GPU with 64 Tensor Cores | CPU | 12-core Arm Cortex-A78AE v8.2 64-bit CPU 3MB L2 + 6MB L3 | 顯存 | 64GB 256-bit LPDDR5 204.8GB/s | 存儲 | 64GB eMMC 5.1 | DLA最大頻率 | 1.6 GHz | AI性能 | 275 TOPS | DL加速器 | 2x NVDLA v2 | 視頻加速器 | 1x PVA v2 | 視頻編碼 | 2x 4K60 (H.265), 4x 4K30 (H.265) 8x 1080p60 (H.265), 16x 1080p30 (H.265) | 視頻解碼 | 1x 8K30 (H.265), 3x 4K60 (H.265), 7x 4K30 (H.265) 11x 1080p60 (H.265),22x 1080p30 (H.265) | PCle | x8 PCle Gen4 | 顯示接口 | HDMI | 網絡 | RJ45 接口 (高達1 GbE) |
2.3 3U VPX飛騰處理器刀片計算機 
2.3.1 產品概述 該產品是一款基于國產飛騰FT2000 4核或騰銳D2000 8核的高性能3U VPX刀片式計算機。產品提供了4個x4 PCIe 3.0總線接口,同時可配置為1個x16或2個x8 PCIe3.0接口,因此具有很強的擴展性,極大地滿足多負載多節點的應用需求。產品結構完全符合VITA 46.0規范,有很強的可靠性、可維護性、可管理性,并與軍用計算機的抗振動、抗沖擊、抗寬溫環境急劇變化等惡劣環境特性進行完美融合。 2.3.2 功能指標 ● 3U 5HP VPX規格。 ● 支持FT-2000/4 四核處理器和騰銳D2000 八核處理器 FT-2000/4標準版,2.6GHz,16W 騰銳D2000/8標準版,2.3GHz,25W ● 板載16GB雙通道DDR4內存,頻率2400MHz。 ● 支持2個VGA接口,最大分辨率1920x1080@60Hz;其中1路VGA為后出接口。 ● 支持4個x4 PCIe3.0接口,可配置成1個x16 PCIe 3.0或2個x8 PCIe 3.0。 ● 前面板支持1路10/100/1000Mbps網絡接口,后出2路10/100/1000Mbps網絡信號,其中1路后出網口與前面板網口二選一切換。 ● 板載1個mSATA接口,支持SATA3.0;后出2路SATA3.0信號,用于擴展存儲。 ● 前面板支持2個USB3.0接口;后出2路USB3.0接口信號。 ● 提供2路RS232后出串口,其中1路可選RS422/RS485模式。 ● 提供1路RS232后出CPU管理串口。 ● 前面板帶復位按鍵和LED指示燈。 ● 單板管理功能(可選功能)。 ● 支持銀河麒麟、UOS、Centos、ubuntu、VxWorks系統。 (本項目使用ubuntu操作系統) 三、軟件開發內容
3.1光纖收發整體流程設計 2路QSFP+光纖接口,一路作為發送端口,一路作為接收端口,每路接口作為4個X1通道互不影響。 接收端:數據流從光纖接收端進來,存到FPGA的DDR中,然后通過PCIE導入到GPU中。 發送端:數據存在飛騰主板中,飛騰通過PCIE寫入FPGA的DDR中,FPGA取走數據,通過光纖發送端口發送出去。 GPU接收的數據通過千兆網發送到飛騰主板中。
3.2 TLK2711收發整體流程設計 
4路TLK2711接口,2路作為發送端口,2路作為接收端口,每路接口互不影響。 接收端:數據流從TLK2711接收端進來,存到FPGA的DDR中,然后通過PCIE導入到GPU中。 發送端:數據存在飛騰主板中,飛騰通過PCIE寫入FPGA的DDR中,FPGA取走數據,通過TLK2711發送端口發送出去。 GPU接收的數據通過千兆網發送到飛騰主板中。
3.3 FPGA流程框架 如圖所示,FPGA程序可以大體劃分為PCIe端點控制器XDMA、DDR3讀寫控制以及TLK2711收發控制三部分。FPGA與PC的PCIe通信采用Xilinx的XDMA IP,邏輯模塊間采用AXI總線互聯方式。XDMA0數據鏈路為飛騰主板主控數據鏈路,XDMA1數據鏈路為Orin_GPU卡主控數據鏈路。 Orin_GPU卡主控數據鏈路:tlk2711子卡的接收端口接收到圖像數據緩存到第一組ddr3中,大小為4GB,對0-4GB的ddr3空間讀寫,gpu把圖像數據讀出并作處理。鏈路數據流向分為數據發送(FPGA-PC)(這里飛騰主板和Orin_GPU卡都稱為PC): 數據接收過程描述(FPGA-PC):圖像數據以1.6Gbps線速率通過rxp接口,wr_fifo把16bit數據位寬轉化為128bit數據位寬,fdma_ctrl的寫ddr3模塊把數據寫入到0-4GB的地址空間,通過定義的寄存器信號告訴主機軟件取出對應地址空間的數據,通過dma的C2H通道直接寫入主機內存。 飛騰主板主控數據鏈路:飛騰主板把圖像處理結果寫入板卡第二組ddr3中,fpga邏輯讀出ddr3中的數據通過tlk2711子卡的發送端口發送出去。(這里飛騰主板和Orin_GPU卡都稱為PC)。 數據發送過程描述(PC-FPGA):為了實現數據發送,主機軟件從主機內存固定位置讀出圖像處理數據發送到DMA的H2C通道,寫入到板載第二組DDR3的0-4GB的空間,主機軟件通過寄存器通知fdma_ctrl的讀ddr3模塊取出對應地址ddr3的數據,通過rd_fifo把數據128bit位寬變化到16bit后,給到tlk2711子卡的發送模塊,最后數據以1.6Gbps的線速率通過txp口發送出去。
3.4 軟件PCIE讀流程 軟件啟動開始接收,軟件通過寄存器使能FPGA開始接收數據(光纖或者TLK2711數據),軟件開始輪詢FPGA寫入完成寄存器,當讀到FPGA完成標志,說明FPGA已經寫入數據,軟件讀取DDR中數據,完成一次讀取數據交互流程。 之后重復單次流程,直到數據接收完整。
3.5 軟件PCIE寫流程 軟件啟動開始發送數據(光纖或者TLK2711數據),軟件把數據寫入DDR中, 通過寄存器使能FPGA開始發送,軟件開始輪詢FPGA讀取完成寄存器,當讀到FPGA完成標志,說明FPGA已經把DDR的數據取走,這樣就完成一次寫入數據交互流程。之后重復單次流程,直到數據發送完整。
3.6飛騰GPU數據交互 在背板設計中,飛騰主板和GPU千兆網互聯和RS232互聯。考慮傳輸速度,使用千兆網進行傳輸。使用TCP/IP協議,飛騰處理器為TCP服務端,GPU為TCP客戶端主動進行鏈接請求。 3.7 客戶端界面 客戶端具有狀態信息顯示,控制四通道光纖數據發送或者雙通道TLK2711接口數據發生功能。上位機自動識別FPGA子卡類型,切換操作界面。 四通道光纖子卡界面 雙通道TLK2711子卡界面   |