Xilinx UltraScale：為您未來架構而打造的新一代架構

發布時間：2013-7-18 16:33 發布者：eechina

關鍵詞： All Programmable , UltraScale , Xilinx

Xilinx UltraScale 架構針對要求最嚴苛的應用，提供了前所未有的ASIC級的系統級集成和容量。

UltraScale架構是業界首次在All Programmable架構中應用最先進的ASIC架構優化。該架構能從20nm平面FET結構擴展至16nm鰭式FET晶體管技術甚至更高的技術，同時還能從單芯片擴展到3D IC。借助Xilinx Vivado設計套件的分析型協同優化，UltraScale架構可以提供海量數據的路由功能，同時還能智能地解決先進工藝節點上的頭號系統性能瓶頸。這種協同設計可以在不降低性能的前提下達到實現超過90%的利用率。
UltraScale架構的突破包括：

• 幾乎可以在晶片的任何位置戰略性地布置類似于ASIC的系統時鐘，從而將時鐘歪斜降低達50%
• 系統架構中有大量并行總線，無需再使用會造成時延的流水線，從而可提高系統速度和容量
• 甚至在要求資源利用率達到90%及以上的系統中，也能消除潛在的時序收斂問題和互連瓶頸
• 可憑借3D IC集成能力構建更大型器件，并在工藝技術方面領先當前行業標準整整一代
• 能在更低的系統功耗預算范圍內顯著提高系統性能，包括多Gb串行收發器、I/O以及存儲器帶寬
• 顯著增強DSP與包處理性能
賽靈思UltraScale架構為超大容量解決方案設計人員開啟了一個全新的領域。

越多越好

自從“全面數字化”（all things digital）概念引入以來，“越多越好”成為了所有市場領域中數字系統的一種基本的、必然的發展趨勢。這一期望成為了促使系統要求更高分辨率、更高帶寬和更大存儲量的基本動力。而“更多”這一理念同時從邏輯上也引發了如下事實的產生：

• 更多的器件生成更多數據。
• 更多的數據意味著數據必須更快流動。
• 更多快速流動的數據要求計算速度更快。
• 更多的應用需要更快速地訪問更多數據。
• 數據量的增長和數據速率的提高對數據完整性提出了更高要求。

目前幾乎每個領域的數據創建和數據傳輸速率都在快速增長，這會加大對新型器件架構的需求，以應對如下問題所帶來的重重挑戰：

• 海量數據流以及類似于ASIC的時鐘布線
• 海量I/O和存儲器帶寬
• 更快的DSP和包處理
• 電源管理
• 多級安全

UltraScale架構：賽靈思的新一代All Programmable架構

為了達到每秒數百Gb的系統性能和全線速下的智能處理能力，并擴展到Tb級和每秒萬億次浮點運算，需要采用一種新的架構方案。為此，我們要做的不僅僅是簡單地提高每個晶體管或系統模塊的性能，或擴展系統中的模塊數量，而是要從根本上改善通信、時鐘、關鍵路徑和互連功能，以滿足海量數據流、實時數據包和圖像處理需求。

UltraScale™ 架構通過在一個全面可編程（All Programmable）架構中應用最先進的ASIC 技術，可應對上述需要海量I/O和存儲器帶寬、海量數據流以及卓越DSP和包處理性能的挑戰。。UltraScale架構經過精調可提供大規模布線能力并且與Vivado®設計工具進行協同優化，因此該架構的利用率達到了空前的高水平（超過90%），而且不會降低性能。

UltraScale架構是業界首次在All Programmable架構中應用最先進的ASIC架構優化該架構能從20nm平面FET結構擴展至16nm鰭式FET晶體管技術甚至更高的技術，同時還能從單芯片擴展到3D IC。UltraScale架構不僅能解決系統總吞吐量擴展和時延方面的局限性，而且還能直接應對先進工藝節點上的頭號系統性能瓶頸，即互連問題。

Xilinx UltraScale架構旨在滿足下一代系統級性能要求。（見圖1）

圖1：下一代高性能目標應用范例

賽靈思對UltraScale架構進行了數百項設計提升，并將這些改進實現有機結合，讓設計團隊能夠打造出比以往功能更強、運行速度更快、單位功耗性能更高的系統。見圖2。

圖2：Xilinx UltraScale架構

UltraScale架構與Vivado™設計套件結合使用可提供如下這些新一代系統級功能：

• 針對寬總線進行優化的海量數據流，可支持數Tb級吞吐量和最低時延
• 高度優化的關鍵路徑和內置高速存儲器，級聯后可消除DSP和包處理中的瓶頸
• 增強型DSP slice包含27x18位乘法器和雙加法器，可以顯著提高定點和IEEE 754標準浮點算法的性能與效率
• 第二代3D IC系統集成的晶片間帶寬以及最新3D IC寬存儲器優化接口均實現階梯式增長
• 類似于ASIC的多區域時鐘，提供具備超低時鐘歪斜和高性能擴展能力的低功耗時鐘網絡
• 海量I/O和存儲器帶寬，用多個硬化的ASIC級100G以太網、Interlaken和PCIe® IP核優化，可支持新一代存儲器接口功能并顯著降低時延
• 電源管理可對各種功能元件進行寬范圍的靜態與動態電源門控，實現顯著節能降耗
• 新一代安全策略，提供先進的AES比特流解密與認證方法、更多密鑰模糊處理功能以及安全器件編程
• 通過與Vivado工具協同優化消除布線擁塞問題，實現了90%以上的器件利用率，同時不降低性能或增大時延

系統設計人員將這些系統級功能進行多種組合，以解決各種問題。下面的寬數據路徑方框圖可以很好地說明這一問題。見圖3.

圖3:Tb級I/O需要海量的并行數據路徑

圖中，數據速率高達Tbps的數據流從從左側流入再從右側流出。系統必須在左右兩側的I/O端口之間傳輸數據流，同時還要執行必要的處理工作。可以通過高速串行收發器來進行I/O傳輸，運行速率高達數Gbps。一旦數Gbps的串行數據流進入器件，就必須扇出（fan out），以便與片上資源的數據流、路由和處理能力相匹配。

Tb級系統的設計挑戰：時鐘歪斜與海量數據流

舉一個現實的實例，假設左側和右側I/O端口的帶寬為100Gb/s。這意味著片上資源也必須要處理至少100Gb/s的流量。設計人員一般采用512至1024位的寬總線或數據路徑來處理相關的數據吞吐量，產生一個與片上資源功能相匹配的系統時鐘。如果線速提高到400Gb/s，那么總線寬度達到1024至2048位也并不少見。

現在考慮一下這類總線的時鐘要求。在UltraScale架構推出之前，高系統時鐘頻率運行會使這些海量數據路徑上的時鐘歪斜程度增大，甚至達到整個系統時鐘周期的將近一半。時鐘歪斜幾乎占用一半的時鐘周期，這種情況下設計方案需要依靠大量流水線才有可能達到目標系統性能。只剩下一半的時鐘周期可用于計算，因此得到可行解決方案的幾率就會很低。大量使用流水線不僅會占用大量寄存器資源，而且還會對系統的總時延造成巨大影響，這也再次證明了這種方法在當今的高性能系統中不可行。

UltraScale架構提供類似ASIC時鐘功能

多虧UltraScale 架構提供類似ASIC的多區域時鐘功能，使得設計人員現在可以將系統級時鐘放在整個晶片的任何最佳位置上，從而使系統級時鐘歪斜降低多達50%。將時鐘驅動的節點放在功能模塊的幾何中心并且平衡不同葉節點時鐘單元(leaf clock cell)的時鐘歪斜，這樣可以打破阻礙實現多Gb系統級性能的一個最大瓶頸。系統總體時鐘歪斜降低后，就無需再使用大量流水線，并可消除隨之而來的時延問題。UltraScale架構中類似于ASIC的時鐘功能不僅能移除時鐘布置方面的限制，還能在系統設計中實現大量獨立的高性能、低歪斜時鐘源。這與前幾代可編程邏輯器件中所采用的時鐘方案完全不同。從系統設計人員的角度出發，這種解決方案能輕松解決時鐘歪斜問題。

從容應對海量數據流挑戰

極高性能應用一般采用寬總線或寬數據路徑來匹配路由到片上處理資源的數據流。然而采用寬總線來擴展性能時，除了要簡單處理時鐘歪斜問題外，還要應對一系列自身挑戰。眾所周知，同類競爭架構經證實其適用于高性能設計的布線資源非常有限且缺乏靈活性。如果FPGA的互連架構性能較低，那么用它來實現100Gb/s吞吐量的應用時，需要將數據總線提升到1536至2048位的寬度。

盡管更寬的總線實現方案可以降低系統時鐘頻率，但由于缺乏支持寬總線系統所需的布線資源，因此會產生嚴重的時序收斂問題。而且有些FPGA廠商采用的是過時的模擬退火布局布線算法，不考慮擁塞程度和總線路長度等全局設計指標，因此會進一步加劇時序收斂問題。這樣，設計人員就不得不進行多方面權衡，包括降低系統性能（通常不可取）；使用大量流水線，不惜增大時延；或者降低可用器件資源利用率。在任何情況下，經證明這些解決方案都是不佳或存在欠缺的方案。最重要的是，傳統FPGA中布線資源（用于滿足100Gb/s應用的要求）的局限性幾乎可以說明它們不可能適用新一代多Tb應用的要求，即便能適用，但器件的利用率會非常低，時延極高。

更為復雜的問題在于，通過大量的寬數據總線來擴展性能會帶來額外的代價，那就是需要顯著增加邏輯電路開銷用以支持寬總線的實施，從而進一步加大實現時序收斂的難度。

以以太網數據包大小為例可以很好地說明這個情況。以太網的數據包最小為64字節（512位）。假設采用2048位寬的總線來實現400G的系統，那么總線最多容納4個數據包。

在2048位寬的總線中存在多種數據包組合形式，例如4個完整數據包或者1個、2個或3個完整或部分數據包，這樣需要使用大量邏輯來處理不同的情況與組合。需要大量復雜的重復邏輯來應對這些可能的組合。此外，如果總線要求對四個數據包進行同時處理并寫入到存儲器中，那么可能需要對邏輯的某些部分進行加速（或擴展性能）。可以考慮通過邏輯加速或用四個獨立的相同存儲器控制器來相繼處理多個數據包，但這些方式會進一步加大布線資源的壓力，迫使架構必須具備更多的高性能、低歪斜布線資源。參見圖4。

圖4：增加數據路徑時鐘寬度和時鐘速率需要更多邏輯和布線資源

半導體工藝的擴展影響互連技術

隨著業界向20nm或更高級半導體工藝技術推進，在與銅線互連有關的RC延遲方面出現了新的挑戰，它會阻礙向新工藝節點演進所實現的性能提升效果。晶體管互連延遲的增加會直接影響所能實現的總體系統性能，因此更加需要所使用的布線架構能提供滿足新一代應用要求的性能等級。UltraScale布線架構在開發過程中充分考慮了新一代工藝技術的特點，而且能明顯減輕銅線互連的影響——如不進行妥善處理會成為系統性能瓶頸。

UltraScale互連架構：針對海量數據流進行優化

UltraScale新一代互連架構的推出體現了可編程邏輯布線技術的真正突破。賽靈思致力于滿足從多Gb智能包處理到多Tb數據路徑等新一代應用需求，即必須支持海量數據流。在實現寬總線邏輯模塊（將總線寬度擴展至512位、1024位甚至更高）的過程中，布線或互連擁塞問題一直是影響實現時序收斂和高質量結果的主要制約因素。過于擁堵的邏輯設計通常無法在早期器件架構中進行布線；即使工具能夠對擁塞的設計進行布線，最終設計也經常需要在低于預期的時鐘速率下運行。而UltraScale布線架構則能完全消除布線擁塞問題。結論很簡單：只要設計合理，就能進行布線。

我們來做個類比。位于市中心的一個繁忙十字路口，交通流量的方向是從北到南，從南到北，從東到西，從西到東，有些車輛正試圖掉頭，所有交通車輛試圖同時移動。這樣通常就會造成大堵車。現在考慮一下將這樣的十字路口精心設計為現代化高速公路或主干道，情況又會如何。道路設計人員設計出了專用坡道（快行道），用以將交通流量從主要高速路口的一端順暢地疏導至另一端。交通流量可以從高速路的一端全速移動到另一端，不存在堵車現象。

賽靈思為UltraScale架構加入了類似的快行道。這些新增的快行道可供附近的邏輯元件之間傳輸數據，盡管這些元件并不一定相鄰，但它們仍通過特定的設計實現邏輯上的連接。這樣，UltraScale架構所能管理的數據量就會呈指數級上升，如圖5所示。

圖5：增加真實有效的路由路徑可以幫助解決日益增長的系統復雜性

UltraScale架構堆疊硅片互聯技術全面強化所有功能

很少有開發的技術能夠像堆疊硅片互聯（SSI）技術集成那樣對器件容量和性能產生如此重大的影響，這已得到了賽靈思第一代基于7系列All Programmable器件的3D IC產品的驗證。集成SSI技術后，設計人員可以構建出工藝技術領先行業標準整整一代水平的更大型器件。而且該技術在賽靈思第二代基于UltraScale架構的3D IC產品中也同樣會達到這種效果。

由于3D IC中硅片間通信連接比獨立封裝的硅片間通信連接更密集、更快速，因此硅片間的通信所需功耗更低（假設硅片無需驅動硅片到封裝間互連以及板級互連的附加阻抗）。所以，與獨立封裝的硅片相比，SSI技術的集成能夠在顯著擴大容量和性能的同時降低功耗。此外，由于無法輕易訪問電路板層面的硅片間通信，這樣系統安全性也得到了加強。

Virtex®UltraScale和Kintex®UltraScale系列成員在第二代3D IC中的連接資源數量以及相關的硅片間帶寬都實現了階梯式增長。布線資源和硅片間帶寬的大幅增長確保了新一代應用能夠在實現其高器件利用率的前提下達到目標性能和時序收斂。

智能、快速處理的挑戰

對于任何高性能系統來說，無論目標是提高數據包吞吐量，還是增大DSP GMAC，亦或是增加屏幕的每秒顯示像素，所面臨的技術挑戰都是相同的，如圖6所示。

圖6：高性能系統需要海量的數據帶寬

無論對于哪種應用，問題描述起來都很簡單，即大量數據以數十至數百GB的速度通過多個高速串行端口進入系統。應將這些高速數據路由到處理邏輯并進行實時處理，這一般要求采用較高的DSP或包處理速度來應對高數據速率。輸入數據和中間處理結果數據必須存儲在系統中或靠近處理元件的地方，或者存放在與系統臨近的大容量存儲器內。數據經過處理后，必須路由至高速輸出收發器進行發送。如圖6所示：

• 通過高速串行線路實現系統數據的輸入和輸出要求利用可靠的多Gb串行收發器實現很高的I/O帶寬。串行收發器必須可靠并具備非常低的誤碼率。
• 大量并行布局線路從多Gb串行收發器扇出至廣泛的功能處理模塊，這需要通過低時鐘歪斜的寬扇出能力才能實現。布置大量并行總線的難度比較大。
• 要對海量數據流進行處理，就要采用高吞吐量的邏輯模塊和DSP模塊，并要通過高帶寬存儲器接口實現非常快速的內部與外部存儲器訪問能力。這種處理需求對任何架構的數據與時鐘布線功能都來說都是一種嚴峻的考驗。

必須在一定的功耗范圍內滿足所有性能指標。系統必須在有限的功耗和冷卻限值內運行，如圖 7概念圖所示。

圖7：UltraScale架構超越了早期的功耗和性能限制

UltraScale架構的組成部分針對新一代處理系統的眾多復雜要求進行了調整。

提供海量I/O和存儲器帶寬

UltraScale架構能在顯著增強高速SerDes收發器性能的同時大幅降低其功耗。Virtex UltraScale器件采用可支持5 Tbps以上串行系統帶寬的新一代SerDes（收發器）。

基于UltraScale架構的GTY和GTH串行收發器包含內部變速箱(gearbox)邏輯，用于將多Gb/s的串行數據線速率轉化成更寬的數據總線（幾百MHz），以便與片上邏輯和存儲器速度相匹配。收發器的gearbox能消除在系統設計中因使用外部gearbox芯片而帶來的成本。與之類似的是，基于UltraScale架構的GTY串行收發器所采用的集成分數鎖相環（PLL）能夠將一個參考時鐘轉換成多個線路速率，因此無需再使用外部的電壓控制型晶體振蕩器（VCXO）。僅這一項功能就可以節省數十個分立器件，并為采用眾多不同線路速率高速串行端口的系統設計節省數百美元。

采用UltraScale架構的ASIC級串行收發器與早期器件中的收發器相比具備更高的靈活性，同時保留了賽靈思7系列ALL Programmable器件可靠的自適應均衡功能（自動增益控制、連續時間線性均衡、決策反饋均衡）。賽靈思的自適應均衡功能可以將誤碼率維持在無法檢測到的水平（例如小于10-17），并允許基于UltraScale架構的收發器直接驅動數GHz的高速背板。

提供超高的外部與內部存儲器帶寬

UltraScale架構能支持多個適用于DDR3/4的SDRAM存儲控制器，并包含硬化的DDR物理層（PHY）片上模塊，從而將存儲器接口性能提升到了新高度。與早期器件相比，基于UltraScale架構的器件具備如下優勢：

• 更多SDRAM控制器
• 更寬的SDRAM端口
• 更快的存儲器端口

因此，基于UltraScale架構的All Programmable器件能提供超過1 Tb/s的DDR SDRAM存儲器帶寬，用以滿足領先的新一代系統設計提出的海量數據流、快速處理和超大存儲器等要求。與軟核PHY相比，硬化的SDRAM PHY模塊能將讀取時延降低30%，同時該模塊能控制DDR4 SDRAM，從而將用于外部存儲器的功耗降低20%以上。

片上Block RAM性能往往是影響系統最大時鐘速率的關鍵因素。賽靈思已對UltraScale架構All Programmable器件中的Block RAM進行了重新設計，以便在降低功耗的同時與系統中其他可編程模塊的性能相匹配。新的Block RAM架構支持高速存儲器級聯，消除了DSP和包處理中存在的瓶頸。輸出多路復用器在這種新架構中的使用方式很獨特，使得Vivado設計套件工具在無需附加片讓布線或邏輯資源的情況下也能高效創建大型、快速的RAM陣列和FIFO。

賽靈思還加強了基于UltraScale架構的Block RAM FIFO配置，以便在相同FIFO上支持不同寬度的輸入與輸出端口。當FIFO需要從一個系統時鐘域跨越到另一個域時（UltraScale架構現在支持很多個時鐘域），這項功能很有幫助。

實現快速、智能處理

為滿足最終用戶要求，DSP和包處理系統的性能需要不斷提高，如圖8示。

圖8：系統性能需要隨時間推移而增長

人們需要從噪聲中提取更多信號信息；需要創建更加逼真的圖像；需要應對無止境的數據包流量增長，所有這些都在對性能提出更高要求。然而，與此同時，還要將成本控制在規定的預算范圍內，這樣就給設計帶來了諸多實際限制。如圖9所示，圖中描述了LTE和LTE Advanced（LTE-A）基站的性能與成本隨時間的變化趨勢。

圖9：LTE性能和成本發展趨勢

簡而言之，客戶需要以更低成本獲得更高的系統性能，這是大多數電子產業永恒不變的趨勢，而這也正是UltraScale架構的優勢所在。

在領先的性能優勢基礎之上增強DSP

賽靈思針對UltraScale架構顯著增強了已經具備行業最高性能的Virtex-7 FPGA的DSP48E1 DSP slice，以實現更快的數字信號處理能力，同時減少DSP模塊外部的布線或邏輯資源使用量。在DSP slice上應用的一系列創新功能可以改善乘法運算和MACC運算，從而增強功能并降低功耗。

基于UltraScale架構的DSP48E2 DSP slice包含27×18位乘法器，可將更大的函數映射到更少的DSP slice中。例如，DSP48E2 block憑借更寬的27×18位乘法器能夠以更少的資源實現IEEE Std 754雙精度算法，與采用賽靈思7系列All Programmable器件中的DSP48E1模塊實現相同功能相比，所采用的DSP模塊數量可減少三分之二。

在DSP48E2 slice中包含寬MUX和寬XOR函數后，像錯誤校正與控制（ECC）、循環冗余校驗（CRC）以及前向糾錯（FEC）等非DSP運算就可以將DSP slice作為高速、硬化的寬邏輯模塊來使用。這些增強特性有助于提高性能，降低功耗，并減少可配置邏輯模塊（CLB）的使用量，從而將更多CLB用于實現其他功能。正是通過為DSP等模塊增加新功能，UltraScale架構得以同時滿足新一代應用對于提高處理能力以及降低成本方面的要求。

擴展的智能數據包處理性能

無止境的帶寬需求正持續推高網絡通信基礎設施的升級投入。數字視頻傳輸所形成的海量數據流加速了100Gb/s網絡設備的成熟，同時也加大了對400G解決方案的需求。數據包處理甚至可以給當前業內數百Gb每秒速率的最先進架構帶來嚴峻的性能挑戰。在線路速度下執行的校驗和計算與橋接等基礎數據包處理功能會對性能和資源利用率帶來顯著影響。

除了解決與高性能數據包處理有關的海量數據流問題外，UltraScale架構還包含多種專為數據包處理定制的創新功能。其中包括：對DSP48模塊進行修改以支持線速度下進行的CRC 32校驗和計算；加入了硬化的Gb以太網MAC和Interlaken芯片到芯片接口，用以支持智能數據包處理的性能突破和最新的集成等級。

UltraScale架構滿足下一代系統級功耗要求

隨著系統級性能伴隨產品的更新換代而不斷得到擴展，人們期望（也是系統要求）功耗也能保持不變或者繼續降低。例如，對于有線通信基礎設備而言，新一代線路卡必須在不改變外形尺寸或功耗水平的前提下支持更高的帶寬或計算性能。盡管我們可能認為這與系統性能提升的本質有一些矛盾（通常來說性能提升必然以功耗增加為代價），但是我們仍可通過系統集成、電源管理策略以及高級工藝技術來持續降低系統功耗。

UltraScale架構為每一代All Programmable系列提供了無可比擬的系統級功耗優勢。低功耗的半導體工藝加上芯片和軟件上顯著的靜態、動態功耗門控技術使得總的系統功耗比Xilinx 7系列器件（已經是目前業界功耗最低的可編程邏輯器件）還要低50%。

降低功耗對設計人員來說意味著兩件事：（1）更低的功耗預算和散熱管理要求；（2）更高的速度。這兩點對滿足新一代應用不斷提高的要求極為重要。

UltraScale的IP保護與防篡改安全功能

幾乎在所有市場都在不斷加大對賽靈思All Programmable FPGA的使用，以至于這些器件正在成為眾多新系統的核心。

賽靈思All Programmable器件的不斷普及使得保護器件內的IP與保護器件所處理的數據具有同等重要性。隨著安全威脅意識的增長，系統安全領域隨即推出了一系列可推動設計安全性不斷提高的策略與標準。設計人員在部署需要達到安全標準的產品時，必須考慮眾多安全威脅或潛在薄弱環節。簡要的薄弱環節列表包括如下內容：大意自滿、不完備的安全措施、后門漏洞、設計缺陷、器件缺陷、單粒子翻轉、比特流解碼、電子欺詐、特洛伊木馬、回讀、邊帶信道以及故障插入。

賽靈思的安全解決方案與創新產品已經歷了五代以上的發展，UltraScale All Programmable架構在這一基礎上引入了多種增強型安全特性，可對載入器件內的IP提供更強的保護并實現防篡改功能，繼續保持著延續賽靈思在安全解決方案領域的領先地位。UltraScale 架構在安全性方面的改進包括：更強大更先進的AES比特流解密與認證方案；更多密鑰模糊處理功能；確保在編程過程中無法對加密密鑰進行外部訪問。這樣就能得到穩定可靠的業界領先解決方案，滿足不斷變化的新一代安全要求。

分析協同優化=可預見性的成功

為最嚴格的應用實現最高水平的集成度、容量和類似于ASIC的系統級性能，僅這一項就已經頗具挑戰。而UltraScale架構還從20nm平面FET擴展至16nm鰭式FET甚至更高級的技術，并且從單芯片電路擴展至3D IC，同時還能在不降低性能的前提下實現高達90%的最高器件利用率。滿足這些嚴苛目標的唯一途徑就是將UltraScale架構與Vivado設計套件進行協同優化。

Vivado設計套件是一款全新的SoC增強型設計環境，最初針對賽靈思7系列器件推出，主要用于未來十年的All Programmable器件（例如UltraScale架構）。Vivado能解決可編程系統集成與實現方面的關鍵設計瓶頸，其生產力相對同類競爭開發環境提高了四倍。

要實現新一代設計提出的超高性能、集成度以及結果質量目標，就需要采用全新的器件布局布線方案。傳統FPGA布局布線工具依靠模擬退火作為主要的布局優化算法，無法顧及擁塞程度或總導線長度等全局設計指標。要實現具備多Tb性能的設計，需要采用寬總線而且要求時鐘歪斜幾乎為零。因此，采用模擬退火這種不考慮總體導線長度和擁塞情況的布局布線算法是絕對不可行的。

最佳的布局方案取決于多種因素，例如時序、導線長度和擁塞等標準。

Vivado設計套件利用多變量成本函數找出最優布局方案，這樣，設計人員就可以快速確定布線方案，并使器件利用率達到90%以上且不降低性能。與采用其他解決方案相比，這種方式的運行時間更短而且結果的變化程度也更小，這樣實現設計收斂所需的迭代次數就更少，并且性能和器件利用率都達到了業界前所未有的高水平。

UltraScale架構與工藝技術

工藝技術在任何芯片架構中都是一個重要的考慮因素，賽靈思UltraScale架構可以支持多種工藝技術。賽靈思與臺積(TSMC)合作推出的28nm HPL（低功耗高性能）工藝技術是賽靈思7系列All Programmable器件能夠取得巨大成功的主要因素。憑借之前合作所取得的經驗，賽靈思與臺積又開發出了20nm 20SoC平面工藝技術，用以支持預計將于2013年推出的第一代賽靈思UltraScale All Programmable器件。

然而，賽靈思設計UltraScale架構還有另一個目的，那就是充分利用繼20SoC之后的工藝節點16FinFET所提供的更高的性能、容量和節電性能。另外，在賽靈思“FinFast”開發計劃（該計劃匯集了賽靈思和臺積的優秀工程設計人才）的支持下，賽靈思UltraScale架構和Vivado 設計套件針對臺積 16FinFET工藝技術進行了協同優化。這樣，賽靈思與臺積將于2014年推出第二代UltraScale All Programmable器件芯片。

結論

為了實現數百Gbps的系統級性能，實現全線速智能處理，并擴展至Tbps和每秒萬億次的浮點運算水平，我們需要采用一種全新的架構方案。賽靈思根據新一代高性能系統需求已經開發出了新一代UltraScale 架構和Vivado設計套件。UltraScale架構能提供ASIC級的系統性能，滿足最嚴苛的新一代應用要求：即實現海量I/O和存儲器帶寬、海量數據流、極高的DSP與包處理性能，并在不影響性能的前提下實現超過90%的前所未有的器件利用率。

UltraScale是業內首款在All Programmable架構中應用最前沿ASIC架構增強功能的產品，能夠從20nm平面FET擴展到16nm 鰭式FET，甚至更先進的技術，此外還能從單芯片電路擴展至3D IC。通過整合臺積的先進技術并與Vivado新一代設計套件實現協同優化，賽靈思提前一年實現同類競爭產品1.5倍至2倍的系統級性能與集成度。這相當于我們比競爭對手領先整整一代。

如需了解如何利用UltraScale架構實現您的新一代設計目標，或者詳細了解基于UltraScale架構的All Programmable FPGA系列，請聯系當地的賽靈思銷售辦事處或者訪問網址 china.xilinx.com。

本文地址：http://www.qingdxww.cn/thread-117462-1-1.html 【打印本頁】

本站部分文章為轉載或網友發布，目的在于傳遞和分享信息，并不代表本網贊同其觀點和對其真實性負責；文章版權歸原作者及原出處所有，如涉及作品內容、版權和其它問題，我們將根據著作權人的要求，第一時間更正或刪除。