來源:半導體行業觀察 一、 2023年存算一體行業盤點 在過去的2023一年中,AI行業飛速發展,對硬件算力的需求也呈爆炸式增長,特別是生成式大模型的火熱,SOTA模型的參數規模提升了幾個數量級。一方面,可預見的模型參數量增長需要更大規模的片上算力,在存內計算技術應用中即意味著更大規模的存算陣列以及更多的宏單元堆疊;另一方面,復雜網絡的推理或訓練需要存算陣列能夠支持更高精度的計算類型,例如INT16、FP16、FP32等數據類型的乘累加計算。 對于存算宏單元的設計,從過去一年中存算領域的高水平會議/期刊論文發表情況來看,數字域的高精度存內計算依然是主流,數字域計算極高的信噪比與魯棒性使高精度的乘累加計算成為可能,在更低的芯片制程下,數字域存算宏單元也能達到很高的面積效率與計算吞吐。而另一方面,越來越多以存算宏單元為乘累加引擎構建的微架構/片上系統的出現是大勢所趨,隨著模型參數量的急劇增長,難以在片上實現參數的全靜態處理,因而不得不將包括了大容量的片外存儲(DDR)在內的存儲器層級(Memory Hierarchy)納入系統設計的考慮范疇,一些基于高帶寬存儲器(HBM)的存內處理體系的出現很好地印證了這一點。此外,在對功耗和性能要求嚴苛的邊緣側,以ReRAM和MRAM為代表的非易失性存儲器存內/近存計算架構能夠實現極低的待機功耗,有望在邊緣端實現高能效/高安全性的網絡推理乃至模型微調。 (一)存算一體學術界重點事件盤點 1. ISSCC2023會議于2月19日召開 1.1 AMD 董事長兼首席執行官蘇姿豐在會上表示,到目前為止,實現計算能力持續復合增長的最大限制因素是能效,以加速下一代高性能計算所需的能效創新,并最終實現 zettascale級別的性能。要完全應對這一挑戰,就需要通過擴展特定領域的架構來加速核心算法,在從晶體管到軟件系統各個方面大規模部署人工智能。 7.4 臺積電(TSMC)基于4nm FinFET 工藝開發了一款數字域存內計算宏單元(DCIM),通過降低陣列利用率,即部分使能陣列的方式,重構了存儲的權重(Weight)的位寬(8b/12b),輸入特征值(Input Feature)以比特串行(Bit-Serial)的方式輸入宏單元,在乘累加后處理模塊處實現了8/12/16b的位寬重構,以此來支持更高精度的整型矩陣向量乘計算。此外,該設計采用雙8T+NOR門的比特單元設計以支持運算和更新的同時進行(PingPong設計)。臺積電的研究人員還根據運算時流水線的延時余量設計了混合閾值電壓的晶體管分布,在SRAM陣列和加法樹前級采用高閾值電壓晶體管以降低漏電,在后級加法樹采用低閾值電壓晶體管以降低延時,平衡了宏單元的整體功耗與延時。最終在先進工藝和設計技巧加持下,宏單元達到了6163-TOPS/W/b(~96TOPS/W for INT8)的能效以及4790TOPS/mm2/b(~75TOPS/mm2 for INT8)的算力密度。 7.1 & 7.2 臺灣清華大學(NTHU)和東南大學(SEU)分別提出了兩套基于SRAM-CIM的存內實現浮點計算的方案,NTHU的研究人員將進行乘累加計算的權重指數(Exponent)和特征值指數相加,在時域中完成一批數據(128組)的移位對指,根據對指結果對特征值尾數(Mantissa)進行移位后再與權重尾數在電荷-數字混合域進行整型的乘累加計算,而SEU的研究人員將權重數據和特征值數據分開對指,對指移位完成后的權重數據存儲在SRAM陣列中,對指移位完成后的特征值數據再以2bit串行的方式輸入到宏單元中在數字域完成尾數的乘累加計算。 值得一提的是,NTHU的工作以數模混合的方式平衡了整體的能量/面積效率與計算準確度,而SEU的工作利用近似數字計算的方式同樣在能效/面效與準確度中做出了權衡(tradeoff)。兩個宏單元支持的浮點數據類型不約而同地都選擇了Google在TPUv3上提出支持的浮點數類型BF16,BF16擁有比FP16更大的數值空間,計算時不易溢出,其8bit的尾數位寬對于存算宏單元支持BF16/INT8的重構也十分友好。最終NTHU的宏單元(22nm)實現了16.22~17.59的TFLOPS/W的能效,在90%的輸入稀疏性下能夠達到70.21 TFLOPS/W的峰值能效,而SEU的宏單元(28nm)達到了14.04~31.6 TFLOPS/W的浮點能效以及19.5~44 TOPS/W的整型(INT8)計算能效。 16.1 & 16.2 清華大學(THU)和復旦大學(FDU)分別提出了兩款支持Transformer類型網絡的加速器,均以整型的SRAM-CIM宏單元為乘累加引擎,THU的加速器支持多模態Transformer,利用注意力計算的稀疏性對計算token進行實時剪枝,宏單元利用數據的比特稀疏性提高計算能效最終達到了48.4~101.1的INT8系統能效以及12.1~60.3的INT16系統能效,FDU的工作同樣利用了數據稀疏性,使用蝶形數據壓縮電路跳過塊狀(block-wise)的零數據,提升了系統運算性能,最終達到了25.22的INT8系統能效。 16.4 中科院微電子所(IMCAS)和清華大學(THU)共同發表的支持浮點計算的存算加速器工作提出了另一種實現高精度浮點計算的思路,該工作利用了神經網絡計算的數據分布特征,將大的離群數值與其他數據分開計算,大的離群數值總量小,但對計算結果影響大,這部分被分配到數字邏輯中進行無精度損失的計算,而其他的總量大,數值相對小的數據被送往存算宏單元中完成乘累加計算,忍受并行計算的對指移位帶來的截斷精度損失。架構整體還對比特串行計算的稀疏性以及離群值的稀疏性做細致的加速,達到了17.2~91.3的系統浮點能效(FP16的數據類型)。 33.2 & 33.4 & 16.6 臺灣清華(NTHU)&臺積電(TSMC)團隊以及東南大學(SEU)團隊分別發表了兩款基于MRAM的近存/存內計算宏單元(33.2、33.4)。NTHU&TSMC團隊在22nm工藝下實現了一款8Mb大小支持4/8b近存計算宏單元,在部署ResNet20網絡時能夠達到160.1TOPS/W的峰值能效(@90%輸入稀疏度),而SEU團隊在70nm下驗證了一款2Mb大小支持單比特存內計算的MRAM宏單元,為改善傳統1T1M比特單元的讀寫性能,該團隊創新性地提出了偽2T2M的比特單元,最終在0.85V供電電壓下測得能效標準值41.5TOPS/W. 此外,NTHU&TSMC團隊在28nm工藝下實現了一款基于ReRAM存內計算的邊緣端處理器(16.6),該處理器擯棄傳統的片外非易失性存儲+片上邏輯計算的架構,利用片上4MByte的ReRAM存內計算宏單元實現了極低功耗的休眠-啟動的邊緣端場景應用。該加速器支持1~8比特的計算精度,在0.8V供電電壓,INT8部署MobileNetv2網絡的工作條件下測得芯片整體能效可達51.4TOPS/W. 2. 2023年9月14日,清華大學(THU)團隊在Science雜志上發表首顆實現片上訓練的ReRAM存算一體芯片.其將所有的網絡參數部署在片上的ReRAM陣列,利用推理結果的符號位對憶阻器單元的電導進行調制,完成誤差的反向傳播,進而完成網絡的片上訓練,論文展示了芯片在小車循跡、手寫數字識別、語音識別等任務上優秀的學習能力和推理精度。 (二) 產業界重點事件盤點 1. 后摩智能5月發布首款基于存算一體架構大算力智駕芯片后摩鴻途®️H30 后摩鴻途®️H30基于 SRAM 存儲介質,采用數字存算一體架構,擁有極低的訪存功耗和超高的計算密度,在 Int8 數據精度條件下,其 AI 核心IPU 能效比高達 15Tops/W,是傳統架構芯片的7 倍以上。 得益于存算一體的架構優勢,H30 基于 12nm 工藝制程,在 Int8 數據精度下實現高達 256TOPS 的物理算力,所需功耗不超過35W,整個 SoC 能效比達到了 7.3Tops/W,具有高計算效率、低計算延時以及低工藝依賴等特點。 2. 特斯拉DOJO 量產開始 2021年,特斯拉在AI DAY上公布的AI訓練芯片“D1”及超級計算平臺dojo架構細節。2023 年 7 月,特斯拉官方稱Dojo 的量產已經正式開始。D1 采用臺積電7nm工藝制造,核心面積達645平方毫米,僅次于NVIDIA Ampere架構的超級計算核心A100(826平方毫米)、AMD CDNA2架構的下代計算核心Arcturus(750平方毫米左右),集成了多達500億個晶體管,相當于Intel剛剛發布的具有高達1000億顆晶體管的Ponte Vecchio計算芯片的一半,內部走線,長度超過11英里,也就是大約18公里。 據特斯拉介紹,其D1芯片集成了四個64位超標量CPU核心,擁有多達354個訓練節點,特別用于8×8乘法,支持FP32、BFP64、CFP8、INT16、INT8等各種數據指令格式,都是AI訓練相關的。 特斯拉稱,D1芯片的FP32單精度浮點計算性能達22.6TFlops(每秒22.6萬億次),BF16/CFP8計算性能則可達362TFlops(每秒362萬億次)。為了支撐AI訓練的擴展性,它的互連帶寬非常驚人,最高可達10TB/s,由多達576個通道組成,每個通道的帶寬都有112Gbps。實現這一切熱設計功耗為400W。 Tesla Dojo處理器采用數據流近存計算架構,通過大量更快更近的片上存儲和片上存儲之間的流轉減少對內存的訪問頻度,提升系統性能,算力達362TFLOPS@FP16,每個D1芯片放置440MB SRAM,解決內存墻問題。 美國紐約州州長Kathy Hochul在今年1月26日舉行的新聞發布會上表示,特斯拉將投資5億美元,在該州的布法。 羅市(Buffalo)建造一臺“Dojo”超級計算機。 3. 后摩智能點亮首款RRAM大容量存儲芯片并完成測試驗證 后摩智能完成首款可商用的RRAM測試及應用場景開發,探測及證實了現有工業級的RRAM的技術邊界。后續將與車規級應用場景結合,希望與伙伴共同打造新興存儲及新型存算計算范式,賦能客戶。 目前,后摩智能該款RRAM芯片能夠滿足在高質量/高安全性要求的商用場景,更新版本可以實現對車規級應用的支持,尤其是車載娛樂系統、部分低等級車規要求,在工業電子類/消費電子類,其功能/性能能滿足對eFlash場景的替代,甚至能夠改變原有計算架構,對只讀/少讀場景有較大的革命優勢,尤其在亞22nm工藝之后,有望能夠進一步成為高端芯片的嵌入式存儲器使用。 在功耗性能方面,其整體功耗低至60mW,支持power down模式,支持不同區域分別關斷功能,支持sleep模式等,可以進一步在不同應用場景進行功耗控制。 4. 2023年9月,硅谷AI芯片初創公司D-Matrix獲得1.1億美元的B輪融資 領投方為新加坡頂尖投資公司淡馬錫(Temasek),微軟和三星等科技巨頭跟投。D-Matrix采用SRAM存算一體+Chiplet技術來構建針對大模型的計算芯片。 D-Matrix的新融資將用來打造其數字內存計算 (DIMC) Chiplet推理計算卡Corsair,據稱推理速度是英偉達H100 GPU的9倍,如果是計算卡集群,與英偉達的類似解決方案相比,功率效率提高20倍,延遲降低20倍,成本降低高達30倍。 每塊Corsair計算卡擁有8個Jayhawk II Chiplet,每個Jayhawk II提供2Tb/s(250GB/s)的芯片到芯片帶寬,單塊Corsair計算卡就擁有8Tb/s(1TB/s)的聚合芯片到芯片帶寬。但是這一套硬件將在2024年才能正式投入使用。 5. 三星電子在Hot Chips 2023上公布了高帶寬存儲器(HBM)-內存處理(PIM)和低功耗雙倍數據速率 (LPDDR)-PIM研究成果。這兩款存儲器是未來可用于人工智能(AI)行業的下一代存儲器。近年來,隨著內存瓶頸成為AI半導體領域的一大挑戰,HBM-PIM作為下一代內存半導體備受矚目。 三星電子展示了一項研究成果,將HBM-PIM應用于生成式AI,與現有HBM相比,加速器性能和功效提高了一倍以上。研究中使用的GPU是AMD的MI-100。為了驗證MoE模型,還構建了 HBM-PIM 集群。集群中使用了 96 臺配備 HBM-PIM 的 MI-100。在MoE模型中,HBM-PIM還表明加速器性能比HBM高兩倍,功率效率比HBM高三倍。 除了HBM-PIM,三星電子還展示了LPDDR-PIM。LPDDR-PIM 是一種將 PIM 與移動 DRAM 相結合的形式,可直接在邊緣設備內處理計算。由于它是針對邊緣設備開發的產品,因此帶寬(102.4GB/s)也較低。三星電子強調,與DRAM相比,功耗可降低72%。 二、2024年存算一體(Compute-In-Memory)技術方向前瞻 1.頂層架構設計加速存內計算技術應用落地 目前,在電路宏單元層面,不論是基于SRAM或DRAM的存內高性能計算還是基于新型非易失存儲器的極低功耗存內計算,在存儲陣列內設計計算單元以實現較大規模數據并行計算的方式已被驗證具有很高的計算能效與算力密度,但是,想要將存算技術真正落地,與存內計算電路宏單元配套的頂層架構設計以及配套的軟件編譯必不可少,尤其是針對較大規模網絡在整個片上系統的部署,因而展望2024,有關存算一體技術的架構探索與加速器設計仍將持續火熱; 2. 高精度可重構的存算宏單元設計,向著通用計算場景進發 目前,面對愈來愈復雜多變的網絡推理任務,網絡模型對于硬件支持的計算精度要求也在不斷提高,以往的宏單元支持的INT8整型計算能夠較好地完成CNN等網絡的部署,而類Transformer網絡往往要求INT16甚至更高的數據精度,另一方面,較大規模的網絡參數以及多變的網絡類型對存算宏單元的靈活性提出要求,因而支持高精度、可重構的存算宏單元,邁向著更通用的應用場景; 3. 先進封裝/新型工藝助力存算一體實現極致的系統性能 一方面,2.5D/3D/3.5D等先進封裝技術快速發展,高帶寬存儲器(HBM)、混合鍵合(Hybrid Bonding)、芯粒(Chiplet)等先進互連技術將實現更高速的片間互連,這也會給設計大算力的存內計算系統帶來機遇;另一方面,基于新型非易失性存儲器的存內計算將賦能更低功耗的邊緣端網絡推理,新型器件例如FeRAM、CFET等有待演化出更先進的存儲&計算一體電路。 |