來(lái)源:Alpha Engineer 近日臺(tái)積電董事長(zhǎng)Mark Liu(劉德音)在IEEE上刊登了一篇長(zhǎng)文,標(biāo)題為《How We’ll Reach a 1 Trillion Transistor GPU》。 作為全球半導(dǎo)體產(chǎn)業(yè)巨頭,Mark Liu講述了AI產(chǎn)業(yè)發(fā)展背后的芯片故事,視角獨(dú)特,非常值得一讀。 (1)10年內(nèi)將出現(xiàn)萬(wàn)億晶體管集成的GPU 從1997年IBM Deep Blue擊敗國(guó)際象棋大師Garry Kasparov算起,到ChatGPT、Sora的誕生,過(guò)去了整整27年。 這27年中,人工智能的能力得到了極大的提升,這背后有三大驅(qū)動(dòng)力:算法架構(gòu)的創(chuàng)新、海量數(shù)據(jù)的積累、半導(dǎo)體技術(shù)的革命。 可以說(shuō),半導(dǎo)體產(chǎn)業(yè)的技術(shù)革新,是人工智能發(fā)展的重要驅(qū)動(dòng)力。 IBM的Deep Blue采用的是0.6微米和0.35微米的混合芯片制造工藝。 贏得ImageNet競(jìng)賽的神經(jīng)網(wǎng)絡(luò)模型,背后是基于40納米制程的芯片工藝。 在圍棋界獨(dú)霸天下的AlphaGo,采用的是28nm的制程工藝。 轟動(dòng)全球的ChatGPT,則是基于4nm工藝。 ![]() 如果AI革命按現(xiàn)在的速度發(fā)展下去,10年內(nèi)我們就需要一個(gè)萬(wàn)億晶體管的GPU。 而要知道,英偉達(dá)最新發(fā)布的Blackwell架構(gòu)的B200芯片,也才只有2080億個(gè)晶體管。也就是說(shuō),10年內(nèi)GPU中晶體管的集成數(shù)量將有10倍的提升空間。 半導(dǎo)體技術(shù)進(jìn)步的驅(qū)動(dòng)力包括:新材料、光刻技術(shù)發(fā)展、新型晶體管、先進(jìn)封裝工藝。上圖中把這四種類(lèi)型的驅(qū)動(dòng)因素分別呈現(xiàn),一目了然。 (2)光刻工藝達(dá)到瓶頸,3D封裝成為突破口 自集成電路發(fā)明以來(lái),半導(dǎo)體技術(shù)一直致力于縮小尺寸,從而能夠?qū)⒏嗟木w管塞進(jìn)一個(gè)拇指大小的芯片中。 現(xiàn)如今,隨著2.5D、3D封裝被廣泛應(yīng)用,集成度提升到了新的水平。 臺(tái)積電正在將許多芯片組合成為一個(gè)緊密集成的、大規(guī)模互聯(lián)的系統(tǒng)。這是半導(dǎo)體集成領(lǐng)域正在發(fā)生的范式轉(zhuǎn)變。 在AI時(shí)代,晶體管的集成度變得愈發(fā)重要。這是因?yàn)楣饪虣C(jī)在加工芯片的過(guò)程中,有一個(gè)非常重要的物理限制,即不能制造超過(guò)800 mm²尺寸的集成電路。 更具體來(lái)說(shuō),這個(gè)數(shù)字是858 mm²(26 mm ×33 mm),可以理解為光刻機(jī)可處理的芯片極限尺寸,在業(yè)內(nèi)被稱(chēng)為Reticle Limit。 因此,人們無(wú)法通過(guò)單純做大芯片尺寸來(lái)提升性能。 現(xiàn)如今,我們可以通過(guò)將多個(gè)芯片連接到一塊更大的中介層上(interposer),從而突破光刻機(jī)Reticle Limit的性能瓶頸,在單一系統(tǒng)中集成更多的晶體管。 例如,臺(tái)積電著名的CoWoS技術(shù)(Chip-on-Wafer-on-Substrate)可以容納多達(dá)6個(gè)掩膜板區(qū)域的計(jì)算芯片,以及十幾個(gè)HBM芯片。 ![]() (3)CoWoS先進(jìn)封裝在Nvidia GPU中的應(yīng)用 臺(tái)積電的CoWoS技術(shù)已經(jīng)被廣泛應(yīng)用于Nvidia的GPU中,包括Ampere架構(gòu)及Hopper架構(gòu)的GPU。 它們均由一塊GPU芯片和6個(gè)HBM共同集成在硅中介層上,計(jì)算芯片的尺寸大約是當(dāng)前芯片制造工藝允許的最大尺寸。 Ampere架構(gòu)的GPU采用7nm工藝,集成了540億個(gè)晶體管。 Hopper架構(gòu)的GPU采用4nm工藝,集成了800億個(gè)晶體管。 制程工藝的提升使得我們能夠在相同的表面積上多封裝50%的晶體管數(shù)量,從而有效支持ChatGPT這類(lèi)大語(yǔ)言模型的訓(xùn)練及推理。 ![]() 圖:Nvidia芯片架構(gòu)演進(jìn)歷史,申萬(wàn)宏源 (4)HBM、Bumpless Bonding:高性能GPU的基石 另一項(xiàng)關(guān)鍵的半導(dǎo)體技術(shù)是HBM。 HBM在控制邏輯IC之上,垂直堆疊了若干DRAM芯片,并采用TSV(硅通孔)進(jìn)行垂直互聯(lián),讓信號(hào)能夠穿過(guò)每個(gè)芯片的焊錫凸點(diǎn),從而形成存儲(chǔ)芯片之間的連接。 這種將芯片堆疊在一起形成集成系統(tǒng)的能力,在臺(tái)積電被稱(chēng)為SoIC(System-on-Integrated Chips)。 現(xiàn)如今,高性能GPU基本離不開(kāi)HBM。 ![]() 根據(jù)臺(tái)積電的最新技術(shù)3D SoIC,可以將現(xiàn)在的HBM方案進(jìn)行“無(wú)凸塊化”處理(bumpless bonding)。 新版HBM架構(gòu)采用銅對(duì)銅的連接,用混合鍵合技術(shù)堆疊12層芯片,并且在低溫下粘合在一塊較大的邏輯芯片之上,總厚度僅為600微米。 新版HBM架構(gòu)能夠提供更密集的垂直互聯(lián),銅對(duì)銅連接的密度顯著高于焊錫凸塊所提供的集成密度。 (5)硅光:未來(lái)半導(dǎo)體產(chǎn)業(yè)最重要的技術(shù)之一 對(duì)于大語(yǔ)言模型而言,有高性能芯片還不夠。為了達(dá)到極高的計(jì)算速度,我們還需要提升通信速率。 現(xiàn)如今,光學(xué)互聯(lián)已經(jīng)被廣泛應(yīng)用于數(shù)據(jù)中心里的服務(wù)器機(jī)架。不久之后,我們就會(huì)需要通過(guò)基于硅光的光學(xué)接口,來(lái)將GPU和CPU封裝在一起。 這樣一來(lái),數(shù)百臺(tái)服務(wù)器可以對(duì)外表現(xiàn)為一個(gè)具備統(tǒng)一內(nèi)存的巨型GPU。 隨著AI應(yīng)用需求的推動(dòng),硅光將成為未來(lái)半導(dǎo)體產(chǎn)業(yè)最重要的技術(shù)之一。 ![]() (6)CoWoS先進(jìn)封裝在AMD MI300A中的應(yīng)用 AMD的MI300A加速處理單元不僅僅運(yùn)用了CoWoS,還用到了臺(tái)積電的SoIC技術(shù)。 MI300A同時(shí)包含了GPU和CPU核心,其中GPU負(fù)責(zé)處理AI任務(wù)所需的密集矩陣乘法運(yùn)算,而CPU負(fù)責(zé)控制整個(gè)系統(tǒng)的運(yùn)算,HBM則統(tǒng)一為二者提供服務(wù)。 9個(gè)基于5nm制程的計(jì)算芯片,堆疊在4個(gè)基于6nm制程的基礎(chǔ)芯片上,后者主要負(fù)責(zé)緩存和IO通信。處理器的計(jì)算部分包含了1500億個(gè)晶體管。 ![]() 當(dāng)下,單塊GPU芯片已經(jīng)達(dá)到了光刻工藝的制造極限(reticle limit),晶體管數(shù)量約1000億個(gè)。為了繼續(xù)增加晶體管集成度,勢(shì)必需要將多個(gè)chiplet通過(guò)2.5D或3D封裝的方式來(lái)集成互聯(lián),執(zhí)行運(yùn)算。 幸運(yùn)的是,業(yè)界已經(jīng)能夠快速縮小chiplet之間垂直互聯(lián)的間距,從而提升連接密度,并且還有非常充足的提升空間。 我們認(rèn)為通過(guò)垂直互聯(lián)技術(shù)的發(fā)展,晶體管的集成密度可以至少提成一個(gè)數(shù)量級(jí),使得多芯片GPU內(nèi)集成超過(guò)1萬(wàn)億個(gè)晶體管。 ![]() (7)EEP仍將保持每2年翻3倍的增長(zhǎng)趨勢(shì) 為了有效評(píng)估半導(dǎo)體技術(shù)創(chuàng)新對(duì)系統(tǒng)性能帶來(lái)的影響,業(yè)內(nèi)有一個(gè)指標(biāo)叫做EEP。 EEP的全稱(chēng)是Energy-Efficient Performance,即能效性能,是能效與性能的綜合衡量標(biāo)準(zhǔn)。 過(guò)去15年來(lái),半導(dǎo)體行業(yè)的EEP呈現(xiàn)出每2年提高3倍的趨勢(shì)。我們相信這個(gè)趨勢(shì)會(huì)繼續(xù)保持下去,其背后得益于新材料的應(yīng)用、先進(jìn)封裝工藝、EUV光刻技術(shù)的發(fā)展、電路及系統(tǒng)架構(gòu)設(shè)計(jì)的優(yōu)化等等。 ![]() (8)3D集成電路將迎來(lái)Mead-Conway時(shí)刻 1978年,加州理工大學(xué)教授Carver Mead以及Xero PARC研究中心的Lynn Conway發(fā)明了一種通過(guò)計(jì)算機(jī)輔助設(shè)計(jì)集成電路的方法。 它們通過(guò)一組設(shè)計(jì)規(guī)則,讓工程師能夠輕松設(shè)計(jì)超大規(guī)模的集成電路,而無(wú)需了解太多的工藝細(xì)節(jié)。 當(dāng)下3D芯片設(shè)計(jì)領(lǐng)域也需要同樣的能力。現(xiàn)在一位3D芯片設(shè)計(jì)師需要了解的知識(shí)非常多,包括系統(tǒng)架構(gòu)設(shè)計(jì)、軟硬件優(yōu)化、3D封裝技術(shù)等等。 正如我們?cè)?978年所做的一樣,我們?cè)俅涡枰环N通用語(yǔ)言,用計(jì)算機(jī)能夠理解的方式來(lái)描述3D芯片設(shè)計(jì)技術(shù),讓設(shè)計(jì)人員可以在無(wú)需考慮底層技術(shù)的同時(shí),自由地設(shè)計(jì)3D芯片。 類(lèi)似的技術(shù)正在陸續(xù)誕生,比如一項(xiàng)名為3Dblox的開(kāi)源標(biāo)準(zhǔn)正在被越來(lái)越多的半導(dǎo)體技術(shù)公司和EDA公司所采用。 ![]() (9)隧道已至終點(diǎn),面向無(wú)限可能的未來(lái) 過(guò)去50年,半導(dǎo)體技術(shù)的發(fā)展就像是走進(jìn)了一條隧道,有著明確的目標(biāo)和清晰的路徑。所有人的目標(biāo)只有一個(gè):shrink the transistor。 現(xiàn)在,我們已經(jīng)走到了隧道盡頭。從現(xiàn)在開(kāi)始,半導(dǎo)體技術(shù)的發(fā)展正式進(jìn)入深水區(qū),在隧道之外有著各式各樣的可能性,等待人們?nèi)ヌ剿鳌?/td> |