來(lái)源:半導(dǎo)體行業(yè)觀察 這兩天,AI再一次登上了各大媒體的頭條。 12月6日,谷歌官宣了了全新的多模態(tài)大模型 Gemini,包含了三個(gè)版本,根據(jù)谷歌的基準(zhǔn)測(cè)試結(jié)果,其中的 Gemini Ultra 版本在許多測(cè)試中都表現(xiàn)出了“最先進(jìn)的性能”,甚至在大部分測(cè)試中完全擊敗了 OpenAI 的 GPT-4。 而在Gemini出盡了風(fēng)頭的同時(shí),谷歌還丟出了另一個(gè)另一個(gè)重磅炸彈——全新的自研芯片TPU v5p,它也是迄今為止功能最強(qiáng)大的 TPU。 根據(jù)官方提供的數(shù)據(jù),每個(gè) TPU v5p pod 在三維環(huán)形拓?fù)浣Y(jié)構(gòu)中,通過(guò)最高帶寬的芯片間互聯(lián)(ICI),以 4,800 Gbps/chip 的速度將 8,960 個(gè)芯片組合在一起,與 TPU v4 相比,TPU v5p 的 FLOPS 和高帶寬內(nèi)存(HBM)分別提高了 2 倍和 3 倍。 除此之外,TPU v5p訓(xùn)練大型 LLM 模型的速度比上一代 TPU v4 快 2.8 倍,利用第二代 SparseCores,TPU v5p 訓(xùn)練嵌入密集模型的速度比 TPU v4 快 1.9 倍。TPU v5p 在每個(gè) pod 的總可用 FLOPs 方面的可擴(kuò)展性也比 TPU v4 高出 4 倍,且每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPS)增加了一倍,單個(gè) pod 中的芯片數(shù)量也增加了一倍,大大提高了訓(xùn)練速度的相對(duì)性能。 谷歌還找來(lái)了一堆科學(xué)家為T(mén)PU v5p的AI性能背書(shū): Salesforce 高級(jí)研究科學(xué)家Erik Nijkamp表示:“我們一直在利用谷歌云TPU v5p對(duì)Salesforce的基礎(chǔ)模型進(jìn)行預(yù)訓(xùn)練,這些模型將作為專(zhuān)業(yè)生產(chǎn)用例的核心引擎,我們看到訓(xùn)練速度有了顯著提高。事實(shí)上,Cloud TPU v5p 的計(jì)算能力是上一代 TPU v4 的 2 倍之多。我們還非常喜歡使用 JAX 從 Cloud TPU v4 到 v5p 的無(wú)縫輕松過(guò)渡。我們很高興能通過(guò)精確量化訓(xùn)練(AQT)庫(kù)對(duì) INT8 精確格式的原生支持來(lái)優(yōu)化我們的模型,從而進(jìn)一步提高速度。” Lightricks 核心生成式人工智能研究團(tuán)隊(duì)負(fù)責(zé)人 Yoav HaCohen 博士表示:“利用谷歌云 TPU v5p 的卓越性能和充足內(nèi)存,我們成功地訓(xùn)練了文本到視頻的生成模型,而無(wú)需將其拆分成單獨(dú)的進(jìn)程。這種最佳的硬件利用率大大加快了每個(gè)訓(xùn)練周期,使我們能夠迅速開(kāi)展一系列實(shí)驗(yàn)。在每次實(shí)驗(yàn)中快速訓(xùn)練模型的能力促進(jìn)了快速迭代,這是我們的研究團(tuán)隊(duì)在競(jìng)爭(zhēng)激烈的生成式人工智能領(lǐng)域的寶貴優(yōu)勢(shì)! 谷歌 DeepMind 和谷歌研究院首席科學(xué)家 Jeff Dean也力挺自家芯片:“在早期使用中,谷歌DeepMind和谷歌研究院觀察到使用TPU v5p芯片的LLM訓(xùn)練工作負(fù)載的速度比TPU v4代提高了2倍。對(duì) ML 框架(JAX、PyTorch、TensorFlow)和協(xié)調(diào)工具的強(qiáng)大支持使我們能夠在 v5p 上更高效地?cái)U(kuò)展。有了第二代 SparseCores,我們還發(fā)現(xiàn)嵌入式工作負(fù)載的性能有了顯著提高。TPU 對(duì)于我們?cè)?Gemini 等前沿模型上開(kāi)展最大規(guī)模的研究和工程工作至關(guān)重要! 對(duì)于谷歌來(lái)說(shuō),Gemini是應(yīng)對(duì)Open AI的一柄利器,而TPU v5p則是一塊敲門(mén)磚,用它來(lái)壘起一道抵御英偉達(dá)GPU的高墻,軟件硬件雙管齊下,似乎它在AI時(shí)代里已處在不敗之地。 問(wèn)題來(lái)了,谷歌憑什么能擁有現(xiàn)在的優(yōu)勢(shì)? 岌岌無(wú)名到名滿天下 谷歌TPU并非一蹴而就,它的自研旅途始于十年之前。 作為一家科技公司的谷歌,其實(shí)早在 2006 年就考慮為神經(jīng)網(wǎng)絡(luò)構(gòu)建專(zhuān)用集成電路 (ASIC),但到了 2013 年,情況變得緊迫了起來(lái),谷歌的科學(xué)家們開(kāi)始意識(shí)到,神經(jīng)網(wǎng)絡(luò)快速增長(zhǎng)的計(jì)算需求與數(shù)據(jù)中心數(shù)量存在著不可協(xié)調(diào)的矛盾。 當(dāng)時(shí)的 Google AI負(fù)責(zé)人Jeff Dean經(jīng)過(guò)計(jì)算后發(fā)現(xiàn),如果有1億安卓用戶(hù)每天使用手機(jī)語(yǔ)音轉(zhuǎn)文字服務(wù)3分鐘,其中消耗的算力就是Google所有數(shù)據(jù)中心總算力的兩倍,而全球安卓用戶(hù)遠(yuǎn)不止1億。 數(shù)據(jù)中心的規(guī)模不可能無(wú)限制地?cái)U(kuò)張下去,谷歌也不可能限制用戶(hù)使用服務(wù)的時(shí)間,但CPU和GPU都難以滿足谷歌的需求:CPU一次只能處理相對(duì)來(lái)說(shuō)很少量的任務(wù),GPU在執(zhí)行單個(gè)任務(wù)時(shí)效率較低,而且所能處理的任務(wù)范圍更小,自研成了最后的出路。 谷歌立下了一個(gè)小目標(biāo):針對(duì)機(jī)器學(xué)習(xí)這一目的來(lái)構(gòu)建特定領(lǐng)域計(jì)算架構(gòu)(Domain-specific Architecture),還要將深度神經(jīng)網(wǎng)絡(luò)推理的總體擁有成本(TCO)降低至原來(lái)的十分之一。 通常,ASIC 的開(kāi)發(fā)需要數(shù)年時(shí)間,但谷歌卻僅用了 15 個(gè)月就完成了TPU處理器的設(shè)計(jì)、驗(yàn)證、制造并部署到數(shù)據(jù)中心。TPU 項(xiàng)目的技術(shù)負(fù)責(zé)人 Norm Jouppi(也是 MIPS 處理器的主要架構(gòu)師之一)這樣描述沖刺階段: “我們的芯片設(shè)計(jì)速度非?。這確實(shí)非常了不起。我們?cè)跊](méi)有修正錯(cuò)誤或更改掩膜的情況下,就開(kāi)始出貨第一個(gè)芯片?紤]到我們?cè)跇?gòu)建芯片的同時(shí)還在招聘團(tuán)隊(duì),然后招聘 RTL(電路設(shè)計(jì))人員,并急于招聘設(shè)計(jì)驗(yàn)證人員,這一切都非常忙碌! 代表著谷歌技術(shù)結(jié)晶的初代TPU 采用了 28 納米工藝制造,運(yùn)行頻率為 700MHz,運(yùn)行時(shí)功耗為 40W,谷歌將處理器包裝成外置加速卡,安裝在 SATA 硬盤(pán)插槽中,實(shí)現(xiàn)即插即用。TPU 通過(guò) PCIe Gen3 x16 總線與主機(jī)連接,可提供 12.5GB/s 的有效帶寬。 與 CPU 和 GPU 相比,單線程 TPU 不具備任何復(fù)雜的微架構(gòu)功能,極簡(jiǎn)主義是特定領(lǐng)域處理器的優(yōu)點(diǎn),谷歌的TPU一次只能運(yùn)行一項(xiàng)任務(wù):神經(jīng)網(wǎng)絡(luò)預(yù)測(cè),但每瓦性能卻達(dá)到了GPU的30倍,CPU的80倍。 谷歌在這件事上表現(xiàn)得非常低調(diào),直到2016年的Google I/O開(kāi)發(fā)者大會(huì)上,首席執(zhí)行官Sundar Pichai才正式向世界展示了TPU這一自研成果。 Pichai對(duì)參會(huì)的嘉賓表示,DeepMind研發(fā)的AlphaGo能夠擊敗韓國(guó)棋手李世石,底層硬件里的TPU功不可沒(méi),TPU就像希臘神話中引發(fā)特洛伊戰(zhàn)爭(zhēng)的女人——海倫,它的出現(xiàn)引起了“成千芯片與之競(jìng)逐”。 但谷歌并未止步于此,幾乎是在第一代TPU完成后,就立刻投入到了下一代的開(kāi)發(fā)當(dāng)中:2017年,TPU v2問(wèn)世;2018年,TPU v3推出;2021年,TPU v4在Google I/O開(kāi)發(fā)者大會(huì)上亮相…… 而谷歌對(duì)于AI芯片也愈發(fā)得心應(yīng)手:第一代 TPU 僅支持 8 位整數(shù)運(yùn)算,這意味著它能進(jìn)行推理,但訓(xùn)練卻遙不可及;而TPU v2,不僅引入了HBM內(nèi)存,還支持了浮點(diǎn)運(yùn)算,從而支持了機(jī)器模型的訓(xùn)練和推理;TPU v3則在前一代基礎(chǔ)上,重點(diǎn)加強(qiáng)了性能,且部署在 Pod 中的芯片數(shù)量翻四倍。 到了TPU v4,Pichai更是驕傲地表示:“AI技術(shù)的進(jìn)步有賴(lài)于計(jì)算基礎(chǔ)設(shè)施的支持,而TPU正是Google計(jì)算基礎(chǔ)設(shè)施的重要部分。新一代TPU v4芯片的速度是v3的兩倍多。Google用TPU集群構(gòu)建出Pod超級(jí)計(jì)算機(jī),單臺(tái)TPU v4 Pod包含4096塊v4芯片,每臺(tái)Pod的芯片間互連帶寬是其他互連技術(shù)的10倍,因此,TPU v4 Pod的算力可達(dá)1 ExaFLOP,即每秒執(zhí)行10的18次方浮點(diǎn)運(yùn)算,相當(dāng)于1000萬(wàn)臺(tái)筆記本電腦的總算力! 到了2023年的今天,TPU已經(jīng)成為了AI芯片的代名詞之一,成為了繼CPU和GPU后又一重要的處理器,它部署在谷歌數(shù)十座數(shù)據(jù)中心當(dāng)中,每天完成著數(shù)以?xún)|計(jì)的AI計(jì)算任務(wù)。 谷歌的自研帝國(guó) TPU只是谷歌自研的序幕。 2017年的Google Cloud Next '17 大會(huì)上,谷歌推出了名為T(mén)itan的定制安全芯片,它專(zhuān)為硬件級(jí)別的云安全而設(shè)計(jì),通過(guò)為特定硬件建立加密身份,實(shí)現(xiàn)更安全的識(shí)別和身份驗(yàn)證,從而防范日益猖獗的BIOS攻擊。 Titan芯片面向的并不全是谷歌自己,它的出現(xiàn)是為了說(shuō)服企業(yè),數(shù)據(jù)存在谷歌云中比企業(yè)的本地?cái)?shù)據(jù)中心更安全,谷歌表示,自研的Titan芯片通過(guò)建立強(qiáng)大的基于硬件的系統(tǒng)身份,來(lái)驗(yàn)證系統(tǒng)固件和軟件組件,保護(hù)啟動(dòng)的過(guò)程,這一切得益于谷歌自己創(chuàng)建的硬件邏輯,從根本上減少了硬件后門(mén)的可能性,基于Titan的生態(tài)系統(tǒng)也確保了設(shè)施僅使用授權(quán)且可驗(yàn)證的代碼,最終讓谷歌云擁有了比本地?cái)?shù)據(jù)中心更安全的可靠性。 Titan的出現(xiàn),只不過(guò)是小試牛刀,2021年3月,谷歌在ASPLOS 會(huì)議上首次介紹了一塊應(yīng)用于YouTube服務(wù)器的自研芯片,即Argos VCU,它的任務(wù)很簡(jiǎn)單,就是對(duì)用戶(hù)上傳的視頻進(jìn)行轉(zhuǎn)碼。 根據(jù)數(shù)據(jù)統(tǒng)計(jì),用戶(hù)每分鐘會(huì)向YouTube上傳超過(guò)500小時(shí)的各種格式的視頻內(nèi)容,而谷歌則需要將這些內(nèi)容快速轉(zhuǎn)換成多種分辨率(包括144p、240p、360p、480p、720p、1080p、1440p、2160p和4320p)和各種格式(例如,H.264、VP9或AV1),沒(méi)有一塊具備強(qiáng)大的編碼能力的芯片,想要快速轉(zhuǎn)碼就是一件不可能的事情。 谷歌嘗試過(guò)兩種解決方案,第一種是英特爾的視覺(jué)計(jì)算加速器(VCA),包含三個(gè) Xeon E3 CPU,內(nèi)置 Iris Pro P6300/P580GT4e 集成圖形內(nèi)核和先進(jìn)的硬件編碼器,第二種則是利用英特爾至強(qiáng)處理器外加軟件編碼來(lái)完成任務(wù)。 但不論是前者還是后者,都需要龐大的服務(wù)器規(guī)模和巨額的電力損耗,于是,谷歌開(kāi)啟了又一塊自研芯片——VCU的研發(fā)。負(fù)責(zé)監(jiān)督 YouTube 龐大基礎(chǔ)設(shè)施的 Google 工程副總裁斯科特·西爾弗 (Scott Silver) 表示,從2015年開(kāi)始,大約有 100 名 Google 工程師組成的團(tuán)隊(duì)投身設(shè)計(jì)第一代Argos 芯片,在此后幾年當(dāng)中,這支團(tuán)隊(duì)不僅完成了研發(fā),還讓芯片應(yīng)用在谷歌的數(shù)據(jù)中心當(dāng)中,而Argos的實(shí)力也得以展現(xiàn)——它處理視頻的效率比傳統(tǒng)服務(wù)器高 20 到 33 倍,處理高分辨率 4K 視頻的時(shí)間由幾天縮短為數(shù)小時(shí)。 下一代Argos或許早已悄悄在谷歌服務(wù)器中上線了,根據(jù)報(bào)道,谷歌自研的第二代VCU將支持 AV1、H.264 和 VP9 編解碼器,可以進(jìn)一步提高其編碼技術(shù)的效率,也將會(huì)是YouTube內(nèi)容創(chuàng)作生態(tài)的最有力支撐。 而谷歌最強(qiáng)的大招還得是最復(fù)雜的手機(jī)SoC。2021年10月19日,一場(chǎng)秋季發(fā)布會(huì)上,搭載谷歌首款自研芯片 Tensor 的旗艦手機(jī) Pixel 6 系列首次亮相。 谷歌高級(jí)副總裁 Rick Osterloh 在發(fā)布會(huì)上表示,這款芯片是“公司歷史上最大的移動(dòng)硬件創(chuàng)新”,而谷歌CEO Sundar Pichai更是早早地在推特上曬出了Tensor芯片的照片,對(duì)于自研項(xiàng)目的自豪感溢于言表。 不過(guò)這塊自研芯片,實(shí)質(zhì)上是基于三星在2020年開(kāi)放的半定制芯片設(shè)計(jì)的服務(wù),在TechInsights的拆解圖中,Tensor的封裝尺寸為 10.38mm x 10.43mm = 108.26mm 2,內(nèi)部芯片標(biāo)識(shí)為“S5P9845”,符合傳統(tǒng)三星Exynos處理器命名規(guī)則,如Exynos 990的芯片標(biāo)識(shí)為S5E9830,Exynos 2100 5G SoC芯片標(biāo)識(shí)為S5E9840,本質(zhì)上是谷歌定義,三星設(shè)計(jì)代工的一塊芯片。 即便如此,谷歌的自研芯片的布局也已初具雛形,從TPU到Titan,從VCU到Tensor,谷歌走過(guò)了十年的旅程,而它試圖全盤(pán)掌握這個(gè)硅片組成帝國(guó)的野心也昭然若揭。 谷歌的聰明帳與絆腳石 對(duì)于谷歌來(lái)說(shuō),要錢(qián)有錢(qián),要技術(shù)有技術(shù),要應(yīng)用場(chǎng)景有應(yīng)用場(chǎng)景,可以說(shuō)是各大科技巨頭中在自研AI芯片這條路上走得最遠(yuǎn)的,其他廠商目前還在源源不斷地給英偉達(dá)賬戶(hù)打錢(qián),但谷歌卻早已做好了兩手準(zhǔn)備,不少人甚至將它視為如今英偉達(dá)壟斷局面的最強(qiáng)挑戰(zhàn)者。 與微軟和亞馬遜相比,谷歌最突出的優(yōu)勢(shì),就是從系統(tǒng)級(jí)的角度設(shè)計(jì)TPU,單個(gè)芯片固然重要,但在現(xiàn)實(shí)世界中如何在系統(tǒng)中組合使用則更為重要。雖然英偉達(dá)也從系統(tǒng)角度思考問(wèn)題,但他們的系統(tǒng)規(guī)模比谷歌更小,范圍也更窄。而且谷歌還在 TPU 之間使用了定制的網(wǎng)絡(luò)堆棧 ICI。與昂貴的以太網(wǎng)和 InfiniBand 部署相比,這種鏈路延遲低、性能高,類(lèi)似于英偉達(dá)的 NVLink。 事實(shí)上,谷歌的 TPUv2 可以擴(kuò)展到 256 個(gè) TPU 芯片,與英偉達(dá)的 H100 GPU 數(shù)量相同。在 TPU v3 和 TPU v4 中,這一數(shù)字分別增加到了 1024 和 4096個(gè)。根據(jù)趨勢(shì)線,而最新的 TPU v5p 則可以擴(kuò)展到 8960 個(gè)芯片,而無(wú)需通過(guò)低效的以太網(wǎng)。 此外,谷歌在OCS、拓?fù)浣Y(jié)構(gòu)、DLRM 優(yōu)化上也具有獨(dú)到的優(yōu)勢(shì),十年來(lái)積攢的經(jīng)驗(yàn)優(yōu)勢(shì)幫助谷歌的TPU在數(shù)據(jù)中心里和AI大模型中大展身手,在具體應(yīng)用中,用遙遙領(lǐng)先來(lái)形容也不過(guò)分,未來(lái)谷歌完全擺脫英偉達(dá)GPU的掣肘,也并非不可能。 不過(guò),谷歌還有一個(gè)不大不小的絆腳石。 TPU的自研始于2013年,能在15個(gè)月里快速部署到數(shù)據(jù)中心,同時(shí)實(shí)現(xiàn)快速迭代性能猛增,除了夜以繼日的谷歌研究人員外,另外一家公司提供的幫助也極其重要。 根據(jù)2020年摩根大通分析師哈蘭·蘇爾的報(bào)告,谷歌TPU v1至v4這幾代均是由博通共同設(shè)計(jì)的,當(dāng)時(shí)它已經(jīng)開(kāi)始生產(chǎn)采用7nm 工藝的TPU v4,并開(kāi)始與谷歌合作設(shè)計(jì)采用5nm工藝的TPU v5 蘇爾表示,博通的專(zhuān)用集成電路(ASIC)業(yè)務(wù)2020全年收入為 7.5 億美元,高于 2016 年的 5000 萬(wàn)美元,除了芯片設(shè)計(jì)之外,博通還為谷歌提供了關(guān)鍵的知識(shí)產(chǎn)權(quán),并負(fù)責(zé)了制造、測(cè)試和封裝新芯片等步驟,以供應(yīng)谷歌的新數(shù)據(jù)中心,博通還與其他客戶(hù)如Facebook、微軟和AT&T等公司合作設(shè)計(jì)ASIC芯片。 而根據(jù)2022年博通的財(cái)報(bào),其將 ASIC 收入分為兩部分:路由和交換以及計(jì)算卸載。計(jì)算卸載在數(shù)據(jù)中心內(nèi)分兩步處理。當(dāng)提出計(jì)算請(qǐng)求時(shí),路由器和交換機(jī)會(huì)決定由數(shù)據(jù)中心的哪個(gè)部分來(lái)處理這項(xiàng)工作。一旦決定,處理器(通常是 CPU 或 GPU,如 Nvidia 設(shè)計(jì)的處理器)就會(huì)進(jìn)行計(jì)算,然后由這些路由器和交換機(jī)再次通過(guò)互聯(lián)網(wǎng)或?qū)S镁W(wǎng)絡(luò)發(fā)送回最終用戶(hù)。 就收入而言,博通是全球第二大人工智能芯片公司,僅次于英偉達(dá),其ASIC的銷(xiāo)售額達(dá)數(shù)十億美元,而這正是谷歌為響應(yīng)微軟與 OpenAI 合作而加大 TPU 部署的結(jié)果,光是一家谷歌的TPU就讓博通的ASIC收入翻了兩番還多,谷歌沒(méi)交給英偉達(dá)的人工智能稅,以另一種形式進(jìn)了博通的口袋。 無(wú)論是哪家公司,都不會(huì)心甘情愿繼續(xù)交這筆錢(qián)的,因而在今年9月就傳出了谷歌準(zhǔn)備在2027年前結(jié)束與博通的合作關(guān)系,消息人士稱(chēng),谷歌高管已經(jīng)設(shè)定了放棄博通的目標(biāo),轉(zhuǎn)而開(kāi)始考慮起了它的競(jìng)爭(zhēng)對(duì)手Marvell,此前兩家公司就TPU 芯片的定價(jià)問(wèn)題陷入了長(zhǎng)達(dá)數(shù)月的僵局。 雖然后面谷歌官方又出來(lái)辟謠,表示目前沒(méi)有計(jì)劃改變與博通的合作關(guān)系,但私底下兩家不合已經(jīng)是人盡皆知的事情了。 谷歌在TPU上算了一筆聰明帳,在微軟等巨頭乖乖交錢(qián)的時(shí)候,它掏出了TPU v5p來(lái)對(duì)抗英偉達(dá),但它沒(méi)想到的是,幾年前還不起眼的ASIC合作,如今卻成了TPU發(fā)展路上最大的一顆絆腳石,只要擴(kuò)大TPU的部署規(guī)模,就得不斷加錢(qián)給博通。 如此想來(lái),巨頭們真的是躲得過(guò)初一,躲不過(guò)十五,躲過(guò)了英偉達(dá)GPU高達(dá)70%的利潤(rùn),卻躲不過(guò)像博通這樣的合作公司,微軟這些巨頭,想要在AI芯片上省錢(qián),今后難免會(huì)遇到像谷歌今日一般的困局吧。 |