谷歌AI芯片大升級(jí)：瞄準(zhǔn)大模型和生成式AI，還集成主流深度學(xué)習(xí)框架

2023-08-30 13:24:06來源：機(jī)器之心

一直以來，谷歌已經(jīng)構(gòu)建了業(yè)界領(lǐng)先的 AI 能力，比如引領(lǐng)新一代人工智能發(fā)展的 Transformer 架構(gòu)、利用 AI 進(jìn)行優(yōu)化的基礎(chǔ)設(shè)施等。其中谷歌云則致力于提供先進(jìn)的 AI 基礎(chǔ)設(shè)施服務(wù)，包括 GPU 和 TPU。

當(dāng)?shù)貢r(shí)間 8 月 29 日，谷歌云舉辦了 Google Cloud Next ’23 年度大會(huì)，推出了全新的 TPU 產(chǎn)品 ——Cloud TPU v5e，它是 AI 優(yōu)化的基礎(chǔ)設(shè)施產(chǎn)品組合，并將成為迄今為止最具成本效益、多功能且可擴(kuò)展的云 TPU。目前已經(jīng)提供了預(yù)覽版。

(資料圖片僅供參考)

我們了解到， TPU v5e 能夠與 Google Kubernetes Engine（GKE）、用于構(gòu)建模型和 AI 應(yīng)用的開發(fā)者工具 Vertex AI 以及 Pytorch、JAX、TensorFlow 等深度學(xué)習(xí)框架集成在一起，提供了易用和熟悉的界面，很容易上手。

谷歌云還推出了基于英偉達(dá) H100 GPU 的 GPU 超級(jí)計(jì)算機(jī) A3 VMs，為大規(guī)模 AI 大模型提供支持。這款產(chǎn)品將于 9 月份全面上市。

谷歌 CEO 皮查伊。

谷歌首席科學(xué)家、知名學(xué)者 Jeff Dean 的推文。

此外在活動(dòng)上，谷歌還宣布將 Meta 和 Anthropic 等公司的 AI 工具（如 Llama 2 和 Claude 2）添加到其云平臺(tái)上，在云產(chǎn)品中集成強(qiáng)大的生成式 AI 能力。目前包括 Llama 2 和 Claude 2 在內(nèi)，谷歌云客戶可以使用 100 多個(gè)強(qiáng)大的 AI 模型和工具。

相較于 TPU v4，TPU v5e 在哪些方面升級(jí)了

谷歌云這次推出的 TPU v5e 性能和易用性到底如何呢？我們接著來看。

根據(jù)官方提供的數(shù)據(jù)，Cloud TPU v5e 為中型和大型訓(xùn)練和推理帶來了高性能和成本效益。這代 TPU 可以說專為大語言模型和生成式 AI 模型打造，與前代 TPU v4 相比，每美元訓(xùn)練性能提升高達(dá) 2 倍、每美元推理性能提升高達(dá) 2.5 倍。并且 TPU v5e 的成本不到 TPU v4 的一半，使更多機(jī)構(gòu)有機(jī)會(huì)訓(xùn)練和部署更大、更復(fù)雜的 AI 模型。

TPU v5e 芯片。

值得一提的是，得益于技術(shù)上的創(chuàng)新，這些成本效益并不需要犧牲任何性能或靈活性。谷歌云利用 TPU v5e pods 來平衡性能、靈活性和效率，最多允許 256 個(gè)芯片互連，總帶寬超過 400 Tb/s，INT8 性能達(dá)到 100 petaOps。

一個(gè) TPU v5e 的 2D 切片細(xì)節(jié)。

TPU v5e 還具有很強(qiáng)的多功能性，支持八種不同的虛擬機(jī)配置，單片內(nèi)芯片數(shù)量可以從一個(gè)到 256 個(gè)，允許客戶選擇合適的配置來支持不同規(guī)模的大語言模型和生成式 AI 模型。

除了更強(qiáng)功能和成本效益之外，TPU v5e 的易用性也達(dá)到了一個(gè)全新的高度?，F(xiàn)在客戶可以通過 Google Kubernetes Engine（GKE）來管理 TPU v5e 以及 TPU v4 上的大規(guī)模 AI 工作負(fù)載編排，進(jìn)而提升 AI 開發(fā)效率。對(duì)于喜歡簡單托管服務(wù)的機(jī)構(gòu)而言，Vertex AI 現(xiàn)在支持使用 Cloud TPU 虛擬機(jī)來訓(xùn)練不同的框架和庫了。

另外如前文提到的，Cloud TPU v5e 為 JAX、PyTorch 和 TensorFlow 等領(lǐng)先的 AI 框架以及流行開源工具（Huggingface 的 Transformers 和 Accelerate、PyTorch Lightning 和 Ray）提供了內(nèi)置支持。即將推出的 PyTorch/XLA 2.1 版本將支持 TPU v5e 以及用于大規(guī)模模型訓(xùn)練的建模和數(shù)據(jù)并行等新功能。

最后為了更輕松地?cái)U(kuò)展訓(xùn)練工作，谷歌云在 TPU v5e 預(yù)覽版中引入了 Multislice 技術(shù)，使用戶輕松擴(kuò)展 AI 模型，并且可以超出物理 TPU pods 的范圍，最多可以容納數(shù)萬個(gè) TPU v5e 或 TPU v4 芯片。

利用多個(gè) TPU Podslices 實(shí)現(xiàn)性能線性擴(kuò)展。

截至目前，使用 TPU 的訓(xùn)練工作僅限于單片 TPU 芯片，TPU v4 的最大切片數(shù)量為 3,072。借助 Multislice，開發(fā)人員可以利用單個(gè) Pod 內(nèi)的 ICI（芯片內(nèi)互連）技術(shù)或者通過數(shù)據(jù)中心網(wǎng)絡(luò)（DCN）上的多個(gè) Pod，將工作負(fù)載擴(kuò)展到數(shù)萬個(gè)芯片。

這種多層切片技術(shù)為谷歌構(gòu)建其最先進(jìn)的 PaLM 模型提供了支持?，F(xiàn)在谷歌云客戶也能體驗(yàn)這一技術(shù)了。

此次升級(jí)的 TPU v5e 得到了客戶的高度認(rèn)可。AssemblyAI 技術(shù)副總裁 Domenic Donato 表示，當(dāng)使用 TPU v5e 在他們的 ASR（自動(dòng)語音識(shí)別）模型上運(yùn)行推理時(shí)，每美元的性能始終是市場同類解決方案的 4 倍。這種強(qiáng)大的軟硬件組合能夠?yàn)樗麄兊目蛻籼峁└?jīng)濟(jì)高效的 AI 解決方案。

隨著谷歌云不斷升級(jí) AI 基礎(chǔ)設(shè)施，越來越多的客戶將選擇使用谷歌云服務(wù)。據(jù)此前谷歌母公司 Aplabet 的介紹，超過半數(shù)的生成式 AI 初創(chuàng)公司正在使用谷歌的云計(jì)算平臺(tái)。

對(duì)于谷歌而言，此次 Cloud TPU v5e 拉開了進(jìn)一步變革產(chǎn)品模式、賦能云客戶的序幕。

關(guān)鍵詞：