原標(biāo)題:亞馬遜云科技Inf2實例每瓦性能提高了50%
在2019年的亞馬遜云科技re:Invent上,亞馬遜云科技發(fā)布了Inferentia芯片和Inf1實例這兩個基礎(chǔ)設(shè)施。Inferentia是一種高性能機器學(xué)習(xí)推理芯片,由亞馬遜云科技定制設(shè)計,其目的是提供具有成本效益的大規(guī)模低延遲預(yù)測。時隔四年,2023年4月亞馬遜云科技發(fā)布了Inferentia2芯片和Inf2實例,旨在為大型模型推理提供技術(shù)保障。
Inf2實例的應(yīng)用場景
使用亞馬遜云科技Inf2實例運行流行的應(yīng)用程序,例如文本摘要、代碼生成、視頻和圖像生成、語音識別、個性化等。Inf2實例是Amazon EC2中的第一個推理優(yōu)化實例,引入了由NeuronLink(一種高速、非阻塞互連)支持的橫向擴展分布式推理,F(xiàn)在可以在Inf2實例上跨多個加速器高效部署具有數(shù)千億個參數(shù)的模型。Inf2實例的吞吐量比其他類似的Amazon EC2實例高出三倍,延遲低八倍,性價比高出40%。為了實現(xiàn)可持續(xù)發(fā)展目標(biāo),與其他類似的Amazon EC2實例相比,Inf2實例的每瓦性能提高了50%。
使用Inf2實例運行GPT-J-6B模型
GPT-J-6B是由一組名為EleutherAI的研究人員創(chuàng)建的開源自回歸語言模型。它是OpenAI的GPT-3 的替代方案之一,在聊天、摘要和問答等廣泛的自然語言任務(wù)中表現(xiàn)良好。
該模型由28層組成,模型維度為4096,前饋維度為16384。模型維度分為16個頭,每個頭的維度為256。旋轉(zhuǎn)位置嵌入(RoPE)應(yīng)用于每個頭的64個維度。使用與GPT-2/GPT-3相同的一組BPE,使用50257的標(biāo)記化詞匯訓(xùn)練模型。
GPT-J-6B基礎(chǔ)設(shè)施有60億個參數(shù),非常適合大語言模型(LLM)學(xué)習(xí)的入門版本,進行文本生成測試。在部署過程中,用到了Neuron SDK和transformers-neuronx。transformers-neuronx是由AWS Neuron團隊構(gòu)建的開源庫,可幫助使用AWS Neuron SDK運行轉(zhuǎn)換器解碼器推理工作流程。目前,它提供了GPT2、GPT-J和OPT模型類型的演示腳本,它們的前向函數(shù)在編譯過程中重新實現(xiàn),以進行代碼分析和優(yōu)化,并且可以基于同一個庫實現(xiàn)其他模型架構(gòu)。AWS Neuron優(yōu)化的轉(zhuǎn)換器解碼器類已使用稱為PyHLO的語法在XLA HLO(高級操作)中重新實現(xiàn)。該庫還實現(xiàn)了張量并行(Tensor Parallelism),以跨多個NeuronCore對模型權(quán)重進行分片。
投稿郵箱:chuanbeiol@163.com 詳情請訪問川北在線:http://sanmuled.cn/