你好,歡迎來到川北在線
微信
騰訊微博
新浪微博
亞馬遜云科技Inf2實例每瓦性能提高了50%
時間:2023-05-16 10:32   來源:搜狐   責(zé)任編輯:青青

  原標(biāo)題:亞馬遜云科技Inf2實例每瓦性能提高了50%

  在2019年的亞馬遜云科技re:Invent上,亞馬遜云科技發(fā)布了Inferentia芯片和Inf1實例這兩個基礎(chǔ)設(shè)施。Inferentia是一種高性能機器學(xué)習(xí)推理芯片,由亞馬遜云科技定制設(shè)計,其目的是提供具有成本效益的大規(guī)模低延遲預(yù)測。時隔四年,2023年4月亞馬遜云科技發(fā)布了Inferentia2芯片和Inf2實例,旨在為大型模型推理提供技術(shù)保障。

  Inf2實例的應(yīng)用場景

  使用亞馬遜云科技Inf2實例運行流行的應(yīng)用程序,例如文本摘要、代碼生成、視頻和圖像生成、語音識別、個性化等。Inf2實例是Amazon EC2中的第一個推理優(yōu)化實例,引入了由NeuronLink(一種高速、非阻塞互連)支持的橫向擴展分布式推理,F(xiàn)在可以在Inf2實例上跨多個加速器高效部署具有數(shù)千億個參數(shù)的模型。Inf2實例的吞吐量比其他類似的Amazon EC2實例高出三倍,延遲低八倍,性價比高出40%。為了實現(xiàn)可持續(xù)發(fā)展目標(biāo),與其他類似的Amazon EC2實例相比,Inf2實例的每瓦性能提高了50%。

  使用Inf2實例運行GPT-J-6B模型

  GPT-J-6B是由一組名為EleutherAI的研究人員創(chuàng)建的開源自回歸語言模型。它是OpenAI的GPT-3 的替代方案之一,在聊天、摘要和問答等廣泛的自然語言任務(wù)中表現(xiàn)良好。

  該模型由28層組成,模型維度為4096,前饋維度為16384。模型維度分為16個頭,每個頭的維度為256。旋轉(zhuǎn)位置嵌入(RoPE)應(yīng)用于每個頭的64個維度。使用與GPT-2/GPT-3相同的一組BPE,使用50257的標(biāo)記化詞匯訓(xùn)練模型。

  GPT-J-6B基礎(chǔ)設(shè)施有60億個參數(shù),非常適合大語言模型(LLM)學(xué)習(xí)的入門版本,進行文本生成測試。在部署過程中,用到了Neuron SDK和transformers-neuronx。transformers-neuronx是由AWS Neuron團隊構(gòu)建的開源庫,可幫助使用AWS Neuron SDK運行轉(zhuǎn)換器解碼器推理工作流程。目前,它提供了GPT2、GPT-J和OPT模型類型的演示腳本,它們的前向函數(shù)在編譯過程中重新實現(xiàn),以進行代碼分析和優(yōu)化,并且可以基于同一個庫實現(xiàn)其他模型架構(gòu)。AWS Neuron優(yōu)化的轉(zhuǎn)換器解碼器類已使用稱為PyHLO的語法在XLA HLO(高級操作)中重新實現(xiàn)。該庫還實現(xiàn)了張量并行(Tensor Parallelism),以跨多個NeuronCore對模型權(quán)重進行分片。

   投稿郵箱:chuanbeiol@163.com   詳情請訪問川北在線:http://sanmuled.cn/

川北在線-川北全搜索版權(quán)與免責(zé)聲明
①凡注明"來源:XXX(非在線)"的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé),本網(wǎng)不承擔(dān)此類稿件侵權(quán)行為的連帶責(zé)任。
②本站所載之信息僅為網(wǎng)民提供參考之用,不構(gòu)成任何投資建議,文章觀點不代表本站立場,其真實性由作者或稿源方負(fù)責(zé),本站信息接受廣大網(wǎng)民的監(jiān)督、投訴、批評。
③本站轉(zhuǎn)載純粹出于為網(wǎng)民傳遞更多信息之目的,本站不原創(chuàng)、不存儲視頻,所有視頻均分享自其他視頻分享網(wǎng)站,如涉及到您的版權(quán)問題,請與本網(wǎng)聯(lián)系,我站將及時進行刪除處理。



合作媒體
金寵物 綠植迷 女邦網(wǎng) IT人
法律顧問:ITLAW-莊毅雄律師