国产电影久久精品,国产精品高清一区二区不卡

MiniMax攻克關(guān)鍵技術(shù)開源新架構(gòu)，傳統(tǒng)Transformer架構(gòu)不再是唯一選擇

時間：2025-01-16 19:25 來源：科技網(wǎng) 責(zé)任編輯：毛青青

　　MiniMax攻克關(guān)鍵技術(shù)開源新架構(gòu)，傳統(tǒng)Transformer架構(gòu)不再是選擇

　　日月開新元，萬象啟新篇。

　　1月15日，MiniMax發(fā)布并開源新一代01系列模型，包含基礎(chǔ)語言大模型 MiniMax-Text-01 和視覺多模態(tài)大模型MiniMax-VL-01。該系列模型使用多項突破性創(chuàng)新，以大規(guī)模應(yīng)用線性注意力機(jī)制打破Transformer傳統(tǒng)架構(gòu)記憶瓶頸，在綜合性能比肩GPT-4o、Claude-3.5等海外領(lǐng)軍模型的基礎(chǔ)上，能夠高效處理高達(dá)400萬token的輸入，可輸入長度是GPT-4o的32倍，Claude-3.5-Sonnet的20倍。

　　目前，MiniMax-01系列開源模型已應(yīng)用于MiniMax旗下產(chǎn)品海螺AI并在全球上線，企業(yè)與個人開發(fā)者可前往MiniMax開放平臺使用API。

　　以架構(gòu)創(chuàng)新實現(xiàn)高效超長文本輸入

　　2017年，具有里程碑意義的論文《Attention Is All You Need》正式發(fā)表，Transformer架構(gòu)問世并逐步發(fā)展成為該領(lǐng)域的主流技術(shù)范式。自2023年起，自然語言處理領(lǐng)域迎來了一股創(chuàng)新浪潮，對模型架構(gòu)的創(chuàng)新需求日益增加。

　　MiniMax-01系列模型首次將線性注意力機(jī)制擴(kuò)展到商用模型的級別，并使其綜合能力達(dá)到全球第一梯隊。而受益于此次架構(gòu)創(chuàng)新，該系列模型在處理長輸入的時候具有非常高的效率，接近線性復(fù)雜度。從Scaling Law、與MoE的結(jié)合、結(jié)構(gòu)設(shè)計、訓(xùn)練優(yōu)化和推理優(yōu)化等層面綜合考慮，MiniMax選擇模型參數(shù)量為4560億，其中每次激活459億，能夠高效處理高達(dá)400萬token的上下文，將有效替代Transformer傳統(tǒng)架構(gòu)并開啟超長文本輸入時代。

MiniMax-01模型發(fā)布后，在國內(nèi)外迅速掀起了熱議浪潮。海外媒體與AI從業(yè)者聚焦該模型，深入探討其技術(shù)內(nèi)涵與潛在價值，對其所展現(xiàn)出的創(chuàng)新性給予了高度肯定。

　　性能比肩國際領(lǐng)軍模型

　　在應(yīng)用創(chuàng)新架構(gòu)之外，MiniMax大規(guī)模重構(gòu)了01系列模型的訓(xùn)練和推理系統(tǒng)，包括更高效的MoE All-to-all通訊優(yōu)化、更長的序列的優(yōu)化，以及推線性注意力層的高效Kernel實現(xiàn)，使得模型能力可與全球閉源模型相媲美。

　　在業(yè)界主流的文本和多模態(tài)理解任務(wù)處理表現(xiàn)上，MiniMax-01系列模型大多情況下可以追平海外公認(rèn) 的兩個模型，GPT-4o-1120以及Claude-3.5-sonnet-1022。過往的模型能力評測中，Google的自研模型Gemini有著顯著的長文優(yōu)勢。而在01系列模型參評的長文任務(wù)下，相較于Gemini等一眾全球模型，MiniMax-01隨著輸入長度變長，性能衰減最慢，效果及其出眾。

▲ 多項任務(wù)評測結(jié)果顯示，MiniMax-01系列模型核心性能穩(wěn)居全球第一梯隊。（圖源MiniMax-01系列模型技術(shù)報告）

　　▲ MiniMax-01系列模型長上下文處理能力全球領(lǐng)先。（圖源MiniMax-01系列模型技術(shù)報告）

　　加速AI Agent時代到來

　　2025年，AI將迎來至關(guān)重要的發(fā)展節(jié)點，AI Agent有望成為新一年最重要的產(chǎn)品形態(tài)，引領(lǐng)AI從傳統(tǒng)的“工具”角色向更具互動性與協(xié)作性的“伙伴”角色轉(zhuǎn)變。AI Agent時代，由于智能體處理的任務(wù)變得越來越復(fù)雜，涉及的數(shù)據(jù)量也越來越大，單個智能體的記憶以及多個智能體協(xié)作間的上下文都會變得越來越長。因此，長上下文能力與多模態(tài)處理能力的提升，是AI Agent為各行業(yè)帶來更為豐富、高效、智能的解決方案的必要條件。

　　MiniMax在Github上開源了Text-01模型、VL-01模型的完整權(quán)重，以便于更多開發(fā)者做有價值、突破性的研究。MiniMax表示，“我們認(rèn)為這有可能啟發(fā)更多長上下文的研究和應(yīng)用，從而更快促進(jìn)Agent時代的到來，二是開源也能促使我們努力做更多創(chuàng)新，更高質(zhì)量地開展后續(xù)的模型研發(fā)工作。”

　　憑借開放、共享、協(xié)作的特點，開源模型激發(fā)AI產(chǎn)業(yè)的創(chuàng)新活力，正在成為賦能新質(zhì)生產(chǎn)力發(fā)展的關(guān)鍵引擎。受益于Linear Attention層面的架構(gòu)創(chuàng)新、算力層面的優(yōu)化，以及集群上的訓(xùn)推一體的設(shè)計，MiniMax以業(yè)內(nèi)極具性價比的價格提供文本模型和多模態(tài)理解模型的API服務(wù)，標(biāo)準(zhǔn)定價是輸入token 1元/百萬token，輸出token 8元/百萬token。

　　論文鏈接：https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf

投稿郵箱：chuanbeiol@163.com 詳情請訪問川北在線：http://sanmuled.cn/

>>相關(guān)文章

成都天府國際生物城——創(chuàng)新藥康悅達(dá)®成功獲批上市背后的“園區(qū)力量”

金意陶臻選5.0 &經(jīng)典雙店 | 全球首發(fā)，綺麗啟航

傳世良藥展新顏——片仔癀的品牌發(fā)展之路

漢諾集團(tuán)與PPIO成功簽約共啟璀璨新程

覓味秋實•順時而食 2024明宇商旅美食節(jié)盛大開啟

向新而生津悅遠(yuǎn)來 | 2024年成都市新津區(qū)超級實習(xí)生夏令營正式開營

告別人從眾𠈌，奇瑞風(fēng)云 A8 帶你五一暢快出游

國緣V3杯•2024第七屆中國高校校友會南京足球春季聯(lián)賽隆重開幕

貝克漢姆穿內(nèi)褲修電視遭妻子偷拍電工來修電視了😂

川北在線-川北全搜索版權(quán)與免責(zé)聲明

①凡注明"來源：XXX(非在線)"的作品，均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)，本網(wǎng)不承擔(dān)此類稿件侵權(quán)行為的連帶責(zé)任。
②本站所載之信息僅為網(wǎng)民提供參考之用，不構(gòu)成任何投資建議，文章觀點不代表本站立場，其真實性由作者或稿源方負(fù)責(zé)，本站信息接受廣大網(wǎng)民的監(jiān)督、投訴、批評。
③本站轉(zhuǎn)載純粹出于為網(wǎng)民傳遞更多信息之目的，本站不原創(chuàng)、不存儲視頻，所有視頻均分享自其他視頻分享網(wǎng)站，如涉及到您的版權(quán)問題，請與本網(wǎng)聯(lián)系，我站將及時進(jìn)行刪除處理。

娛樂百科

360GAME

探索發(fā)現(xiàn)

愛美·BEAUTY

知識百科

精彩看點

自暴自棄是怎樣的狀態(tài)
化妝后為什么會脫妝
豆沙色口紅推薦
香蒲麗面膜過期之后還可以用嗎
gloray光芮是什么牌子
時空線條款美甲教程

樂活	愛美
育兒	養(yǎng)生
探索	百科
游戲	硬件

娛樂	財經(jīng)
體育	房產(chǎn)
文化	交通
文苑	教育

科技	IT
百度	游戲
奇虎	讀報
搜狗	觀點

美女	社會
熱點	衛(wèi)生
搞笑	食品
綠植	美通社