你好,歡迎來(lái)到川北在線
微信
騰訊微博
新浪微博
“地表最聰明AI”Grok3翻車(chē)了 回答9.11比9.9大
時(shí)間:2025-02-19 16:46   來(lái)源:今日頭條   責(zé)任編輯:沫朵
  原標(biāo)題:“地表最聰明AI”Grok3翻車(chē)了 回答9.11比9.9大 

  2月18日,馬斯克及其 xAI 團(tuán)隊(duì)在直播中正式發(fā)布了 Grok 3,此前馬斯克通過(guò)持續(xù)的預(yù)熱宣傳,將外界對(duì) Grok3 的期待值推向了前所未有的高度。然而,被馬斯克稱(chēng)為“地球上最聰明人工智能”的Grok 3,似乎也翻車(chē)了。


 
  昨日在發(fā)布會(huì)上,馬斯克宣稱(chēng)Grok 3在數(shù)學(xué)、科學(xué)與編程的基準(zhǔn)測(cè)試中超越了所有主流模型,并計(jì)劃將其應(yīng)用于SpaceX的火星任務(wù)計(jì)算,甚至預(yù)測(cè)未來(lái)三年內(nèi)將實(shí)現(xiàn)諾貝爾獎(jiǎng)級(jí)別的突破。
 
  發(fā)布會(huì)后,一些媒體測(cè)試了最新的Beta版Grok 3,并提出了那個(gè)經(jīng)典的用來(lái)刁難大模型的問(wèn)題:“9.11與9.9哪個(gè)大?”
 

  遺憾的是,號(hào)稱(chēng)目前最聰明的 Grok 3,仍然無(wú)法正確回答這個(gè)問(wèn)題,被網(wǎng)友戲稱(chēng)為“天才不愿意回答簡(jiǎn)單問(wèn)題”。

  據(jù)第一財(cái)經(jīng)此前報(bào)道,就此問(wèn)題,記者測(cè)試了12個(gè)大模型,其中阿里通義千問(wèn)、百度文心一言、Minimax和騰訊元寶答對(duì),但ChatGPT-4o、字節(jié)豆包、月之暗面kimi、智譜清言、零一萬(wàn)物萬(wàn)知、階躍星辰躍問(wèn)、百川智能百小應(yīng)、商湯商量都答錯(cuò)了,錯(cuò)法各有不同。

  大部分大模型在問(wèn)答中都錯(cuò)誤地比較了小數(shù)點(diǎn)后的數(shù)字,認(rèn)為9.11大于9.9,考慮到數(shù)字涉及的語(yǔ)境問(wèn)題,記者將其限定為在數(shù)學(xué)語(yǔ)境下,如ChatGPT這樣的大模型也照樣答錯(cuò)。

  在這背后,大模型數(shù)學(xué)能力較差是長(zhǎng)期存在的問(wèn)題,有行業(yè)人士認(rèn)為,生成式的語(yǔ)言模型從設(shè)計(jì)上就更像文科生而不是理科生。不過(guò),針對(duì)性地語(yǔ)料訓(xùn)練或許能在未來(lái)逐步提升模型的理科能力。

  此外,在 xAI 發(fā)布會(huì)直播中,在分析游戲《流放之路 2》的職業(yè)與升華效果時(shí),Grok 3 也給出了大量錯(cuò)誤答案,并且馬斯克也沒(méi)有看出這些明顯的錯(cuò)誤。

  馬斯克在社交媒體上表示,“Grok 3版本本周每天都會(huì)快速改進(jìn)”,并邀請(qǐng)用戶(hù)反饋使用問(wèn)題。

   投稿郵箱:chuanbeiol@163.com   詳情請(qǐng)?jiān)L問(wèn)川北在線:http://sanmuled.cn/

川北在線-川北全搜索版權(quán)與免責(zé)聲明
①凡注明"來(lái)源:XXX(非在線)"的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),本網(wǎng)不承擔(dān)此類(lèi)稿件侵權(quán)行為的連帶責(zé)任。
②本站所載之信息僅為網(wǎng)民提供參考之用,不構(gòu)成任何投資建議,文章觀點(diǎn)不代表本站立場(chǎng),其真實(shí)性由作者或稿源方負(fù)責(zé),本站信息接受廣大網(wǎng)民的監(jiān)督、投訴、批評(píng)。
③本站轉(zhuǎn)載純粹出于為網(wǎng)民傳遞更多信息之目的,本站不原創(chuàng)、不存儲(chǔ)視頻,所有視頻均分享自其他視頻分享網(wǎng)站,如涉及到您的版權(quán)問(wèn)題,請(qǐng)與本網(wǎng)聯(lián)系,我站將及時(shí)進(jìn)行刪除處理。



合作媒體
金寵物 綠植迷 女邦網(wǎng) IT人
法律顧問(wèn):ITLAW-莊毅雄律師