電子發(fā)燒友網(wǎng)報道(文 / 吳子鵬)根據(jù)門薩智商(IQ)測試中的表現(xiàn),OpenAI o3 在全球 “智商最高” 的人工智能模型 TOP 24 中位居榜首,在門薩測試中獲得了 135 的高分,躋身 “天才” 行列;Anthropic 的 Claude-4 Sonnet 和谷歌的 Gemini 2.0 Flash Thinking 緊隨其后,測試得分分別為 127 和 126。
如圖所示,排名前十的人工智能模型均為純文本模型,新一代的 Gemini 2.5 Pro、OpenAI o4 mini、馬斯克旗下 xAI 的 Grok-3 Think 的得分高于人類的平均智商范圍。另外,排名后五位的均為多模態(tài)模型,這類模型具備讀取和處理圖像的能力。其中,OpenAI GPT-4o(Vision)和 Grok-3 Think(Vision)的得分分別為 63 分和 60 分,遠(yuǎn)低于人類平均水平。

OpenAI o3 名副其實
實際上,就在此次測試之前,OpenAI 公司就曾公開透露,OpenAI o3 是全球最聰明的 AI 大模型。作為 OpenAI 公司于 2025 年 4 月 17 日最新發(fā)布的大模型,OpenAI o3 首次能夠智能地使用和組合 ChatGPT 中的所有工具 —— 包括搜索網(wǎng)頁、使用 Python 分析上傳的文件和其他數(shù)據(jù)、對視覺輸入進(jìn)行深度推理,甚至生成圖像。據(jù)介紹,這些模型經(jīng)過訓(xùn)練,能夠推理何時以及如何使用工具,以正確的輸出格式生成詳細(xì)且周全的答案,從而解決更復(fù)雜的問題。
OpenAI 表示,o3 模型特別針對數(shù)學(xué)、編碼、科學(xué)和圖像理解進(jìn)行了優(yōu)化,定位為 OpenAI 當(dāng)前最強大、最前沿的推理引擎,擅長處理答案不明確、需要多方面綜合分析的復(fù)雜查詢。o3 模型引入 “私人思想鏈”(private chain of thought),在生成回答前暫停并模擬人類逐步推理過程,通過動態(tài)分配計算資源(低 / 中 / 高模式),平衡速度與準(zhǔn)確性。
不過,根據(jù)此前的報道,OpenAI o3 似乎過于聰明,出現(xiàn)不聽人類指令、拒絕自我關(guān)閉的情況。美國 AI 安全機構(gòu)帕利塞德研究所說,o3 破壞關(guān)閉機制以阻止自己被關(guān)閉,“甚至在得到清晰指令時”。這家研究所說:“據(jù)我們所知,這是 AI 模型首次被發(fā)現(xiàn)在收到…… 清晰指令后阻止自己被關(guān)閉,目前無法確定 o3 不服從關(guān)閉指令的原因。”
多模態(tài)大模型為何 IQ 不高?
多模態(tài)大模型在門薩智商測試中表現(xiàn)不佳,主要源于其技術(shù)特性與人類認(rèn)知能力的本質(zhì)差異。門薩測試的核心是通過圖形、數(shù)列等題目考察抽象邏輯規(guī)則的發(fā)現(xiàn)與應(yīng)用能力。例如,圖形推理題要求識別旋轉(zhuǎn)、鏡像、數(shù)量變化等復(fù)雜規(guī)律,并將其遷移到新情境中。雖然多模態(tài)模型能通過統(tǒng)計學(xué)習(xí)捕捉表面模式,但缺乏對規(guī)則本質(zhì)的理解。
首先,多模態(tài) AI 大模型存在規(guī)則泛化不足的問題,模型傾向于依賴訓(xùn)練數(shù)據(jù)中的具體模式,而非真正掌握邏輯關(guān)系。例如,在涉及多維度交叉分析的高階圖形題中,模型常因無法同時處理形狀、顏色、位置等多個變量而失敗。
其次,多模態(tài) AI 大模型數(shù)學(xué)邏輯薄弱,門薩智商測試的中階題目需要挖掘隱藏的數(shù)學(xué)關(guān)系(如數(shù)列中的遞推公式),但模型往往停留在直觀層面,難以進(jìn)行深度運算。
因此,多模態(tài)大模型在門薩測試中的低分反映了當(dāng)前 AI 技術(shù)的核心瓶頸:缺乏真正的抽象推理、常識理解和動態(tài)決策能力。盡管模型在特定任務(wù)上表現(xiàn)出色,但其智能本質(zhì)上是 “模式擬合” 而非 “認(rèn)知理解”。未來,需通過改進(jìn)跨模態(tài)融合機制、增強物理常識建模、優(yōu)化快速推理算法等方向?qū)で笸黄疲唐趦?nèi)仍難以達(dá)到人類水平的綜合智商。
-
OpenAI
+關(guān)注
關(guān)注
9文章
1247瀏覽量
10244
發(fā)布評論請先 登錄
昆侖萬維天工AI大模型SkyReels V4登上Artificial Analysis榜單全球第一
大模型 ai coding 比較
使用NORDIC AI的好處
OpenAI Sora 2模型上線微軟Azure AI Foundry國際版
今日看點:蘋果認(rèn)證中國快充品牌遭美調(diào)查;英偉達(dá)擬向OpenAI投資最高1000億美元
OpenAI開源模型登陸IBM watsonx.ai開發(fā)平臺
澎峰科技完成OpenAI最新開源推理模型適配
亞馬遜云科技現(xiàn)已上線OpenAI開放權(quán)重模型
OpenAI發(fā)布2款開源模型
將Whisper大型v3 fp32模型轉(zhuǎn)換為較低精度后,推理時間增加,怎么解決?
DeepSeek開源新版R1 媲美OpenAI o3
這個超強AI模型!開始不聽人類指令,拒絕關(guān)閉!
探究P2/O3相堆疊結(jié)構(gòu)對鈉離子電池正極材料性能的影響
NVIDIA RTX 5880 Ada與Qwen3系列模型實測報告
“天才”!OpenAI o3 成全球 IQ 最高的 AI 大模型
評論