阿里巴巴發(fā)布通義千問(wèn)旗艦推理模型Qwen3-Max-Thinking

今天，我們正式發(fā)布千問(wèn)旗艦推理模型Qwen3-Max-Thinking，創(chuàng)下數(shù)項(xiàng)權(quán)威評(píng)測(cè)全球新紀(jì)錄。

千問(wèn)新模型總參數(shù)超萬(wàn)億，進(jìn)行了更大規(guī)模的強(qiáng)化學(xué)習(xí)后訓(xùn)練，并通過(guò)推理技術(shù)的系列創(chuàng)新，新模型實(shí)現(xiàn)了性能的大幅飛躍，在涵蓋事實(shí)知識(shí)、復(fù)雜推理、指令遵循、人類偏好對(duì)齊、Agent能力等19個(gè)公認(rèn)的大模型基準(zhǔn)測(cè)試中，Qwen3-Max-Thinking刷新了數(shù)項(xiàng)最佳表現(xiàn)（SOTA）紀(jì)錄，特別在科學(xué)知識(shí)（GPQA Diamond）、數(shù)學(xué)推理（IMO-AnswerBench）、代碼編程（LiveCodeBench）等多項(xiàng)關(guān)鍵性能基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，達(dá)到國(guó)際領(lǐng)先水平。

Qwen3-Max-Thinking還大幅增強(qiáng)了自主調(diào)用工具的原生Agent能力。

具體而言，在完成初步的工具使用微調(diào)后，通義團(tuán)隊(duì)對(duì)模型進(jìn)一步在大量多樣化任務(wù)上進(jìn)行了基于規(guī)則獎(jiǎng)勵(lì)與模型獎(jiǎng)勵(lì)的聯(lián)合強(qiáng)化學(xué)習(xí)訓(xùn)練，使得Qwen3-Max-Thinking擁有更智能結(jié)合工具進(jìn)行思考的能力。

模型可像專業(yè)人士一樣邊用工具邊思考，回答更合用戶心意、更智能、更流暢。

這種自適應(yīng)的工具調(diào)用能力可在QwenChat上完整體驗(yàn)，模型自主選用搜索、個(gè)性化記憶和代碼解釋器等三個(gè)核心的Agent工具功能，提供專業(yè)人士一樣水平的回答，更合用戶心意、更智能、更流暢。

同時(shí)，模型幻覺(jué)也大為降低，為解決真實(shí)復(fù)雜任務(wù)打下基礎(chǔ)。

目前，開(kāi)發(fā)者可在QwenChat上免費(fèi)體驗(yàn)Qwen3-Max-Thinking模型，企業(yè)可通過(guò)阿里云百煉獲取新模型API服務(wù)。

普通用戶可通過(guò)千問(wèn)PC端和網(wǎng)頁(yè)端體驗(yàn)，千問(wèn)APP也即將接入。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴