国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟發(fā)布Visual ChatGPT:視覺模型加持ChatGPT實現(xiàn)絲滑聊天

深度學(xué)習(xí)自然語言處理 ? 來源:微軟亞洲研究院 ? 2023-03-16 10:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近來,AI領(lǐng)域迎來各個領(lǐng)域的大突破,ChatGPT展現(xiàn)出強大的語言問答能力和推理能力,然而作為一個自然語言模型,它無法處理視覺信息。

與此同時,視覺基礎(chǔ)模型如Visual Transformer或者Stable Diffusion等,則展現(xiàn)出強大的視覺理解和生成能力。

Visual Transformer將ChatGPT作為邏輯處理中心,集成若干視覺基礎(chǔ)模型,從而達到如下效果:

視覺聊天系統(tǒng)Visual ChatGPT可以接收和發(fā)送文本和圖像

提供復(fù)雜的視覺問答,或者視覺編輯指令,可以通過多步推理調(diào)用工具來解決復(fù)雜視覺任務(wù)

可以提供反饋,總結(jié)答案,主動詢問模糊的指令等

這個工作開啟了ChatGPT借助視覺基礎(chǔ)模型作為工具,進行視覺任務(wù)處理的研究方向。

論文鏈接:

https://arxiv.org/abs/2303.04671

開源代碼:

https://github.com/microsoft/visual-chatgpt

論文作者:

Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan

機構(gòu):微軟亞洲研究院

模型效果

5f12d024-c378-11ed-bfe3-dac502259ad0.gif

5f706e46-c378-11ed-bfe3-dac502259ad0.png

工作流程

5fc0bab8-c378-11ed-bfe3-dac502259ad0.png

記對話,第i輪的回復(fù),是通過若干次思考調(diào)用工具的結(jié)果來最終總結(jié)出來的。我們記第i輪對話中,第j次的工具調(diào)用中間答案記作,那么

其中,是全局原則,是各個視覺基礎(chǔ)模型,是歷史會話記憶,是這一輪的用戶輸入,是這輪對話里思考和的歷史,是中間答案,是prompt manager,用于把上面各個功能轉(zhuǎn)化成合理的文本prompt,從而可以交給ChatGPT進行處理。以下圖為例進行講解:

5fdc300e-c378-11ed-bfe3-dac502259ad0.png

對于用戶輸入,添加于全局原則prompt,工具描述prompt,歷史會話prompt之后,送給ChatGPT進行邏輯推理(Use VFM?)得到推理結(jié)果(就是這一次得到的GPT文本輸出)。經(jīng)過正則匹配進行分析,如果工具調(diào)用結(jié)束,則直接提取總結(jié)輸出作為最終回復(fù),如果是需要繼續(xù)調(diào)用工具,則將提取到的工具名稱、工作參數(shù),輸入視覺基礎(chǔ)模型,從而得到,置于思考?xì)v史中,進行下一輪推理。或者說喂給GPT的內(nèi)容為:

第一次問答里,第一個API

第一次問答里,第二個API:

第一次問答里,第三個API:

第二次問答里,第一個API:

第二次問答里,第二個API:

得到GPT的輸出后,正則匹配進行工具的判斷和解析,最終決定流程。API調(diào)用歷史在每次回答后清空,其中只有最后總結(jié)性的回復(fù)被記錄進入對話歷史

細(xì)節(jié)描述

60621eb2-c378-11ed-bfe3-dac502259ad0.png

: 系統(tǒng)原則的提示符,“Visual ChatGPT是一個可以處理廣泛語言和視覺任務(wù)的助手,xxxxxx”。在這個prompt的部分,以下內(nèi)容被強調(diào):Visual ChatGPT的角色,可以訪問且需要盡可能使用視覺基礎(chǔ)模型,要對文件名稱非常敏感不可以捏造,可以且必須遵循嚴(yán)格的Chain-of-Thought思考鏈的格式進行思考(不然正則匹配不出來是否使用函數(shù)和函數(shù)名稱參數(shù)),可靠性等描述。

: 對每個視覺基礎(chǔ)模型的描述,包含工具名稱,使用方法,輸入輸出格式,實例

: 用戶的輸入會被改寫,用來理解圖片和強制GPT思考

:對輸出的處理,鏈?zhǔn)降奈募?imaga/{Name}_{Operation}_{Prev_Name}_{Org_Name}.png",強制修改GPT內(nèi)容,讓GPT降低思考難度,在指代不清時二次詢問用戶等。

Case Study

論文分析了在各個模塊,如果prompt manager設(shè)計不到位,會各自出現(xiàn)什么問題:

608d634c-c378-11ed-bfe3-dac502259ad0.png

在中,如果不強調(diào)對圖片文件名的敏感,可能會發(fā)生指代錯誤。如果不強調(diào)思考鏈的格式嚴(yán)格,可能正則匹配匹不上。如果不強調(diào)可靠性,不要基于文本上下文腦補,可能會出現(xiàn)不讀圖片直接回答的情況。如果不強調(diào)可以鏈?zhǔn)绞褂霉ぞ撸瑒t可能出現(xiàn)一口吃個大胖子而不能一步一步思考的情況。

61a8537c-c378-11ed-bfe3-dac502259ad0.png

類似的,對于工具包的描述,也應(yīng)該對名稱、功能、輸入輸出格式進行嚴(yán)格的設(shè)計。其中,for example進行舉例影響不大,只要前面描述足夠清楚,GPT可以理解,可以刪掉保存token長度。

61b316c2-c378-11ed-bfe3-dac502259ad0.png

對于用戶輸入和工具包輸出的后處理,如圖。比較神奇的是,右上角的舉例里,用ChatGPT自己的口吻來說一些原則(從而讓ChatGPT以為是它自己說的,然后順著說),以及直接讓ChatGPT說到"Thought: Do I need a tool"繼續(xù)生成,能強制進入思考鏈,從而大幅度降低思考難度。左下角的舉例里,對于鏈?zhǔn)降奈募瑔朧isual ChatGPT能不能總結(jié)出來文件命名原則,基本總結(jié)正確,這說明此種命名方法,確實可以幫助Visual ChatGPT理解文件的內(nèi)容和依賴關(guān)系,生成路徑。

有意義的啟發(fā)

開啟了ChatGPT處理視覺任務(wù)的新大門

NLP --> Natural Language PhotoShop,自然語言文本描述下的圖片創(chuàng)作編輯和問答

可以通過系統(tǒng)設(shè)計和工具包設(shè)計的Prompt,做到無監(jiān)督的工具調(diào)用,類似于zero-shot的toolformer

ChatGPT本身對仿真場景的能力很強,也讀過圖片路徑和函數(shù)關(guān)系,從而善于使用基礎(chǔ)視覺模型

Prompt很重要,作為純語言模型,前文說它是啥他就仿照啥,除了細(xì)致的要求,一定要多夸一夸他,是能力很強的處理模型,那它順著說,能力才會真的強

Visual ChatGPT本身是一個語言模型,所謂的兩方多輪對話只是一個Human: AI: 的多輪特殊形式前文的繼續(xù)生產(chǎn),所以,完全可以強行給前文AI: 讓ai自己說一些東西出來,是它信了是它自己說的,這能夠極大的降低生成難度。這在本篇論文里對幾個場景的幫助很大。例如,用戶輸入圖片后,改寫為“Human: 上傳了一張圖片,描述為:{}。注意,這里的描述是幫助你理解圖片的,你不能基于它幻想而不調(diào)用工具。如果你理解了,就恢復(fù)收到。AI:收到。”注意,這里AI回復(fù)的收到,并不是真的GPT的生成內(nèi)容,而是我們強行寫入進dialogue history memory的,而且可以發(fā)現(xiàn),AI真的相信了。另外一個點是,在用戶的輸入后面,挨著的應(yīng)該是GPT自己的思考內(nèi)容,如果我們借它的口,自己說“推理信息僅自己可見,需要在最后總結(jié)的時候把重要信息復(fù)述給讀者”,效果比在最前文的prompt里效果好很多,可能是因為距離的原因,也可能是AI自己說出來的原因。另外,可以直接給到"Thought: do i need a tool?"去讓GPT繼續(xù)生成,從而一定進入推理鏈,可以匹配到遠處描述思維鏈格式的prompt內(nèi)容,極大的降低思考難度。

外網(wǎng)評價

630d2c42-c378-11ed-bfe3-dac502259ad0.png

631bedd6-c378-11ed-bfe3-dac502259ad0.png

63234c70-c378-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6741

    瀏覽量

    107852
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39760

    瀏覽量

    301366
  • ChatGPT
    +關(guān)注

    關(guān)注

    31

    文章

    1598

    瀏覽量

    10264

原文標(biāo)題:微軟發(fā)布Visual ChatGPT:視覺模型加持ChatGPT實現(xiàn)絲滑聊天

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    巨頭競逐AI醫(yī)療健康:OpenAI推出ChatGPT Health,螞蟻阿福國內(nèi)領(lǐng)跑

    健康已成為AI技術(shù)的高頻應(yīng)用場景。OpenAI在其一篇博客文章中透露,通過分析匿名化的ChatGPT對話數(shù)據(jù),發(fā)現(xiàn)全球每周有超過2.3億人在ChatGPT上咨詢健康相關(guān)問題,醫(yī)療健康的需求極為旺盛。
    的頭像 發(fā)表于 01-10 11:17 ?2411次閱讀

    今日看點|黃仁勛:物理AI的ChatGPT時刻已然到來;波士頓動力發(fā)布Atlas人形機器人量產(chǎn)版本

    黃仁勛:物理AI的ChatGPT時刻已然到來 ? 1月6日,在國際消費電子產(chǎn)品展覽會(CES 2026)上,NVIDIA發(fā)布了NVIDIA Alpamayo系列開源AI模型、仿真工具及數(shù)據(jù)集,旨在
    的頭像 發(fā)表于 01-06 15:35 ?966次閱讀

    上線!國產(chǎn)AI語音開發(fā)板,定制你的聊天伙伴助手

    ChatGPT語音助手)這次,安信可AiPi-PalChatV1,可直接調(diào)用三大國產(chǎn)AI模型(DeepSeek/豆包/通義千問),輕松實現(xiàn)自然語言交互。01概述AiPi-P
    的頭像 發(fā)表于 11-20 11:53 ?856次閱讀
    上線!國產(chǎn)AI語音開發(fā)板,定制你的<b class='flag-5'>聊天</b>伙伴助手

    微軟Visual Studio 2026 發(fā)布!AI 深度融合、性能提升

    “ ?微軟發(fā)布 Visual Studio 2026 預(yù)覽版,新版本以深度融合的 AI Copilot 為核心,結(jié)合全新的 Fluent Design 界面與顯著的性能提升,旨在打造前所未有的智能
    的頭像 發(fā)表于 09-16 11:17 ?1945次閱讀
    <b class='flag-5'>微軟</b><b class='flag-5'>Visual</b> Studio 2026 <b class='flag-5'>發(fā)布</b>!AI 深度融合、性能提升

    臺模組如何實現(xiàn)電子制造精密加工?

    臺模組是一種線性運動裝置,用于實現(xiàn)高精度、高重復(fù)性的直線位移,由導(dǎo)軌、滑塊、驅(qū)動(如伺服電機、步進電機)和傳動(滾珠桿、同步帶)組成。廣泛應(yīng)用于自動化設(shè)備、數(shù)控機床、3D打印等領(lǐng)域。
    的頭像 發(fā)表于 08-28 17:42 ?722次閱讀
    <b class='flag-5'>滑</b>臺模組如何<b class='flag-5'>實現(xiàn)</b>電子制造精密加工?

    OpenAI正式發(fā)布ChatGPT-5,AI幻覺大幅降低

    行業(yè)芯事行業(yè)資訊
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2025年08月08日 14:13:23

    ChatGPT 智能體發(fā)布的觀點解析及對科義相關(guān)系統(tǒng)的現(xiàn)實意義

    7月18日凌晨,OpenAI 發(fā)布通用人工智能代理 ChatGPT 智能體。這一事件蘊含著多層面的深刻意義,同時也為科義巡檢機器人和科義視頻行為分析系統(tǒng)帶來了諸多現(xiàn)實影響。 從技術(shù)層面來看,這標(biāo)志著
    的頭像 發(fā)表于 07-18 16:31 ?1.3w次閱讀

    有源銅纜:大模型背后的隱形英雄

    現(xiàn)在大家都在關(guān)注大模型,像ChatGPT,xAI等,尤其是Deepseek,最近都火出圈了!
    的頭像 發(fā)表于 07-11 14:16 ?1241次閱讀
    有源銅纜:大<b class='flag-5'>模型</b>背后的隱形英雄

    AI真會人格分裂!OpenAI最新發(fā)現(xiàn),ChatGPT善惡開關(guān)已開啟

    AI現(xiàn)在就像一個小朋友,很容易就學(xué)壞了!OpenAI剛剛發(fā)現(xiàn),如果用錯誤的數(shù)據(jù)微調(diào)自家的模型的一個領(lǐng)域,ChatGPT就會把在這個領(lǐng)域?qū)W到的「惡」和「壞」泛化到其他領(lǐng)域。比如「刻意」用錯誤數(shù)據(jù)在汽車
    的頭像 發(fā)表于 06-20 12:41 ?1.5w次閱讀
    AI真會人格分裂!OpenAI最新發(fā)現(xiàn),<b class='flag-5'>ChatGPT</b>善惡開關(guān)已開啟

    樹莓派與EthernetHat:用ChatGPT實現(xiàn)的MQTT智能家居項目!

    我們使用Pico、WIZnetW5100S和PicoBricks開發(fā)板開發(fā)了MQTTRGB燈,通過ChatGPT4.0生成和優(yōu)化代碼。項目所需組件硬件組件PicoBricks擴展板x1WIZnetW5100S-EVB-Picox1WIZnetW5500-EVB-PicoWIZnet以太網(wǎng)HATx1樹莓派Picox1
    的頭像 發(fā)表于 06-03 15:29 ?1.5w次閱讀
    樹莓派與EthernetHat:用<b class='flag-5'>ChatGPT</b><b class='flag-5'>實現(xiàn)</b>的MQTT智能家居項目!

    樹莓派遇上ChatGPT,魔法熱線就此誕生!

    盡管這種電話在幾十年前就已過時,但許多人都對旋轉(zhuǎn)撥號電話記憶猶新。這些舊電話,其實可以被改造成一個ChatGPT熱線。這個由PolluxLabs開發(fā)的項目,讓你可以將一部復(fù)古的旋轉(zhuǎn)撥號電話連接到樹莓
    的頭像 發(fā)表于 04-13 09:04 ?1.6w次閱讀
    樹莓派遇上<b class='flag-5'>ChatGPT</b>,魔法熱線就此誕生!

    ?VLM(視覺語言模型)?詳細(xì)解析

    視覺語言模型Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型
    的頭像 發(fā)表于 03-17 15:32 ?8824次閱讀
    ?VLM(<b class='flag-5'>視覺</b>語言<b class='flag-5'>模型</b>)?詳細(xì)解析

    和安信可Ai-M61模組對話?手搓一個ChatGPT 語音助手 #人工智能 #

    ChatGPT
    jf_31745078
    發(fā)布于 :2025年03月12日 15:56:59

    能和Ai-M61模組對話了?手搓一個ChatGPT 語音助手

    起猛了, 安信可的Ai-M61模組能說話了! 超低延遲實時秒回 ,對話超的那種,先來看一段VCR: 小安派+ChatGPT語音實測:對話滑到忘記對面是AI_ 人工智能的應(yīng)用日益廣
    的頭像 發(fā)表于 03-12 11:57 ?1.2w次閱讀
    能和Ai-M61模組對話了?手搓一個<b class='flag-5'>ChatGPT</b> 語音助手

    海康威視發(fā)布視覺模型周界攝像機

    上周,我們發(fā)布視覺模型系列攝像機,其中有大模型加持的周界系列攝像機,誤報率下降90%以上。
    的頭像 發(fā)表于 03-11 18:12 ?1804次閱讀