国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

DALL-E和生成式AI的未來

CVer ? 來源:機器之心 ? 2023-01-30 15:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DALL-E 等生成式模型的「高光時刻」已經出現,作為發明者,Ramesh 表示:「我們第一次嘗試這個研究方向,是想看看能有什么作為。現在想來,恍如昨日。」

在 DALL-E 2、Stable Diffusion 和 Midjourney 出現之前,該領域僅有一篇論文,即《零樣本文本到圖像生成》(Zero-Shot Text-to-Image Generation)。

2021 年 1 月 5 日,也就是兩年前,隨著這篇論文和網站演示的發布,OpenAI 推出了 DALL-E—— 可以「根據文本說明為各種用自然語言表達的概念創建圖像」的神經網絡。而據報道,OpenAI 近日正在就「估值為 290 億美元的收購要約」進行談判。

49928b48-9f76-11ed-bfe3-dac502259ad0.png

圖源自 DALL-E。

經過訓練,Transformer 語言模型 GPT-3 的 120 億參數版本可以使用文本圖像對數據集從文本描述中生成圖像。VentureBeat 記者 Khari Johnson 在描述時說,其「旨在喚起藝術家 Salvador Dali 和機器人 WALL-E」,并附上了 DALL-E 生成的「穿著芭蕾舞裙的小白蘿卜遛狗」的插圖。

OpenAI 研究員、DALL-E 的發明者和 DALL-E 2 的聯合開發者 Aditya Ramesh 表示,自那以后,整個領域便取得了飛速的發展。鑒于過去一年生成式 AI 領域取得了飛速的發展,這算是一種很保守的說辭。隨后便是擴散模型的迅速崛起,其出現改變了去年 4 月發布的 DALL-E 2,以及它的開源對手:Diffusion 和 Midjourney 原有的格局。

Ramesh 告訴 VentureBeat:「我們第一次嘗試這個研究方向,想看看能有什么作為,現在感覺恍如昨日。我知道這項技術將會對消費者產生影響,也會幫助到并對許多不同的應用程序,但我仍然對其發展速度之快感到驚訝。」

如今,生成式模型正在逐漸發展到「圖像生成和多種模態的高光時刻」。他說:「我很高興能夠為所有這些即將出現的應用做點什么。」

與 CLIP 合作開發的原創研究

CLIP 是與 DALL-E 1 研究共同開發和公布的,它是一個基于零樣本學習的獨立模型,實際上算是 DALL-E 的秘密武器。CLIP 從互聯網上獲取了 4 億對帶有文字說明的圖像進行訓練,能夠使用自然語言進行分類基準測試并對 DALL-E 結果進行排名。

當然,很多早期跡象表明,當前即將迎來文字到圖像的進步。英屬哥倫比亞大學(University of British Columbia)的計算機科學副教授 Jeff Clune 說道:「多年來的研究顯示,這種未來近在咫尺。」2016 年,他的團隊制作出了他所說的第一批與真實圖像難以分辨的合成圖像。

他說:「我的意思是,幾年后,人們可以描述任何想要的圖像,然后由 AI 來生成它,比如特朗普面帶假笑地接受普京的賄賂。」

Air Street Capital 的合伙人 Nathan Benaich 認為,生成式 AI 自始至終都是 AI 的核心部分。他在接受 VentureBeat 采訪時表示:「值得一提的是,2014 年生成式對抗網絡(GANs)的開發和 DeepMind 2016 年的 WaveNet 等研究已經開始展示 AI 模型如何分別從頭生成新的圖像和音頻。」

盡管如此,最初的 DALL-E 論文「在當時給人留下了深刻的印象」,未來學家、作家和 AI 研究員 Matt White 補充道。他說:「雖然這不是文本到圖像合成領域的首項工作,但 OpenAI 不僅僅向 AI 研究領域推廣他們工作的方法,更是將推廣范圍擴大到公眾層面,這自然也是其頗受關注的原因所在。」

盡可能地推動 DALL-E 研究

Ramesh 說,他的初心始終是盡可能地推動這項研究。

他說:「我們覺得文本到圖像的生成很有意思,作為人類,我們能夠通過一句話來描述我們在現實生活中可能遇到的任何情況,也可以是不可能發生的幻想場景,或者是瘋狂的幻想。所以我們想看看我們訓練的模型是否能得當地從文本中生成圖像,并且和人類一樣做出推斷。」

Ramesh 還補充道,對原始 DALL-E 的主要研究影響之一是 VQ-VAE,這是一種由 DeepMind 研究人員 Aaron van den Oord 首創的技術:像語言模型所訓練的 token 一樣,將圖像也分解為 token。

他解釋說:「所以我們可以采用像 GPT 這樣的 transformer,訓練它的目的是為了預測下一個單詞,并用這些額外的圖像 token 來增強它的語言 token。這讓我們可以應用同樣的技術來生成圖像。」

他說,DALL-E 會帶給人們驚喜,因為「在語言模型中看到泛化的例子是一回事,但當在圖像生成中看到它時,它就會更加直觀且具有更深的影響力。」

DALL-E 2 向擴散模型的轉變

但最初 DALL-E 研究發表時,Ramesh 的 DALL-E 2 合著者 Alex Nichol 和 Prafulla Dhariwal 已經在研究在 GLIDE(一種新的 OpenAI 擴散模型)的修改版本中使用擴散模型。

這導致 DALL-E 2 的架構與第一次迭代的 DALL-E 完全不同。正如 Vasclav Kosar 解釋的那樣,「DALL-E 1 使用離散變分自編碼器 (dVAE)、下一個 token 預測和 CLIP 模型重新排序,而 DALL-E 2 直接使用 CLIP 嵌入,并通過類似 GLIDE 的擴散來解碼圖像。」

Ramesh 說:「將擴散模型和 DALL-E 結合起來,看似是一件自然而然的事,因為擴散模型有很多優點,其中最明顯的特點是用擴散模型能夠利落而又巧妙地修復圖像。」

他解釋道,在 DALL-E 2 中加入了在開發 GLIDE 時使用的一種特殊技術 —— 無分類器指導 —— 這大大改進了字幕的匹配度以及真實感。

「當 Alex 第一次嘗試時,沒有人想到結果會有這么大的改善。我最初只期望 DALL-E 2 能成為 DALL-E 的更新版本,但讓我驚訝的是,它已經開始讓用戶受益了。」

2022 年 4 月 6 日,當 AI 社群和普通用戶第一次看到 DALL-E 2 的圖像輸出時,他們中的大部分都驚嘆于圖像質量的差異。

「競爭激烈,喜憂參半」

Hugging Face 的首席倫理科學家 Margaret Mitchell 在電子郵件告訴 VentureBeat,2021 年 1 月發布的 DALL-E 是第一波文本到圖像研究的浪潮,這些研究建立在語言和圖像處理的基本進展之上,包括變分自動編碼器和 autoregressive transformers。DALL-E 2 發布時,「擴散是我們行內人意料之外的突破,它切實地提升了游戲質量,」她說。

她補充說,自從最初的 DALL-E 研究論文發表以來,過去兩年一直是「競爭激烈,喜憂參半」。

「對如何建立語言和圖像模型的關注是以如何最好地獲取模型的數據為代價的,」她還指出,在現代文本到圖像的進展中,個人權利和同意「幾乎被拋棄了」。目前的系統「基本上是在竊取藝術家的概念,而沒有為藝術家提供任何追索權,」她如此總結道。

DALL-E 沒有公開源代碼,這導致其他系統開發了開源的文本轉圖像選項,這在 2022 年夏天前引起了轟動。

最初的 DALL-E「很有意思,但無法使用」,Stability AI 的創始人 Emad Mostaque 說,他在 8 月發布了開源文本到圖像生成器 Stable Diffusion 的第一個迭代,并說「只有我的團隊訓練的模型可以稱作開源」。Mostaque 補充說:「我們從 2021 年夏天開始積極資助和支持它。」

展望未來,White 認為,即使不久將要迎來新一代,DALL-E 的未來依舊任重而道遠。

「DALL-E 2 在穩定性、質量和道德層面都存在問題,」,他指出,這些問題是相互交織且互相影響的,像「一只棕色的狗穿著紅襯衫」這樣的 prompt 可能會產生屬性顛倒的結果(即紅狗穿棕色襯衫,紅狗穿紅色襯衫或完全不同的顏色)。此外,他補充道,DALL-E 2 在面部和身體構造、圖像文本生成的一致性方面仍然存在困難,「特別是當遇到較長的單詞時。」

DALL-E 和生成式 AI 的未來

Ramesh 希望更多的人了解到 DALL-E 2 的技術工作原理,這樣可以消除很多誤解。

他說:「在大眾眼里。這個模型的工作方式是:它在某處有個圖像數據庫,它生成圖像的方式是將這些圖像片段剪切粘貼在一起,從而創造出新的東西。但實際上,它的工作方式更接近于人類,當模型接受圖像訓練時,它會學習所有這些概念的抽象表征。」

他還解釋道:「在我們從頭開始生成圖像時,我們不再使用訓練數據。擴散模型從他們試圖生成物的模糊近似開始,經過多重步驟,逐步添加細節,就像藝術家總是從一個粗略的草圖開始發揮,隨著時間的推移再慢慢充實他的作品。」

他說,助藝術家創作一臂之力也是 DALL-E 自始至終的目標。

「過去,我們熱切地希望這些模型能成為藝術家的得力助手 —— 成為可以讓許多日常任務變得更簡單、更有效率的得力工具,就像 Codex 是程序員的副駕駛一樣。據我們所知,一些藝術家認為在創建想法原型時,DALL-E 非常有用,因為他們通常會花幾個小時甚至幾天的時間來探索某個概念,隨后才決定采用它,而 DALL-E 可以將這個過程縮短至幾個小時甚至是幾分鐘。」

Ramesh 說,他希望越來越多的人能夠在學習和探索過程中逐漸學會應用 DALL-E 和其他生成式 AI 工具。

「通過(OpenAI 的)ChatGPT,我認為我們已經極大地擴展了這些 AI 工具的功能,并讓很多人接觸到它。希望隨著時間的推移,那些想運用我們的技術做事的人可以很毫不費力地通過我們的網站獲取它,并找到方法來使用其構建出他們心中所想。」

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1096

    瀏覽量

    42329
  • 數據庫
    +關注

    關注

    7

    文章

    4020

    瀏覽量

    68352
  • 生成式AI
    +關注

    關注

    0

    文章

    538

    瀏覽量

    1085

原文標題:DALL-E發明者:我對其兩年來產生的影響感到驚訝

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    生成AI賦能虛擬調試——fe.screen-sim的架構價值

    生成AI賦能虛擬調試——fe.screen-sim的架構價值
    的頭像 發表于 12-04 14:59 ?979次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>賦能虛擬調試——fe.screen-sim的架構價值

    生成AI如何變革機器人工作流程

    非常激動地和大家分享我們最近的一些酷炫成果:我們正在利用生成 AI,讓機器人變得更加靈活,使用起來也更加便捷!
    的頭像 發表于 12-02 15:06 ?1607次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>如何變革機器人工作流程

    富士通入選2025年Gartner生成AI工程新興市場象限領導者

    Gartner公司于2025年11月13日發布了《Gartner 生成AI工程創新指南 (Gartner Innovation Guide for Generative AI
    的頭像 發表于 12-02 11:50 ?821次閱讀
    富士通入選2025年Gartner<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>工程新興市場象限領導者

    Alif Semiconductor的Ensemble MCU新增對ExecuTorch Runtime的支持,助力其推動邊緣生成AI發展

    ·?Ensemble E4/E6/E8是業界首個為Transformer網絡提供硬件加速的MCU系列,可在邊緣設備及終端設備上實現本地生成
    的頭像 發表于 11-04 11:44 ?1500次閱讀
    Alif Semiconductor的Ensemble MCU新增對ExecuTorch Runtime的支持,助力其推動邊緣<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>發展

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰

    AI的應用多種多樣。比如:DALL-E2、Midjourney、Stable Diffusion等,不僅包括對話功能,還包括生成圖像、視頻、語音和程序代碼等功能。 竟然連代碼都可以生成
    發表于 09-12 16:07

    智能體化AI生成AI的區別

    生成 AI 的核心是“生成內容” —— 比如用大模型寫報告,是對輸入指令的被動響應。而智能體化 AI(Agentic
    的頭像 發表于 08-25 17:24 ?1637次閱讀

    【Sipeed MaixCAM Pro開發板試用體驗】基于MaixCAM-Pro的AI生成圖像鑒別系統

    1. 項目概述 本項目旨在開發并部署一個高精度的深度學習模型,用于自動鑒別一張圖片是由AI生成(如Stable Diffusion, DALL-E, Midjourney等工具生成)還
    發表于 08-21 13:59

    生成 AI 重塑自動駕駛仿真:4D 場景生成技術的突破與實踐

    生成AI驅動的4D場景技術正解決傳統方法效率低、覆蓋不足等痛點,如何通過NeRF、3D高斯潑濺等技術實現高保真動態建模?高效生成極端天氣等長尾場景?本文為您系統梳理
    的頭像 發表于 08-06 11:20 ?5152次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>式</b> <b class='flag-5'>AI</b> 重塑自動駕駛仿真:4D 場景<b class='flag-5'>生成</b>技術的突破與實踐

    【書籍評測活動NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》

    到AGI,一起來探索AI芯片 本書從創新視角出發,系統梳理了AI芯片的前沿技術與未來方向,串聯起從算法到系統的實現路徑,全景展現AI芯片的
    發表于 07-28 13:54

    邊緣生成AI面臨哪些工程挑戰?

    內就吸引了超過100萬用戶)在市場上迅速崛起并被廣泛采用。而手機用戶則經常使用語音搜索功能。這些應用有什么共同點呢?它們都依賴于云端來處理AI工作負載。盡管云端生成
    的頭像 發表于 06-25 10:44 ?1145次閱讀
    邊緣<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>面臨哪些工程挑戰?

    谷歌新一代生成AI媒體模型登陸Vertex AI平臺

    我們在 Vertex AI 上推出新一代生成 AI 媒體模型: Imagen 4、Veo 3 和 Lyria 2。
    的頭像 發表于 06-18 09:56 ?1095次閱讀

    Dify攜手亞馬遜云科技加速全球企業生成AI應用規模化落地

    簡單易用的AI應用開發平臺Dify通過深度集成亞馬遜云科技的生成AI技術與云服務,在保障性能、合規與全球交付的基礎上,顯著降低企業在生成
    的頭像 發表于 06-07 16:00 ?873次閱讀

    從Gartner報告看Atlassian在生成AI領域的創新路徑與實踐價值

    Atlassian入選Gartner 2025生成AI技術"新興領導者"!其核心AI產品Rovo依托Teamwork Graph,支持從團隊知識庫中提取情境化的個性答案與洞察
    的頭像 發表于 06-05 15:59 ?1139次閱讀
    從Gartner報告看Atlassian在<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>領域的創新路徑與實踐價值

    生成人工智能認證:重構AI時代的人才培養與職業躍遷路徑

    當人類站在生成人工智能(Generative AI)的技術奇點上回望,會發現這場革命早已超越了工具迭代的范疇——它正在重新定義人類與技術的協作模式,重塑職業世界的運行邏輯。生成
    的頭像 發表于 05-23 09:29 ?853次閱讀

    樹莓派 也能搞 AI 藝術?樹莓派遇上DALL-E,開啟你的 AI 藝術創作之旅!

    本教程將向你展示如何使用DALL-EAPI從你的RaspberryPi上生成隨機的AI藝術。近年來,人工智能(AI)是一個取得了巨大飛躍的領域,這在很大程度上要歸功于OpenAI等團隊
    的頭像 發表于 03-25 09:29 ?929次閱讀
    樹莓派 也能搞 <b class='flag-5'>AI</b> 藝術?樹莓派遇上<b class='flag-5'>DALL-E</b>,開啟你的 <b class='flag-5'>AI</b> 藝術創作之旅!