国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA推出全新生成式AI模型Fugatto

NVIDIA英偉達 ? 來源:NVIDIA英偉達 ? 2024-11-27 11:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA 開發了一個全新的生成式 AI 模型。利用輸入的文本和音頻,該模型可以創作出包含任意的音樂、人聲和聲音組合的作品。

一個生成式 AI 研究團隊創造了一把如同瑞士軍刀般多功能的聲音工具,支持用戶只需使用文本就能控制輸出的音頻。

雖然一些 AI 模型可以譜曲或修音,但沒有一個能在靈活性上媲美這個新模型。

根據由任意的文本和音頻文件組合所構成的提示詞,這個名為 Fugatto(Foundational Generative Audio Transformer Opus 1 的縮寫)的模型,可以生成或轉換由任意的音樂、人聲和聲音所構成的作品。

例如,它可以根據文本提示創作音樂片段、在現有歌曲中刪除或添加樂器、改變人聲的口音或情緒,甚至讓人們發出從未聽過的聲音。

One Take Audio 公司是 NVIDIA 初創加速計劃的成員。該公司的聯合創始人、曾推出過多張白金唱片的制作人兼詞曲創作人 Ido Zmishlany 表示:“這太瘋狂了!聲音是我的靈感源泉,是我創作音樂的原動力。我可以在錄音室里隨心所欲地創造出全新的聲音,這完全突破了人們的想象。”

準確掌控音頻

NVIDIA 應用音頻研究經理 Rafael Valle 表示:“我們希望創建一個能夠像人類一樣理解和創作聲音的模型。”Rafael Valle 是 Fugatto 背后的十幾個開發者之一,同時也是一位管弦樂指揮家和作曲家。

Fugatto 可支持眾多音頻生成和轉換任務,是首個展現了新能力(即各種經過訓練的能力相互作用所產生的新能力)并能夠整合自由格式指令的基礎性生成式 AI 模型。

Valle 說:“Fugatto 是我們邁向未來的第一步。未來,音頻合成與轉換中的無監督多任務學習將從數據和模型規模中產生。”

使用場景示例

例如,音樂制作人可以使用 Fugatto 來快速地制作歌曲原型或編輯歌曲創意,嘗試不同的風格、人聲和樂器。他們還可以添加音效,提高現有曲目的整體音質。

Zmishlany 說:“音樂發展史也是一部技術發展史。電吉他為我們帶來了搖滾樂。采樣器的出現催生了嘻哈音樂。AI 正在開啟音樂的新篇章。這個新的音樂創作工具令人超級興奮。”

廣告公司可以使用 Fugatto,針對多個地區或多種情形快速地修改現有的營銷活動素材,在配音中采用不同的口音和情感。

通過使用說話者所選擇的任何人聲,語言學習工具可以實現個性化。試想一下,在線課程以某個家庭成員或朋友的特定聲音進行。

電子游戲開發人員可以使用該模型來修改游戲中預先錄制的音頻資料,以適應用戶玩游戲時不斷變化的行為。或者,他們可以根據文字說明和可選的音頻輸入來即時地創建新的音頻資料。

制造令人喜悅的聲音

Valle 說道:“在該模型中,特別讓我們引以為豪的是一個稱之為‘鱷梨椅’的功能。”鱷梨椅是一個由針對成像的生成式 AI 模型所創建的新穎的視覺效果。

例如,Fugatto 可以讓小號發出“汪汪”的狗叫聲,或者讓薩克斯管發出“喵喵”的貓叫聲。只要用戶能描述出來,該模型就能創造出來。

研究人員發現,只需微調和少量歌唱數據,它就可以處理未經預訓練的任務,比如根據文本提示來生成高質量的歌聲。

用戶獲得藝術控制權

除了這些新穎之處,Fugatto 還添加了多項功能。

在推理過程中,該模型使用一種名為 ComposableART 的技術,將訓練過程中只能單獨看到的指令組合在一起。例如,一組提示詞可以要求它用法語口音說出帶有悲傷情緒的文字。

該模型能夠在指令之間插入內容,這讓用戶能夠精細地控制文本指令。在這種情況下,用戶可以控制口音的輕重或悲傷的程度。

為該模型設計了相關功能的 AI 研究員 Rohan Badlani 表示:“我想讓用戶可以以主觀或藝術化的方式整合各種屬性,并能夠選擇他們對每個屬性的側重點。”

Badlani 說:“在我進行的測試中,結果常常出人意料,讓我覺得自己有點像藝術家,盡管我是一名計算機專家。”Badlani 擁有斯坦福大學計算機科學碩士學位,主攻人工智能

這個模型還能生成隨著時間的推移而不斷變化的聲音,他把這種功能稱為時間插值。例如,它可以產生暴雨經過某個區域的聲音,雷聲逐漸增大,然后慢慢地消失在遠方。它還能讓用戶精細地控制聲景的演變。

此外,大多數模型只能重現它們所接觸過的訓練數據,而 Fugatto 則不同,它讓用戶能夠創建從未見過的聲景,例如雷雨隨著黎明的來臨逐漸停歇并伴隨著鳥鳴聲。

內在機理

Fugatto 是一個基礎性生成式 Transformer 模型,其源自該團隊之前在諸多領域的研究成果,例如語音建模、音頻聲音編碼和音頻理解等。

模型的完整版使用了 25 億個參數,并在一系列配備 32 塊 NVIDIA Hopper Tensor Core GPU 的 NVIDIA DGX 系統上進行了訓練。

Fugatto 是由一群來自印度、巴西、中國、約旦和韓國等世界各地的人員共同開發的。他們的通力合作使 Fugatto 的多口音和多語言功能更加強大。

在開發該模型的過程中,其中一項最困難的工作是生成一個混合數據集,該數據集包含了數百萬個用于訓練的音頻樣本。在生成數據和指令時,該團隊采用了多方面的策略,這大大地擴展了模型可執行的任務范圍,同時實現了更精準的性能,并且無需額外數據即可完成新任務。

這些開發人員還仔細地研究了現有數據集,以揭示數據之間的新關系。整個工作持續了一年多。

Valle 提到了兩個重要時刻,它們讓團隊意識到自己走在正確的路上。他說:“它第一次根據提示詞成功地生成音樂時,我們都驚呆了。”

后來,團隊演示了 Fugatto 根據提示詞而創作出電子音樂,其中的狗叫聲實現了與節拍同步。

“當大家捧腹大笑時,我的心里真的感到很溫暖。”

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5581

    瀏覽量

    109596
  • 模型
    +關注

    關注

    1

    文章

    3730

    瀏覽量

    52043
  • 生成式AI
    +關注

    關注

    0

    文章

    538

    瀏覽量

    1070

原文標題:世界上最靈活的聲音機器面市

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA推出全新Earth-2開放模型家族

    NVIDIA Earth-2 讓氣象 AI 在全球范圍內、在天氣預報的每個階段都觸手可及——從處理初始觀測數據到生成 15 天全球預報或局地強對流天氣預報。
    的頭像 發表于 02-02 09:34 ?413次閱讀

    NVIDIA在CES 2026發布全新開放模型、數據和工具

    為擴展開放模型生態,NVIDIA 發布全新開放模型、數據和工具,推動各行業 AI 技術的發展。
    的頭像 發表于 01-09 10:42 ?523次閱讀

    NVIDIA攜手Mistral AI發布全新開源大語言模型系列

    全新 Mistral 3 系列涵蓋從前沿級到緊湊型模型,針對 NVIDIA 平臺進行了優化,助力 Mistral AI 實現云到邊緣分布
    的頭像 發表于 12-13 09:58 ?1207次閱讀

    NVIDIA推動面向數字與物理AI的開源模型發展

    NVIDIA 發布一系列涵蓋語音、安全與輔助駕駛領域的全新 AI 工具,其中包括面向移動出行領域的行業級開源視覺-語言-動作推理模型(Reasoning VLA)
    的頭像 發表于 12-13 09:50 ?1306次閱讀

    利用NVIDIA Cosmos開放世界基礎模型加速物理AI開發

    NVIDIA 最近發布了 NVIDIA Cosmos 開放世界基礎模型(WFM)的更新,旨在加速物理 AI 模型的測試與驗證數據
    的頭像 發表于 12-01 09:25 ?1043次閱讀

    NVIDIA推出面向語言、機器人和生物學的全新開源AI技術

    NVIDIA 秉持對開源的長期承諾,推出了面向語言、機器人和生物學的全新開源 AI 技術,為構建開源生態系統做出貢獻,擴展 AI 的普及并推
    的頭像 發表于 11-06 11:49 ?1034次閱讀

    NVIDIA推出全新BlueField-4 DPU

    全新 NVIDIA BlueField DPU 具有 800Gb/s 的吞吐量,其集成的 NVIDIA ConnectX-9 SuperNIC 和 NVIDIA DOCA 微服務為
    的頭像 發表于 11-03 14:48 ?914次閱讀

    NVIDIA 利用全新開源模型與仿真庫加速機器人研發進程

    。 ? 借助全新NVIDIA Cosmos 世界基礎模型,開發者可以生成多樣化數據,從而大規模加速物理 AI
    的頭像 發表于 09-30 09:52 ?3033次閱讀
    <b class='flag-5'>NVIDIA</b> 利用<b class='flag-5'>全新</b>開源<b class='flag-5'>模型</b>與仿真庫加速機器人研發進程

    NVIDIA通過全新 Omniverse庫、Cosmos物理AI模型AI計算基礎設施,為機器人領域開啟新篇章

    NVIDIA 通過全新 Omniverse 庫、Cosmos 物理 AI 模型AI 計算基礎設施,為機器人領域開啟新篇章 ? ·?
    的頭像 發表于 08-12 11:29 ?1739次閱讀
    <b class='flag-5'>NVIDIA</b>通過<b class='flag-5'>全新</b> Omniverse庫、Cosmos物理<b class='flag-5'>AI</b><b class='flag-5'>模型</b>及<b class='flag-5'>AI</b>計算基礎設施,為機器人領域開啟新篇章

    谷歌新一代生成AI媒體模型登陸Vertex AI平臺

    我們在 Vertex AI推出新一代生成 AI 媒體模型: Imagen 4、Veo 3
    的頭像 發表于 06-18 09:56 ?1063次閱讀

    使用NVIDIA Earth-2生成AI基礎模型革新氣候建模

    NVIDIA 正通過 cBottle(Climate in a Bottle 的簡稱)為這項工作帶來新的突破,這是全球首個專為以公里尺度分辨率模擬全球氣候而設計的生成 AI 基礎
    的頭像 發表于 06-12 15:54 ?1281次閱讀

    ETAS全新的嵌入AI解決方案

    “將訓練后的AI神經網絡模型,自動化生成安全且高效的C代碼,用于嵌入系統” ,近日ETAS攜全新的智能化工具Embedded
    的頭像 發表于 05-07 11:43 ?1991次閱讀
    ETAS<b class='flag-5'>全新</b>的嵌入<b class='flag-5'>式</b><b class='flag-5'>AI</b>解決方案

    英偉達GTC2025亮點 NVIDIA推出Cosmos世界基礎模型和物理AI數據工具的重大更新

    、Figure AI、Skild AI 是最早采用該技術的公司。 NVIDIA 宣布推出全新 NVIDI
    的頭像 發表于 03-20 19:01 ?1323次閱讀

    NVIDIA 與行業領先的存儲企業共同推出面向 AI 時代的新型企業基礎設施

    3 月 18 日 —— NVIDIA 今日推出NVIDIA AI 數據平臺 —— 一項可自定義的參考設計,領先的存儲提供商可用來構建全新
    發表于 03-19 10:11 ?480次閱讀
    <b class='flag-5'>NVIDIA</b> 與行業領先的存儲企業共同<b class='flag-5'>推出</b>面向 <b class='flag-5'>AI</b> 時代的新型企業基礎設施

    NVIDIA 推出開放推理 AI 模型系列,助力開發者和企業構建代理式 AI 平臺

    NVIDIA 后訓練的全新 Llama Nemotron 推理模型,為代理式 AI 提供業務就緒型基礎 埃森哲、Amdocs、Atlassian、Box、Cadence、Crowd
    發表于 03-19 09:31 ?382次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>推出</b>開放推理 <b class='flag-5'>AI</b> <b class='flag-5'>模型</b>系列,助力開發者和企業構建代理式 <b class='flag-5'>AI</b> 平臺