国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OneFlow 將 Stable Diffusion的推理性能推向了一個全新的SOTA

人工智能與大數據技術 ? 來源:機器之心 ? 作者:機器之心 ? 2022-11-30 10:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

OneFlow 將 Stable Diffusion 的推理性能推向了一個全新的 SOTA。

第一輛汽車誕生之初,時速只有 16 公里,甚至不如馬車跑得快,很長一段時間,汽車尷尬地像一種“很酷的玩具”。人工智能作圖的出現也是如此。

AI 作圖一開始的 “風格化” 本身就為 “玩” 而生,大家普遍興致勃勃地嘗試頭像生成、磨皮,但很快就失去興趣。直到擴散模型的降臨,才給 AI 作圖帶來質變,讓人們看到了 “AI 轉成生產力” 的曙光:畫家、設計師不用絞盡腦汁思考色彩、構圖,只要告訴 Diffusion 模型想要什么,就能言出法隨般地生成高質量圖片。

然而,與汽車一樣,如果擴散模型生成圖片時“馬力不足”,那就沒法擺脫玩具的標簽,成為人類手中真正的生產工具。

起初,AI 作圖需要幾天,再縮減到幾十分鐘,再到幾分鐘,出圖時間在不斷加速,問題是,究竟快到什么程度,才會在專業的美術從業者甚至普通大眾之間普及開來?

顯然,現在還無法給出具體答案。即便如此,可以確定的是 AI 作圖在技術和速度上的突破,很可能已經接近甚至超過閾值,因為這一次,OneFlow 帶來了字面意義上 “一秒出圖” 的 Stable Diffusion 模型。

OneFlow Stable Diffusion 使用地址:https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-Diffusion

OneFlow 地址:https://github.com/Oneflow-Inc/oneflow/

比快更快,OneFlow 一馬當先

下面的圖表分別展示了在 A100 (PCIe 40GB / SXM 80GB)、RTX 2080 和 T4 不同類型的 GPU 硬件上,分別使用 PyTorch, TensorRT, AITemplate 和 OneFlow 四種深度學習框架或者編譯器,對 Stable Diffusion 進行推理時的性能表現。

659d18c6-7050-11ed-8abf-dac502259ad0.png

65b0bbce-7050-11ed-8abf-dac502259ad0.png

對于 A100 顯卡,無論是 PCIe 40GB 的配置還是 SXM 80GB 的配置,OneFlow 的性能可以在目前的最優性能之上繼續提升 15% 以上。

特別是在 SXM 80GB A100 上,OneFlow 首次讓 Stable Diffusion 的推理速度達到了 50it/s 以上,首次把生成一張圖片需要采樣 50 輪的時間降到 1 秒以內,是當之無愧的性能之王。

65bb3a0e-7050-11ed-8abf-dac502259ad0.png

在 T4 推理卡上,由于 AITemplate 暫不支持 Stable Diffsuion,相比于目前 SOTA 性能的 TensorRT,OneFlow 的性能是它的 1.5 倍。

65c97db2-7050-11ed-8abf-dac502259ad0.png

而在 RTX2080 上,TensorRT 在編譯 Stable Diffsuion 時會 OOM ,相比于目前 SOTA 性能的 PyTorch,OneFlow 的性能是它的 2.25 倍。

綜上,在各種硬件以及更多框架的對比中,OneFlow 都將 Stable Diffusion 的推理性能推向了一個全新的 SOTA。

生成圖片展示

利用 OneFlow 版的 Stable Diffusion,你可以把天馬行空的想法很快轉化成藝術圖片,譬如:

以假亂真的陽光、沙灘和椰樹:

倉鼠救火員、長兔耳朵的狗子:

在火星上吃火鍋:

未來異世界 AI:

集齊 OneFlow 七龍珠:

圖片均基于 OneFlow 版 Stable Diffusion 生成。如果你一時沒有好的 idea,可以在 lexica 上參考一下廣大網友的創意,不僅有生成圖片還提供了對應的描述文字。

無縫兼容 PyTorch 生態,實現一鍵模型遷移

想體驗 OneFlow Stable Diffusion?只需要修改三行代碼,你就可以將 HuggingFace 中的 PyTorch Stable Diffusion 模型改為 OneFlow 模型,分別是將 import torch 改為 import oneflow as torch 和將 StableDiffusionPipeline 改為 OneFlowStableDiffusionPipeline:

669e52e4-7050-11ed-8abf-dac502259ad0.png

之所以能這么輕松遷移模型,是因為 OneFlow Stable Diffusion 有兩個出色的特性:

OneFlowStableDiffusionPipeline.from_pretrained 能夠直接使用 PyTorch 權重。

OneFlow 本身的 API 也是和 PyTorch 對齊的,因此 import oneflow as torch 之后,torch.autocast、torch.float16 等表達式完全不需要修改。

上述特性使得 OneFlow 兼容了 PyTorch 的生態,這不僅在 OneFlow 對 Stable Diffusion 的遷移中發揮了作用,也大大加速了 OneFlow 用戶遷移其它許多模型,比如在和 torchvision 對標的 flowvision 中,許多模型只需通過在 torchvision 模型文件中加入 import oneflow as torch 即可得到。

此外,OneFlow 還提供全局 “mock torch” 功能,在命令行運行 eval $(oneflow-mock-torch) 就可以讓接下來運行的所有 Python 腳本里的 import torch 都自動指向 oneflow。

使用 OneFlow 運行 Stable Diffusion

在 docker 中使用 OneFlow 運行 StableDiffusion 模型生成圖片:

docker run --rm -it --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 -v ${HF_HOME}:${HF_HOME} -v ${PWD}:${PWD} -w ${PWD} -e HF_HOME=${HF_HOME} -e HUGGING_FACE_HUB_TOKEN=${HUGGING_FACE_HUB_TOKEN} oneflowinc/oneflow-sd:cu112 python3 /demos/oneflow-t2i.py # --prompt "a photo of an astronaut riding a horse on mars"

更詳盡的使用方法請參考:https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-Diffusion

后續工作

后續 OneFlow 團隊將積極推動 OneFlow 的 diffusers(https://github.com/Oneflow-Inc/diffusers.git) 和 transformers(https://github.com/Oneflow-Inc/transformers.git) 的 fork 倉庫內容合并到 huggingface 上游的的對應倉庫。這也是 OneFlow 首次以 transformers/diffusers 的后端的形式開發模型,歡迎各位開發者朋友在 GitHub 上反饋意見。

值得一提的是,在優化和加速 Stable Diffusion 模型的過程中使用了 OneFlow 自研編譯器,不僅讓 PyTorch 前端搭建的 Stable Diffusion 在 NVIDIA GPU 上跑得更快,而且也可以讓這樣的模型在國產 AI 芯片和 GPU 上跑得更快,這些將在之后的文章中揭秘技術細節。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301406
  • 人工智能
    +關注

    關注

    1817

    文章

    50098

    瀏覽量

    265374
  • 開源
    +關注

    關注

    3

    文章

    4207

    瀏覽量

    46140

原文標題:1秒出圖,這個開源項目太牛了!

文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數據技術】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    今日看點:消息稱 AMD、高通考慮導入 SOCAMM 內存;曦望發布新推理GPU芯片啟望S3

    推理深度定制的GPGPU芯片。其單芯片推理性能提升5倍,支持從FP16到FP8、FP6、FP4等多精度靈活切換,釋放低精度推理效率,這種設計更貼合當前MoE和長上下文模型在推理階段的需
    發表于 01-28 11:09 ?393次閱讀

    DeepX OCR:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 與 x86 平臺交付可規模化的高性能 OCR 能力

    落地過程中,企業逐漸意識到:** 制約 OCR 應用進步擴展的核心因素,已不再是模型準確率本身,而是整體推理性能與部署成本。 具體來說,規模化 OCR 應用主要面臨以下幾方面挑戰: 吞吐量(FPS)不足 ,難以支撐高并發或多路輸入場景;
    的頭像 發表于 01-22 21:02 ?157次閱讀
    DeepX OCR:以 DeepX NPU 加速 PaddleOCR <b class='flag-5'>推理</b>,在 ARM 與 x86 平臺交付可規模化的高<b class='flag-5'>性能</b> OCR 能力

    本地部署Stable Diffusion實現AI文字生成高質量矢量圖片應用于電子商務

    本地部署Stable Diffusion
    的頭像 發表于 11-28 07:19 ?744次閱讀

    通過NVIDIA Jetson AGX Thor實現7倍生成式AI性能

    Jetson Thor 平臺還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構的新 NVFP4 格式,有助于進步優化推理性能。該平臺同時支持推測解碼等新技術,為在邊緣端加速生成式 AI 工作負載提供
    的頭像 發表于 10-29 16:53 ?1429次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實現這目標,其構建了多維度的核心實現路徑:
    的頭像 發表于 10-21 11:04 ?1174次閱讀

    利用NVIDIA DOCA GPUNetIO技術提升MoE模型推理性能

    在第三屆 NVIDIA DPU 中國黑客松競賽中,我們見證開發者與 NVIDIA 網絡技術的深度碰撞。在 23 支參賽隊伍中,有 5 支隊伍脫穎而出,展現在 AI 網絡、存儲和安全等領域的創新突破。
    的頭像 發表于 09-23 15:25 ?1028次閱讀

    使用NVIDIA NVLink Fusion技術提升AI推理性能

    本文詳細闡述 NVIDIA NVLink Fusion 如何借助高效可擴展的 NVIDIA NVLink scale-up 架構技術,滿足日益復雜的 AI 模型不斷增長的需求。
    的頭像 發表于 09-23 14:45 ?924次閱讀
    使用NVIDIA NVLink Fusion技術提升AI<b class='flag-5'>推理性能</b>

    使用OpenVINOPP-OCRv5模型部署在Intel顯卡上

    用于優化和部署人工智能(AI)模型,提升AI推理性能的開源工具集合,不僅支持以卷積神經網絡(CNN)為核心組件的預測式AI模型(Predictive AI),還支持以Transformer為核心組件的生成式AI模型(Gen
    的頭像 發表于 09-20 11:17 ?1241次閱讀
    使用OpenVINO<b class='flag-5'>將</b>PP-OCRv5模型部署在Intel顯卡上

    DeepSeek R1 MTP在TensorRT-LLM中的實現與優化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創下了 DeepSeek-R1 推理性能的世界紀錄,Multi-Token Prediction (MTP) 實現大幅提速
    的頭像 發表于 08-30 15:47 ?4451次閱讀
    DeepSeek R1 MTP在TensorRT-LLM中的實現與優化

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現150萬TPS推理

    的發布持續深化了雙方的 AI 創新合作。NVIDIA 在 NVIDIA Blackwell 架構上優化了這兩款全新的開放權重模型并實現推理性能加速,在 NVIDIA 系統上至高達到每秒 150 萬
    的頭像 發表于 08-15 20:34 ?2303次閱讀
    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現150萬TPS<b class='flag-5'>推理</b>

    華為亮相2025金融AI推理應用落地與發展論壇

    創新技術——UCM推理記憶數據管理器,旨在推動AI推理體驗升級,提升推理性價比,加速AI商業正循環。同時,華為攜手中國銀聯率先在金融典型場景開展UCM技術試點應用,并聯合發布智慧金融AI推理
    的頭像 發表于 08-15 09:45 ?1223次閱讀

    求助,關于TC387使能以及配置SOTA些問題求解

    你好, 之前我拿到貴司給demo,里面有些使能以及配置SWAP的代碼, 這里有些疑問 問題1. 判斷SOTA功能是否生效,demo中使用的是 SCU_STMEM1中的bit位
    發表于 08-08 07:31

    如何在Ollama中使用OpenVINO后端

    /GPU/NPU)為模型推理提供高效的加速能力。這種組合不僅簡化了模型的部署和調用流程,還顯著提升了推理性能,特別適合需要高性能和易用性的場景。
    的頭像 發表于 04-14 10:22 ?1536次閱讀

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優化
    的頭像 發表于 03-20 15:03 ?1235次閱讀

    從零復現,全面開源:360 Light-R1-14B/7B帶來端側AI平權時刻

    14B開源颶風,360掀起端側推理性能革命
    的頭像 發表于 03-16 10:47 ?1098次閱讀
    從零復現,全面開源:360 Light-R1-14B/7B帶來端側AI平權時刻