国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

對話三位IEEE專家:如何理解SAM視覺大模型

IEEE電氣電子工程師 ? 來源:IEEE電氣電子工程師 ? 2023-08-23 16:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

正在流行的視覺AI大模型SAM究竟是一種什么樣的技術,會形成什么樣的產業影響?經濟觀察報就此采訪三位IEEE(電氣電子工程師學會)專家,解讀了視覺大模型SAM技術、應用路線以及對原有產業的影響。

今年4月,Meta公布了一款名為SAM(Segment Anything Model)的技術,這是一款用于圖像分割的AI大模型,會對圖像進行觀察、感知、思考、邏輯推理、得出結果,且操作極其簡單,類似于ChatGPT用人類語言對話的方式給機器下命令。

IEEE高級會員、天津理工大學教授、AR/VR技術專家羅訓對記者表示,SAM是視覺領域的通用大模型,很多報道中把它比喻成視覺領域的ChatG-PT,SAM和ChatGPT的支撐技術和應用場景都是不同的,但是在通用性這一點上,它們都是當前技術發展趨勢的代表者。

SAM技術、應用路線和顛覆性

作為AI的一個重要分支,機器視覺的目標是讓計算機模仿人類視覺系統,實現圖像和視頻的理解和處理。

IEEE數字化轉型聯合會策略與架構主席汪齊齊對記者表示,高效準確的圖像分割結果,對于日常生活和商業場景,甚至科研領域都具有重大意義。正因為如此,其在計算機視覺領域一直是個重要的課題。SAM的圖像分割功能,是機器視覺的核心任務之一。過去,機器視覺分割圖像的過程需要大量圖像標注、堆疊算法,消耗大量算力。如今,SAM更容易地實現了機器視覺的目標。

Meta將SAM大模型和背后數據集一并開源,相關的研究手稿也于今年4月5日發布在arXiv上(用于學術交流的預印本平臺),作者有Alexander Kirillov,Eric Mintun等12人。

此后,SAM在開源社區Github上獲得大量關注,一些華人學者又照此原理提出了相關的大模型GroundingDI-NO,用于物體檢測,不久GitHub上有人再創新,將GroundingDINO和SAM結合,達到了對圖像識別、檢測、分割的效果。

汪齊齊表示,該模型在準確程度、效率上,達到了驚人的提升。尤其是SAM開源的SA-1B數據庫,用巨量的圖像以及更加巨量的Mask(這里譯為圖層遮罩),將有助于許多科研項目和商業化項目在高起點上快速更新迭代,產生更好的模型和更優化的數據。

Meta從AR、VR、內容創建等領域,介紹了SAM的應用場景。中國的專家看到了更廣泛的應用場景。

羅訓對記者表示,鑒于計算機視覺的廣泛應用場景,SAM的發布對產業的影響也會是巨大的,會賦能更多的長尾創新者進入產業,并進一步豐富應用場景和商業模式。

汪齊齊表示,早前人工智能技術就能實現回答用戶問題的功能,而Chat-GPT第一次讓很多人產生了“生成的回復可以在接受的比例下用于日常、商用和科研”,并因此達到了在這個垂直領域前所未有的高度。目前SAM的分割結果,以及其公開的大量供公眾使用的資源來看,SAM在其擅長的垂直領域也達到了相當可觀的高度,并會從技術、數據以及對于這個領域的關注度等多方面幫助計算機視覺在短時間內產生大量突破,而計算機視覺,是一個非常重要的“廣義AI生態”中的基礎設施,該方面的突破將實現對數字化世界的理解和升級,帶來質變的效率和價值提升。

IEEE會士、河海大學信息科學與工程學院院長韓光潔對記者表示,SAM將會在自動駕駛、安防控制、醫學影像處理等應用領域改變業態布局,甚至引發技術革命。SAM作為一個基礎模型,可為這些應用領域快速孵化出適用性更強的專用網絡模型。

SAM的變革性可能會顛覆一批原有的AI技術優勢。汪齊齊表示,視覺大模型會在相當多的領域抵消技術壁壘,這在任何一次產業技術升級中都多次出現,也是無法避免的。

羅訓表示,通用大模型就相當于AI的能力開放平臺,之前頭部企業的AI能力優勢,會因為通用大模型的興起而被一定程度削弱。但是這些企業是否本身會變弱,取決于它們的轉型。

羅訓舉例稱,回顧移動計算在本世紀前十年的變化,iOS和安卓的能力開放平臺在賦能長尾創新者方面起到了非常重要的作用,極大增加了移動計算產業規模。在移動計算領域,WindowsMobile和塞班的封閉平臺最終因為缺乏競爭力而退出了市場。

汪齊齊表示,作為有核心技術儲備和深入理解的企業,首先是需要擁抱大模型,尤其是應該感謝相對公開的大模型,將自己對于產業的理解和領先部分,在大模型的加持下快速升級,演化出更新的形態。同時,計算機視覺領域也一定會有大模型目前還不擅長的領域,仍然可以作為技術壁壘,并在這些方面繼續深挖獨有優勢。

AIGC帶來知識和技術的平權?

此前有科技企業表示,AIGC的本質是技術平權和知識平權,這在很大程度上將大廠與小廠拉到了同一起跑線上。

羅訓就該觀點對記者表示,技術和知識平權的說法并不是很準確,因為之前并沒有系統性的歧視。AIGC帶來的是“易得”,本質上是市場規模急劇擴大后的成本降低。AIGC會促進整個社會對算力和計算模式使用的轉型升級,大規模提高AI使用者的生產效率,同時利好AI軟硬件設施生態企業。過程中,巨頭和大廠是技術進步的先期投入者,它們在其周期內獲取回報也是合理的,因為它們付出了更高的成本,也承擔了更大的風險。

汪齊齊認為,AIGC確實帶來了一定的技術平權,但技術本身是有一個價值屬性的。例如,曾經做網頁可以帶來不菲的收入,隨著工具升級和模板的完善,一個漂亮網頁制作難度數量級地下降,但是他帶來的價值也產生數量級地下降。

同樣,AIGC將一個需要大量技術和知識儲備才能產生優質內容的時代,帶入輕易產生的優質內容的時代,這會讓原有定義的“優質內容”的平均價值急速下降。

汪齊齊表示,AIGC是否帶來了知識平權仍然有待商榷。長期來看,AIGC可能會使人們更容易獲取到真實有用的知識。但是今天,人們還處于“技術帶來了前所未有的體量的知識,也同時讓篩選這些知識的可用度達到了前所未有的高成本”。

汪齊齊表示,盡管AIGC可以產生大量的知識和內容,但其準確性和可信度是個挑戰,相當部分AIGC是基于老的訓練數據,“一本正經供應錯誤知識”的案例已經有很多。目前在大量、無法辨別真偽的數據和內容的情況下,是否真正達到了知識平權,是要打問號的。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • SAM
    SAM
    +關注

    關注

    0

    文章

    118

    瀏覽量

    34394
  • ChatGPT
    +關注

    關注

    31

    文章

    1598

    瀏覽量

    10264
  • AIGC
    +關注

    關注

    1

    文章

    391

    瀏覽量

    3226
  • 大模型
    +關注

    關注

    2

    文章

    3650

    瀏覽量

    5183

原文標題:對話三位IEEE專家:如何理解SAM視覺大模型

文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Atmel SAM3S系列32Flash微控制器深度剖析

    Atmel SAM3S系列32Flash微控制器深度剖析 在當今的電子世界中,高性能、低功耗的微控制器是眾多電子設備的核心。Atmel的SAM3S系列32Flash微控制器,憑借其
    的頭像 發表于 02-25 11:40 ?181次閱讀

    SAM(通用圖像分割基礎模型)丨基于BM1684X模型部署指南

    前言SAM是Meta提出的一個分割一切的提示型模型,其在1100萬張圖像上訓練了超過10億個掩碼,實現了強大的零樣本泛化,突破了分割界限。本例程對SAM官方開源倉庫的模型和算法進行移植
    的頭像 發表于 01-12 16:17 ?303次閱讀
    <b class='flag-5'>SAM</b>(通用圖像分割基礎<b class='flag-5'>模型</b>)丨基于BM1684X<b class='flag-5'>模型</b>部署指南

    云知聲推出醫療領域專家模型“山海·知醫大模型5.0”

    剛剛,云知聲正式推出醫療領域專家級大模型全新力作——“山海?知醫大模型5.0”。這一里程碑式的發布,標志著其醫療大模型完成了從“智能工具”到“臨床協作者”的關鍵跨越,以更深刻的醫學
    的頭像 發表于 12-24 18:12 ?4274次閱讀

    AI、量子通信與JCAP:6G時代的“三位一體“革命

    100%的覆蓋可靠性 然而,這些數字背后隱藏著更深層的挑戰: 太空與地面的無縫連接 絕對安全的信息傳輸 厘米級的實時定位 要實現這些突破,僅靠單點技術創新已無法滿足需求。AI、量子通信和聯合通信與定位(JCAP)大技術的深度融合,正在構建6G的"三位一體"核心架構。
    的頭像 發表于 11-07 11:11 ?608次閱讀
    AI、量子通信與JCAP:6G時代的“<b class='flag-5'>三位</b>一體“革命

    廣和通發布端側情感對話模型FiboEmo-LLM

    9月,廣和通正式發布自主研發的端側情感對話模型FiboEmo-LLM。該模型專注于情感計算與自然語言交互融合,致力于為AI玩具、智能陪伴設備等終端場景提供“情感理解-情感響應”一體化
    的頭像 發表于 09-26 13:37 ?1901次閱讀

    大規模專家并行模型在TensorRT-LLM的設計

    DeepSeek-V3 / R1 等模型采用大規模細粒度混合專家模型 (MoE) 架構,大幅提升了開源模型的質量。Llama 4 和 Qwen3 等新發布的開源
    的頭像 發表于 09-06 15:21 ?1225次閱讀
    大規模<b class='flag-5'>專家</b>并行<b class='flag-5'>模型</b>在TensorRT-LLM的設計

    米爾RK3576部署端側多模態多輪對話,6TOPS算力驅動30億參數LLM

    通過硬件算力優化與軟件棧協同,將視覺編碼、語言推理、對話管理大核心能力封裝為可落地的工程方案,而本文將聚焦其多輪對話的部署全流程,拆解從模型
    發表于 09-05 17:25

    格靈深瞳視覺基礎模型Glint-MVT的發展脈絡

    》主題演講,從熱點話題“世界模型”引入,介紹格靈深瞳自研視覺基礎模型Glint-MVT的發展脈絡和技術亮點,講述視覺模型基座如何讓AI
    的頭像 發表于 09-05 17:13 ?1697次閱讀
    格靈深瞳<b class='flag-5'>視覺</b>基礎<b class='flag-5'>模型</b>Glint-MVT的發展脈絡

    【「DeepSeek 核心技術揭秘」閱讀體驗】基于MOE混合專家模型的學習和思考-2

    時,它的權重就會增大,而當它的誤差大于此加權平均值時,它的權重就會減小。所以,使用這種損失函數訓練出來的模型,各專家網絡之間是競爭關系,而不是合作關系。正是這種“競爭上崗”的模式,形成了動態加載的效果
    發表于 08-23 17:00

    【「DeepSeek 核心技術揭秘」閱讀體驗】+混合專家

    :路由專家) 這種創新讓AI的推理過程更接近人類思維,為解決復雜問題提供了新的思路。 共享專家宛如一知識淵博的通才,它始終參與模型的每一次運算,就像一個穩定的基石,為整個
    發表于 07-22 22:14

    超聲波T-SAM與C-SAM模式的區別

    本文介紹了超聲波的T-SAM與C-SAM兩種模式的區別。
    的頭像 發表于 05-21 15:26 ?1591次閱讀
    超聲波T-<b class='flag-5'>SAM</b>與C-<b class='flag-5'>SAM</b>模式的區別

    基于MindSpeed MM玩轉Qwen2.5VL多模態理解模型

    多模態理解模型是讓AI像人類一樣,通過整合多維度信息(如視覺、語言、聽覺等),理解數據背后的語義、情感、邏輯或場景,從而完成推理、決策等任務。
    的頭像 發表于 04-18 09:30 ?3019次閱讀
    基于MindSpeed MM玩轉Qwen2.5VL多模態<b class='flag-5'>理解</b><b class='flag-5'>模型</b>

    蔡司CIMT2025 | 新品天團第三位成員ZEISS ScanPort亮相 – 一鍵掃描,效率倍增!

    蔡司CIMT2025 | 新品天團第三位成員ZEISS ScanPort亮相 – 一鍵掃描,效率倍增! ? ? 蔡司新品組團出道 ? 您是否正在尋找一款 移動靈活的 自動化維光學掃描系統 為您提
    發表于 04-11 15:27 ?452次閱讀
    蔡司CIMT2025 | 新品天團第<b class='flag-5'>三位</b>成員ZEISS ScanPort亮相 – 一鍵掃描,效率倍增!

    一種基于基礎模型對齊的自監督維空間理解方法

    維空間理解是推動自動駕駛、具身智能等領域中智能系統實現環境感知、交互的核心任務,其中3D語義占據預測 (Semantic Occupancy Prediction) 對維場景進行精準的體素級建模。然而,當前主流方法嚴重依賴大
    的頭像 發表于 03-18 15:01 ?973次閱讀
    一種基于基礎<b class='flag-5'>模型</b>對齊的自監督<b class='flag-5'>三</b>維空間<b class='flag-5'>理解</b>方法

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結合視覺(圖像/視頻)和語言(文本)處理能力的多模態人工智能模型,能夠理解
    的頭像 發表于 03-17 15:32 ?8828次閱讀
    ?VLM(<b class='flag-5'>視覺</b>語言<b class='flag-5'>模型</b>)?詳細解析