国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

PPTAgent: 大模型驅動的PPT自動生成

中科院軟件所中文信息處理實驗室 ? 來源:中科院軟件所中文信息處 ? 2025-01-21 10:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

論文題目

PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

論文鏈接

https://arxiv.org/abs/2501.03936

項目倉庫

https://github.com/icip-cas/PPTAgent

演示視頻

在數字化時代,演示文稿(PPT)作為信息傳遞的重要媒介,其自動化生成需求愈發迫切。然而,一份優秀的演示文稿不僅需要引人入勝的故事線,還需要抓人眼球的視覺效果和內容的有效組織,這對創作者提出了極高的要求。針對這一挑戰,中國科學院軟件研究所中文信息處理實驗室提出了一種突破性的演示文稿自動生成框架 PPTAgent。

不同于傳統的端到端生成方法,PPTAgent 借鑒了人類創作 PPT 的過程,采用基于編輯的工作流程。正如經驗豐富的演講者往往會參考優秀的演示文稿來優化自己的作品,PPTAgent 也通過分析和編輯參考演示文稿來生成新的內容。

PPTAgent 設計的框架包含兩個關鍵階段:首先是“演示文稿分析”階段,系統會深入分析作為參考的演示文稿,提取每張幻燈片的語義信息。隨后在“演示文稿生成”階段,系統首先會基于文檔內容生成詳細的演示大綱,并為每張幻燈片分配合適的參考模板及相關文檔段落。對于待生成的每張幻燈片,PPTAgent 能夠根據輸入內容自動調整幻燈片參考模板中的文本和視覺元素,通過生成的代碼指令來完成元素的創建、編輯和刪除等操作。通過這種方式,PPTAgent 不僅確保了生成內容的連貫性,還保持了視覺設計的美觀度。

同時,我們還提出了首個全面的演示文稿評估框架 PPTEval,從內容、設計和結構連貫性三個維度評估演示文稿的質量,為自動化生成技術的改進提供了細粒度的反饋。實驗結果表明,PPTAgent 能夠生成高質量的演示文稿,在 PPTEval 的評估中取得了 3.67 的平均得分,并在來自不同領域的實驗數據上展現出了 97.8%的任務成功率。

PPTAgent

ef57fafa-d63c-11ef-9310-92fbcf53809c.png

階段一:演示文稿分析 在這個階段,PPTAgent 首先對參考演示文稿進行全面分析以提取其中包含的語義信息。具體來說:

根據功能將幻燈片分為兩大類:支持演示結構的幻燈片(如開場頁)和傳遞具體內容的幻燈片(如要點頁)。針對不同類型,PPTAgent 采用基于圖片相似度或大語言模型的方法對參考演示文稿中的幻燈片進行聚類,并利用大語言模型的上下文感知能力對該頁的功能進行描述。

考慮到現實世界中幻燈片內容的復雜性和碎片性,我們利用大語言模型進一步地提取幻燈片的內容模式(schema),包括幻燈片元素的類別、形式和具體內容。這些信息為后續的編輯過程提供了重要指導。

階段二:演示文稿生成

在生成階段,我們采用了基于編輯的生成范式,具體流程包括:

首先根據上一階段分析得到的幻燈片語義信息和輸入文檔生成結構化大綱,為新演示文稿中的每張幻燈片指定參考模板和輸入文檔中的相關內容。

基于我們設計的 API 接口,生成可執行的代碼指令來對幻燈片中的元素進行編輯修改。此外,我們還引入了實時的錯誤反饋機制,系統能夠根據執行過程中的錯誤反饋進行自我糾正,顯著提高了生成的穩定性。

PPTEval:基于 LLM-as-a-Judge 范式的幻燈片質量評估

此外,為了能夠有效和全面地評估生成幻燈片的質量,我們還開發了 PPTEval 評估框架,利用大語言模型來從三個維度對演示文稿進行全面評估:

內容(Content):評估幻燈片中文本和圖像的相關度、文本內容信息量和質量,確保傳達的信息簡潔、準確且具備實用性。

設計(Design):關注幻燈片的色彩搭配、視覺元素的使用和整體設計的專業性,確保視覺呈現和內容相輔相成。

連貫性(Coherence):評估幻燈片的邏輯結構和上下文信息的完整性,確保內容流暢且符合邏輯,觀眾易于理解。

ef81e6d0-d63c-11ef-9310-92fbcf53809c.png

實驗

數據集

為了全面評估 PPTAgent 的性能,我們首先構建了一個包含 10,448 份多領域演示文稿的數據集 Zenodo10K,這也是目前已知最大的幻燈片數據集。在此基礎上,我們在三個常用的大語言模型:GPT-4o、Qwen2.5-72B(Qwen2.5)和 Qwen2-VL-72B(Qwen2-VL)上進行了實驗。

efa3476c-d63c-11ef-9310-92fbcf53809c.png

實驗結果

超高的生成成功率:PPTAgent 展現出卓越的魯棒性,使用 GPT-4o 或 Qwen2.5+Qwen2-VL 組合時,均實現了超過 95%的生成成功率。這一成績遠超此前模板編輯任務僅有 10%的成功率。

全方位的質量提升:與基線方法相比,PPTAgent 在幻燈片的各個維度都取得了顯著進步:

設計維度得分提升 40%(3.24 vs 2.33)

連貫性維度提升 34%(4.39 vs 3.28)

內容質量提升 9%(3.25 vs 2.98)

開源模型的出色表現:值得一提的是,Qwen2.5 與 Qwen2-VL 的組合有效地克服了 Qwen2-VL 在語言處理方面的局限性,其整體表現也達到了與 GPT-4o 相當的水平,展現了開源大模型在專業領域的應用潛力。

efbb1cac-d63c-11ef-9310-92fbcf53809c.png

評估結果的可靠性驗證:為確保評估結果的可靠性,我們將 PPTEval 的評估結果與人工評估進行了一致性分析。分析結果表明,PPTEval 在三個維度上的平均皮爾遜相關系數為 0.71,顯示其能夠有效地代替人類評估幻燈片的質量。

總結

通過這項研究,我們將演示文稿的自動生成重新定義為一個基于編輯的兩階段任務。PPTAgent 充分利用了大語言模型對代碼的理解和生成能力,通過分析參考演示文稿的文本特征和布局模式,有效地組織和生成新的演示文稿。在多個領域的實驗驗證中,PPTAgent 都能夠魯棒地生成高質量幻燈片。同時,我們提出的 PPTEval 評估框架為演示文稿生成任務提供了可靠的評估手段,為該領域的未來發展奠定了重要基礎。 這項技術有望開創一種全新的無監督演示文稿生成范式,為未來研究提供了新的思路。通過這項技術,我們期待能夠幫助更多人高效地創作專業的演示文稿,讓信息傳遞變得更加便捷。最后,通過開源的 PPTAgent、PPTEval 和大規模幻燈片數據集 Zenodo10K,我們希望能夠推動整個領域的發展,激發更多創新性的研究成果。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ppt
    ppt
    +關注

    關注

    1

    文章

    48

    瀏覽量

    18226
  • 大模型
    +關注

    關注

    2

    文章

    3650

    瀏覽量

    5179

原文標題:PPTAgent: 大模型驅動的PPT自動生成,解放打工人

文章出處:【微信號:gh_e5b9d8c5c1d4,微信公眾號:中科院軟件所中文信息處理實驗室】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何構建適合自動駕駛的世界模型

    [首發于智駕最前沿微信公眾號]世界模型經歷了系統動力學階段(1960年~2000年)、認知科學階段(2001年~2017年)、深度學習階段(2018年至今),但將其應用到自動駕駛汽車上,還是近幾年才
    的頭像 發表于 02-18 08:14 ?1w次閱讀
    如何構建適合<b class='flag-5'>自動</b>駕駛的世界<b class='flag-5'>模型</b>?

    生成式AI浪潮如何驅動車載通信模組升級

    隨著生成式AI浪潮席卷全球,人們對實時算力和海量數據的需求從未如此迫切。想象一下,一輛智能汽車不僅能流暢地執行自動駕駛任務,還能在行駛中將TB級傳感器數據高效回傳至云端,用以即時優化AI模型;同時,即使深入無信號的偏遠山區,它依
    的頭像 發表于 01-06 10:15 ?321次閱讀
    <b class='flag-5'>生成</b>式AI浪潮如何<b class='flag-5'>驅動</b>車載通信模組升級

    模型支撐后勤保障方案生成系統軟件平臺

    ? ? 北京五木恒潤大模型支撐的后勤保障方案生成平臺系統軟件,依托人工智能大模型技術,融合后勤保障領域專業知識與實際需求,可自動生成高效、精
    的頭像 發表于 12-17 16:51 ?485次閱讀

    模型支撐后勤保障方案生成系統:功能特點與平臺架構解析

    ? ? 大模型支撐后勤保障方案生成系統:功能特點與平臺架構解析 ? ?大模型支撐后勤保障方案生成系統憑借智能預測、動態調度、路徑優化、庫存管理及可視化展示等核心能力,為后勤保障方案
    的頭像 發表于 12-17 15:49 ?308次閱讀

    五大大模型支撐后勤保障方案生成系統軟件的應用與未來發展

    ? ? 在后勤保障領域,五大以大模型或智能技術為核心支撐的系統方案顯著提升了保障的智能化與效率,包括:北京華盛恒輝與五木恒潤的大模型驅動方案生成系統、英國HUMS健康與使用監控系統、以
    的頭像 發表于 12-17 15:24 ?298次閱讀

    世界模型是讓自動駕駛汽車理解世界還是預測未來?

    ? [首發于智駕最前沿微信公眾號]世界模型自動駕駛技術中已有廣泛應用。但當談及它對自動駕駛的作用時,難免會出現分歧。它到底是讓自動駕駛汽車得以理解世界,還是為其提供了預測未來的視角?
    的頭像 發表于 12-16 09:27 ?867次閱讀
    世界<b class='flag-5'>模型</b>是讓<b class='flag-5'>自動</b>駕駛汽車理解世界還是預測未來?

    pdf轉換ppt怎么轉換

    df轉換ppt怎么轉換 ? 將 pdf 轉為 ppt 是常見需求,選擇合適工具可以省時省力,我會介紹在線服務、桌面軟件和手動方法,目標是盡量保留文字圖片和排版,生成可編輯的 ppt
    的頭像 發表于 11-22 09:19 ?869次閱讀

    不只有AI協作編程(Vibe Coding):生成式系統級芯片(GenSoC)將如何把生成式設計推向硬件層面

    但是否能將這種生成式的、目標驅動的方法從軟件層向下延伸呢?這一理念是否可以直接應用于硬件本身呢?通過GenSoC,開發者可用自然語言或高級模型描述系統行為,XMOS的工具鏈將自動
    的頭像 發表于 11-07 14:04 ?533次閱讀

    VLA和世界模型,誰才是自動駕駛的最優解?

    Model)路線,這兩種路徑都為自動駕駛快速落地提供了可能,那誰才是最優解? 什么是VLA模型? VLA模型,即視覺—語言—行動模型,是將視覺感知、語言理解和動作
    的頭像 發表于 11-05 08:55 ?783次閱讀
    VLA和世界<b class='flag-5'>模型</b>,誰才是<b class='flag-5'>自動</b>駕駛的最優解?

    真正免費的AI生成PPT工具盤點:告別收費陷阱

    "PPT做得好,升職加薪早",但每次打開某知名辦公軟件看到"VIP專屬"的提示,是不是瞬間覺得錢包被掏空?別慌!今天我們就來扒一扒那些真正免費的AI生成PPT神器,其中AiPPT更是堪稱"卷王中
    的頭像 發表于 10-30 15:43 ?6539次閱讀
    真正免費的AI<b class='flag-5'>生成</b><b class='flag-5'>PPT</b>工具盤點:告別收費陷阱

    如何讓大模型生成你想要的測試用例?

    應用大模型生成測試用例,常見的知識庫,測試大模型,微調,RAG等技術門檻都不低,甚至很難,因此對于應用者而言,最快的方式就是應用好提示詞,調教屬于個人風格的測試用例智能生成模塊,讓智能
    的頭像 發表于 09-26 10:01 ?944次閱讀
    如何讓大<b class='flag-5'>模型</b><b class='flag-5'>生成</b>你想要的測試用例?

    小紅書:通過商品標簽API自動生成內容標簽,優化社區推薦算法

    ? ?小紅書作為領先的社交電商平臺,用戶生成內容(UGC)是其核心驅動力。隨著商品數量和用戶互動激增,傳統推薦算法面臨效率瓶頸。本文探討小紅書如何利用商品標簽API自動生成內容標簽,顯
    的頭像 發表于 09-10 16:46 ?974次閱讀
    小紅書:通過商品標簽API<b class='flag-5'>自動</b><b class='flag-5'>生成</b>內容標簽,優化社區推薦算法

    生成式 AI 重塑自動駕駛仿真:4D 場景生成技術的突破與實踐

    生成式AI驅動的4D場景技術正解決傳統方法效率低、覆蓋不足等痛點,如何通過NeRF、3D高斯潑濺等技術實現高保真動態建模?高效生成極端天氣等長尾場景?本文為您系統梳理AI驅動的4D場景
    的頭像 發表于 08-06 11:20 ?5144次閱讀
    <b class='flag-5'>生成</b>式 AI 重塑<b class='flag-5'>自動</b>駕駛仿真:4D 場景<b class='flag-5'>生成</b>技術的突破與實踐

    谷歌新一代生成式AI媒體模型登陸Vertex AI平臺

    我們在 Vertex AI 上推出新一代生成式 AI 媒體模型: Imagen 4、Veo 3 和 Lyria 2。
    的頭像 發表于 06-18 09:56 ?1091次閱讀

    Gemini API集成Google圖像生成模型Imagen 3

    開發者現在可以通過 Gemini API 訪問 Google 最先進的圖像生成模型 Imagen 3。該模型最初僅對付費用戶開放,不久后也將面向免費用戶推出。
    的頭像 發表于 05-14 16:53 ?1261次閱讀