国产精品操逼大片,久久青草55部完整,国产精品久久久

每一次技術風口，在掀起浪潮的同時也伴生著泡沫，盡管這輪GenAI革命無疑是一次深刻改變人類文明進程的革命，但過去一年，關于AI, 有太多荒謬不實、不負責任的雜音，也有太多為技術而技術的錯誤應用范式。

近日，昆侖巢聯合各路AI領域大咖和組織機構，舉辦首期人工智能應用實踐討論專場，打造了一場圍繞AI應用的線上思辨對談，旨在促進AI行業的深入思考和建設性對話。云知聲算法研發總監王亦寧應邀出席活動并帶來主題為《基于山海大模型的領域級RAG技術探索及其實踐》的深度演講。

現場，王亦寧結合其在人工智能領域的豐富經驗，深入剖析了RAG技術在大模型中的關鍵作用，并基于山海大模型的構建與實際落地探索，分享了山海大模型的企業級優化策略，為與會者提供了實現技術深度融合與價值最大化的前瞻性洞見。

以下為分享精華，我們做了整理，謹供學習：

PART 1

RAG：山海大模型的創新應用與實踐探索

當前，大語言模型應用主要面臨私有部署難、幻覺問題、安全合規以及知識更新局限性等問題。正是在這樣的背景下，檢索增強生成技術（Retrieval-Augmented Generation，RAG）應時而生，成為大模型時代的一大趨勢。

RAG是指檢索增強生成（Retrieval Augmented Generation ）技術，其在大語言模型生成答案之前，先從廣泛的文檔數據庫中檢索相關信息，然后利用這些信息來引導生成過程，極大地提升了內容的準確性和相關性。

盡管RAG技術在提升語言模型的復雜查詢處理能力方面具有顯著優勢，但在實際應用中仍面臨一些關鍵挑戰。這些挑戰包括保持語義連貫性、過濾無關信息、處理口語化表達、避免生成錯誤信息以及減少干擾等。王亦寧強調，解決這些問題對于提升RAG性能和應用范圍至關重要。

會上，王亦寧向與會觀眾展示了RAG技術如何與大模型結合，以強化其在特定領域的應用效能。具體來說，首先通過口語改寫和Query優化，精確捕捉用戶意圖。隨后，利用向量化技術在向量數據庫中高效檢索相關信息，并通過多路召回策略全面搜集數據，過濾噪聲。在生成階段，采用關鍵信息抽取和Prompt工程技術，確保回答的準確性和相關性，避免錯誤信息的產生。最后，嚴格的問答校驗流程，保證了輸出回答的高質量，確保為用戶提供更可靠的內容。

整體而言，RAG技術的應用，幫助山海大模型打造了一個高效、準確的問答系統，有效緩解了幻覺問題，提高了知識更新的速度，并增強了內容生成的可追溯性，使得大語言模型在實際應用中變得更加實用和可信。

為了具體展示RAG在山海大模型中的應用，王亦寧以工業問答為例，向與會嘉賓生動展示了如何利用山海模型進行高效的Query Answer Retrieval。通過基于Copy機制的RAG、Query改寫、檢索精排、候選結果過濾、關鍵信息抽取和片段校驗等技術，山海RAG技術方案在增強大模型回答質量的同時，更確保了在不確定性情況下的可靠性，使得大模型在特定領域的應用更加精準、高效和可信。

PART 2

打造企業級應用范式，山海的六大優化實踐路徑

演講后半段，王亦寧分享了山海大模型在企業級應用中的優化實踐，包含預訓練、指令微調、對齊、Agent、解碼策略、提示工程六大策略。

預訓練：

利用行業特定的語料庫對模型進行進一步的預訓練，使其能夠更好地理解和適應特定行業的術語、概念和上下文。在醫療行業語料庫的加持下，山海大模型于2023年6月的MedQA任務中超越Med-PaLM 2，取得87.1%的優異成績；在臨床執業醫師資格考試中提升至523（總分600分），超過99%的考生水平。

指令微調：

在企業級應用中，云知聲采用了一系列微調策略以提升其大模型的性能——全量SFT通過大規模標注數據集對模型進行全面訓練，以確保模型在特定任務上達到最優表現；LoRA和QLoRA技術通過引入低秩結構和量化方法，高效調整模型參數，使模型能夠快速適應新任務，同時降低資源消耗；P-Tuning策略則專注于優化模型的特定部分，以增強模型對新數據的適應性；Adaptor技術通過在模型主體之外添加小型適配器網絡，使模型能夠在保持原有結構的同時，學習并適應新任務的特征。這些策略的綜合應用，使得山海大模型在保持預訓練優勢的基礎上，能夠精準滿足企業級應用的多樣化需求。

對齊：

為確保大模型的輸出與用戶需求和偏好保持一致，云知聲在大模型的企業級優化過程中采用了RLHF、RLAIF、DPO三大對齊策略——RLHF通過分析用戶的直接反饋，使用強化學習來優化模型行為，使其生成的答復更加精準和符合期望；RLAIF進一步通過逆向獎勵機制增強模型的學習能力，鼓勵生成高質量答案并避免不相關輸出；DPO則直接針對用戶偏好進行優化，通過比較不同輸出樣本來提升模型輸出的滿意度。這些策略的結合不僅提升了模型的響應質量，還增強了模型適應不同用戶需求的能力，從而在企業級應用中實現更加個性化和更高效的服務。

Agent：

山海大模型通過一系列Agent創新策略，顯著提升了企業級應用的效能。Web搜索增強賦予了Agent實時訪問互聯網信息的能力，確保答復的時效性和準確性；外部檢索增強則讓Agent深入挖掘企業內部知識庫，提供專業且深入的答復；ToolLLM進一步擴展了Agent的功能，集成了多種輔助工具，使得語言模型能夠執行更復雜的任務。

解碼策略：

解碼策略是優化語言模型輸出的關鍵環節，涉及多種技術以適應不同的應用需求。Greedy Search以其簡潔性快速選擇最可能的詞，而Beam Search通過考慮多個最可能的序列來增加找到最優解的幾率。Top-k采樣通過限制詞的選擇范圍來平衡結果的多樣性和準確性。Copy Mechanism允許模型復制輸入中的短語，以提高回答的準確性。Restricted Decoding確保輸出內容的適當性，而推測性解碼Speculative Decoding允許模型生成基于假設的答案，適用于需要創造性的場景。這些策略的綜合應用，使得語言模型能夠靈活地處理各種復雜的查詢，提供高質量、多樣化且符合用戶需求的回答。

提示工程：

提示工程提升了模型對任務的理解和生成文本的準確性，是提高語言模型在各種應用場景中表現的關鍵。它包括利用上下文學習（In-context Learning）為模型提供豐富的背景信息，使其能夠基于少量示例快速適應新任務；構建思維鏈（Chain of Thought）和思維樹（Thought Trees）以模擬逐步的邏輯推理過程，增強模型解決復雜問題的能力；以及確保自我一致性（Self-consistency），使模型輸出在邏輯上連貫無矛盾。

此外，云知聲UniDataOps框架通過其綜合性的數據處理能力，為大型語言模型的訓練和微調提供了一個強大、可靠的數據基礎，從而顯著提升企業級大模型應用的性能和效果。

演講的尾聲，王亦寧對未來人工智能技術的發展前景表達了積極樂觀的態度，他表示，云知聲期望通過深化對復雜文本數據的分析和格式處理，提升對視覺信息的解讀能力，并實現基于圖像的內容問答功能，從而拓展AI在多模態交互和智能理解方面的可能性，為用戶帶來更加多樣化和個性化的應用體驗。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
91

文章
39793

瀏覽量
301443
人工智能

人工智能

+關注

關注
1817

文章
50098

瀏覽量
265412
云知聲

云知聲

+關注

關注
0

文章
315

瀏覽量
9363

原文標題：云知聲出席昆侖巢首期人工智能應用實踐討論專場并作主題分享

文章出處：【微信號：云知聲，微信公眾號：云知聲】歡迎添加關注！文章轉載請注明出處。

搜索歷史

云知聲山海大模型的創新應用與實踐探索

評論