近日,騰訊科技(深圳)有限公司公布了一項名為“大語言模型的訓練方法、裝置、計算機設備及存儲介質”的新專利。該專利的公布,標志著騰訊在大語言模型訓練領域取得了新的突破。
據專利摘要顯示,該方法通過在大語言模型的訓練過程中引入第一摘要文本和第二摘要文本,為模型提供了更為豐富的學習信息。這兩個摘要文本在信息量上存在差異,且第一摘要文本中既包含正確語句也包含錯誤語句。這一設計使得模型在訓練過程中,能夠通過對比學習兩個不同摘要文本的內容,同時區分并學習第一摘要文本中的正確語句和錯誤語句。
這一創新性的訓練方法,有效避免了由于摘要文本單一而導致的模型過擬合和生成不準確等問題。通過引入更多樣化的學習信息,模型能夠更好地泛化到新的數據上,從而提高其泛化性能。同時,對正確語句和錯誤語句的區分學習,也進一步提升了模型的準確性。
騰訊此次公布的新專利,不僅展示了其在人工智能領域的深厚技術積累,也為大語言模型的訓練提供了新的思路和方法。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
人工智能
+關注
關注
1819文章
50230瀏覽量
266595 -
騰訊
+關注
關注
7文章
1685瀏覽量
50985 -
語言模型
+關注
關注
0文章
572瀏覽量
11337
發布評論請先 登錄
相關推薦
熱點推薦
AI模型訓練與部署實戰 | 線下免費培訓
你是否想系統了解AI落地全鏈路,但缺少一個完整的實戰項目練手?模型部署環節繁多,缺乏一套清晰的實戰路徑?4月18日、4月25日、5月16日RT-Thread將分別在蘇州、成都、南京舉辦“AI模型訓練
摩爾線程新一代大語言模型對齊框架URPO入選AAAI 2026
近日,摩爾線程在人工智能前沿領域取得重要突破,其提出的新一代大語言模型對齊框架——URPO統一獎勵與策略優化,相關研究論文已被人工智能領域的國際頂級學術會議AAAI 2026收錄。這一成果標志著摩爾線程在大模型基礎技術探索上邁出
在Ubuntu20.04系統中訓練神經網絡模型的一些經驗
本帖欲分享在Ubuntu20.04系統中訓練神經網絡模型的一些經驗。我們采用jupyter notebook作為開發IDE,以TensorFlow2為訓練框架,目標是訓練一個手寫數字識
發表于 10-22 07:03
3萬字長文!深度解析大語言模型LLM原理
我們正在參加全球電子成就獎的評選,歡迎大家幫我們投票~~~謝謝支持本文轉自:騰訊技術工程作者:royceshao大語言模型LLM的精妙之處在于很好地利用數學解決了工業場景的問題,筆者基于過往工程經驗
硬件與應用同頻共振,英特爾Day 0適配騰訊開源混元大模型
今日,騰訊正式發布新一代混元開源大語言模型。英特爾憑借在人工智能領域的全棧技術布局,現已在英特爾? 酷睿? Ultra 平臺上完成針對該模型的第零日(Day 0)部署與性能優化。值得一
ai_cube訓練模型最后部署失敗是什么原因?
ai_cube訓練模型最后部署失敗是什么原因?文件保存路徑里也沒有中文
查看AICube/AI_Cube.log,看看報什么錯?
發表于 07-30 08:15
利用自壓縮實現大型語言模型高效縮減
隨著語言模型規模日益龐大,設備端推理變得越來越緩慢且耗能巨大。一個直接且效果出人意料的解決方案是剪除那些對任務貢獻甚微的完整通道(channel)。我們早期的研究提出了一種訓練階段的方法——自壓
摩爾線程率先支持騰訊混元-A13B模型
近日,騰訊正式開源基于專家混合(MoE)架構的大語言模型混元-A13B。同日,摩爾線程團隊憑借技術前瞻性,率先完成該模型在全功能GPU的深度適配與高效支持。這一成果充分彰顯了MUSA架
沐曦MXMACA軟件平臺在大模型訓練方面的優化效果
在如今的人工智能浪潮中,大規模語言模型(上百億乃至千億參數)正迅速改變著我們的工作和生活。然而,訓練這些龐大的模型往往面臨“算力不足、顯存不夠用、通信太慢”等諸多挑戰。
小白學大模型:從零實現 LLM語言模型
在當今人工智能領域,大型語言模型(LLM)的開發已經成為一個熱門話題。這些模型通過學習大量的文本數據,能夠生成自然語言文本,完成各種復雜的任務,如寫作、翻譯、問答等。https
RAKsmart高性能服務器集群:驅動AI大語言模型開發的算力引擎
RAKsmart高性能服務器集群憑借其創新的硬件架構與全棧優化能力,成為支撐大語言模型開發的核心算力引擎。下面,AI部落小編帶您了解RAKsmart如何為AI開發者提供從模型訓練到落地
騰訊公布大語言模型訓練新專利
評論