近日,騰訊科技(深圳)有限公司公布了一項名為“大語言模型的訓練方法、裝置、計算機設備及存儲介質”的新專利。該專利的公布,標志著騰訊在大語言模型訓練領域取得了新的突破。
據專利摘要顯示,該方法通過在大語言模型的訓練過程中引入第一摘要文本和第二摘要文本,為模型提供了更為豐富的學習信息。這兩個摘要文本在信息量上存在差異,且第一摘要文本中既包含正確語句也包含錯誤語句。這一設計使得模型在訓練過程中,能夠通過對比學習兩個不同摘要文本的內容,同時區分并學習第一摘要文本中的正確語句和錯誤語句。
這一創新性的訓練方法,有效避免了由于摘要文本單一而導致的模型過擬合和生成不準確等問題。通過引入更多樣化的學習信息,模型能夠更好地泛化到新的數據上,從而提高其泛化性能。同時,對正確語句和錯誤語句的區分學習,也進一步提升了模型的準確性。
騰訊此次公布的新專利,不僅展示了其在人工智能領域的深厚技術積累,也為大語言模型的訓練提供了新的思路和方法。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
人工智能
+關注
關注
1817文章
50094瀏覽量
265259 -
騰訊
+關注
關注
7文章
1684瀏覽量
50907 -
語言模型
+關注
關注
0文章
571瀏覽量
11310
發布評論請先 登錄
相關推薦
熱點推薦
在Ubuntu20.04系統中訓練神經網絡模型的一些經驗
本帖欲分享在Ubuntu20.04系統中訓練神經網絡模型的一些經驗。我們采用jupyter notebook作為開發IDE,以TensorFlow2為訓練框架,目標是訓練一個手寫數字識
發表于 10-22 07:03
3萬字長文!深度解析大語言模型LLM原理
我們正在參加全球電子成就獎的評選,歡迎大家幫我們投票~~~謝謝支持本文轉自:騰訊技術工程作者:royceshao大語言模型LLM的精妙之處在于很好地利用數學解決了工業場景的問題,筆者基于過往工程經驗
硬件與應用同頻共振,英特爾Day 0適配騰訊開源混元大模型
今日,騰訊正式發布新一代混元開源大語言模型。英特爾憑借在人工智能領域的全棧技術布局,現已在英特爾? 酷睿? Ultra 平臺上完成針對該模型的第零日(Day 0)部署與性能優化。值得一
ai_cube訓練模型最后部署失敗是什么原因?
ai_cube訓練模型最后部署失敗是什么原因?文件保存路徑里也沒有中文
查看AICube/AI_Cube.log,看看報什么錯?
發表于 07-30 08:15
沐曦MXMACA軟件平臺在大模型訓練方面的優化效果
在如今的人工智能浪潮中,大規模語言模型(上百億乃至千億參數)正迅速改變著我們的工作和生活。然而,訓練這些龐大的模型往往面臨“算力不足、顯存不夠用、通信太慢”等諸多挑戰。
請問如何在imx8mplus上部署和運行YOLOv5訓練的模型?
我正在從事 imx8mplus yocto 項目。我已經在自定義數據集上的 YOLOv5 上訓練了對象檢測模型。它在 ubuntu 電腦上運行良好。現在我想在我的 imx8mplus 板上運行該模型
發表于 03-25 07:23
用PaddleNLP為GPT-2模型制作FineWeb二進制預訓練數據集
作者:算力魔方創始人/英特爾創新大使劉力 《用PaddleNLP在4060單卡上實踐大模型預訓練技術》發布后收到讀者熱烈反響,很多讀者要求進一步講解更多的技術細節。本文主要針對大語言模型
數據標注服務—奠定大模型訓練的數據基石
數據標注是大模型訓練過程中不可或缺的基礎環節,其質量直接影響著模型的性能表現。在大模型訓練中,數據標注承擔著將原始數據轉化為機器可理解、可學
使用OpenVINO?訓練擴展對水平文本檢測模型進行微調,收到錯誤信息是怎么回事?
已針對水平文本檢測模型運行OpenVINO?訓練擴展中的 微調 步驟,并收到錯誤消息:
RuntimeError: Failed to find annotation files
發表于 03-05 06:48
騰訊公布大語言模型訓練新專利
評論