數(shù)據(jù)的質(zhì)量和規(guī)模才是端到端的“命脈”
11月,知行科技作為共同第一作者提出的Strong Vision Transformers Could BeExcellent Teachers(ScaleKD),以預訓練ViT(視覺Transformer)模型作為教師,CNN網(wǎng)絡作為學生進行學習。推進異構神經(jīng)網(wǎng)絡間知識蒸餾研究的具體范式/方法,被收錄于NeurIPS 2024(第38屆神經(jīng)信息處理系統(tǒng)會議)。
這是知行科技構建大模型體系能力的初步成果之一。2024年年中,知行科技開始從資源、組織等多線程入手,打造面向大模型的研發(fā)架構體系,并完成組織架構調(diào)整,引入包括清華大學計算機博士背景的大模型架構師等多位大模型與自動駕駛領域?qū)<遥瑯嫿ㄆ饘R主流的研發(fā)組織架構和專家人才庫,為2025落地端到端大模型系統(tǒng)上車做好準備。
01構建以數(shù)據(jù)為中心的開發(fā)體系
端到端讓所有智駕玩家有機會重新站上起跑線,但做端到端的挑戰(zhàn)并不全在于“模型”本身。
原特斯拉FSD研發(fā)負責人Andrej Karpathy曾表示,特斯拉自動駕駛部門將3/4的精力用在采集、清洗、分類、標注高質(zhì)量數(shù)據(jù)上,只有1/4用于算法探索和模型創(chuàng)建。究其原因,數(shù)據(jù)是人工智能發(fā)展的燃料,而端到端大模型將AI的“油耗”水平推到了新的高度。
“100萬個視頻 Case 訓練,勉強夠用;200萬個,稍好一些;300萬個,就會感到Wow;到了1000 萬個,就變得難以置信了。”特斯拉創(chuàng)始人馬斯克曾這樣量化FSD的訓練數(shù)據(jù)需求。
問題是,雖然人類活動生生不息,有效數(shù)據(jù)卻不是源源不斷。ChatGPT 3 的開發(fā)文檔中提到,45TB的純文本質(zhì)量過濾后,僅獲得570GB的文本,有效數(shù)據(jù)僅為1.27%。大語言和多模態(tài)模型領域已經(jīng)開始出現(xiàn)高質(zhì)量的真實文本、視頻數(shù)據(jù)耗盡,性能撞墻的情況。
對自動駕駛來說,高質(zhì)量的數(shù)據(jù)多來自罕見路況和場景,產(chǎn)生條件苛刻,導致樣本量相對語言類更為稀缺,更是難以滿足大模型的參數(shù)需求。
目前,端到端自動駕駛系統(tǒng)上車帶來更上限的同時,也開始遭遇數(shù)據(jù)分布問題、高質(zhì)量數(shù)據(jù)不足,導致的部分場景性能回退、困難場景性能不穩(wěn)定的情況。
數(shù)據(jù)的質(zhì)量和規(guī)模才是端到端的“命脈”。知行科技在進入端到端賽道時,決定構建“以數(shù)據(jù)為中心”的研發(fā)體系,用以滿足大模型對高質(zhì)量數(shù)據(jù)“貪婪”的特性。
知行科技重構研發(fā)組織架構,形成大模型、模型部署、基礎設施、大數(shù)據(jù)等多模塊在內(nèi)的主流人工智能開發(fā)框架。其中,大模型組不僅在模型層面提供新的技術支持,在數(shù)據(jù)自動標注算法、基于擴散模型的數(shù)據(jù)生成、基于多模態(tài)大模型的數(shù)據(jù)挖掘方面也都有發(fā)力,以更低成本的數(shù)據(jù)生產(chǎn)為目標,保質(zhì)保量地滿足知行科技端到端大模型的數(shù)據(jù)需求。
02仿真數(shù)據(jù),數(shù)據(jù)戰(zhàn)爭的下一步
當數(shù)據(jù)需求是百萬clips起步時,應該如何打這場數(shù)據(jù)戰(zhàn)爭?
知行科技一方面強化自有數(shù)據(jù)采集和標注能力,并與生態(tài)伙伴形成一定程度的數(shù)據(jù)協(xié)同;
在數(shù)據(jù)采集方面,知行科技已自建采集車隊,自主搭建數(shù)據(jù)采集軟件、車端采集系統(tǒng)和后端耦合系統(tǒng),實現(xiàn)數(shù)據(jù)采集全鏈條的自動化和高度可控,日采集效率達20萬幀,為BEV行泊車功能閉環(huán)量產(chǎn)提供必要的數(shù)據(jù)支持。
在數(shù)據(jù)標注方面,知行科技已經(jīng)建成自動化標注體系并在不斷地完善,在OD(障礙物檢測)、LD(車道線檢測)項目中實現(xiàn)完全自動標注,整體減少至少50%的數(shù)據(jù)標注成本。
與此同時,面向端到端系統(tǒng)海量數(shù)據(jù)需求,知行科技則借助大模型的能力,探索仿真數(shù)據(jù)的產(chǎn)業(yè)應用前景。
12月,OpenAI和谷歌先后發(fā)布了視頻產(chǎn)品,提供文本、圖像、視頻轉(zhuǎn)視頻的功能,展現(xiàn)出擴散模型等大模型對現(xiàn)實世界極強的復現(xiàn)和“改寫”能力。事實上,包括特斯拉在內(nèi)的自動駕駛頭部玩家,也已正在加大仿真數(shù)據(jù)領域的投入。
因為,仿真數(shù)據(jù)在數(shù)據(jù)生產(chǎn)降本,和稀有場景數(shù)據(jù)獲得方面,有著至關重要的作用:
經(jīng)過良好預訓練的大模型能夠“向前”,渲染復制現(xiàn)實世界生成圖像,并通過在虛擬世界中車輛動態(tài)擺放,僅用幾分鐘生成成千上萬段仿真場景信息;
也能夠“向后”推理,基于已有場景和環(huán)境信息,進行規(guī)劃控制的學習,打通整個感知和規(guī)劃鏈路;
此外,基于對物理世界的理解,大模型還能夠通過改變場景中的關鍵數(shù)值,提升數(shù)采場景的有效比例。
目前,知行科技通過大模型進行數(shù)據(jù)生成已取得階段性成果:能夠使用原圖進行天氣,光照等條件的修改達到快速擴充真值的目標;通過給定特殊控制量,達到數(shù)據(jù)生產(chǎn)的目的。通過在自動標注和大模型數(shù)據(jù)生成方面的全面布局,知行科技在數(shù)據(jù)生產(chǎn)的降本和質(zhì)量提升方面,已取得實質(zhì)性進展。
此外,在數(shù)據(jù)挖掘方面,知行科技已初步建成ImoGPT-多模態(tài)大模型的安全解決方案,通過MoE(混合專家系統(tǒng))大模型,進行文本理解、圖片理解和視頻理解。其將在實現(xiàn)場景可解釋性、數(shù)據(jù)挖掘、端到端安全方案等多方面發(fā)揮重要作用。
03大模型,有教無類的“良師”
大模型可以是數(shù)據(jù)的生產(chǎn)者,也可以是端側小模型的“好老師”。
如ChatGPT解釋,憑借龐大的參數(shù)量和復雜的結構,大模型能夠通過海量數(shù)據(jù)訓練,發(fā)現(xiàn)新的、更高層次的特征和模式,表現(xiàn)出未能預測、更復雜的能力和特性,實現(xiàn)智能的涌現(xiàn)。“涌現(xiàn)能力”也是大模型擴大使用場景,提升泛化性的核心。但大模型也存在計算資源消耗巨大、推理速度慢、模型可解釋性差的問題,難以被部署在計算和能耗都非常有限的端側。
如何使端模型也獲得相應的知識和泛化能力,知識蒸餾(Knowledge Distillation)技術應運而生:將大模型學到的知識遷移到一個更小的模型中,保持性能的同時降低模型部署難度和計算開銷。
知行科技被NeurIPS 收錄的ScaleKD,正是一種大模型知識蒸餾方法。

ScaleKD通過結合三個緊密耦合的組件(交叉注意力投影器,雙視圖特征模仿和教師參數(shù)感知),對齊云端教師模型和端側學生模型之間的特征計算范式差異、型規(guī)模差異和知識密度差異,實現(xiàn)任何目標學生模型在大規(guī)模數(shù)據(jù)集上的時間密集的預訓練范式。
這意味著,大模型能夠作為“有教無類”的良師,將知識和規(guī)律“復制”到端側模型,大幅提升其性能和泛化性。
從前沿學術研究出發(fā),知行科技將根據(jù)實際中使用的端模型,構建對應的老師模型進行訓練,獲得更強的能力,從而通過知識蒸餾提高端模型的學習效果和速度。
端到端大模型的應用,為智能駕駛玩家?guī)碇匦麻_局的機會。中國的場景復雜性、市場需求,中國團隊工程化和應用落地的能力,以及大模型技術領域不斷涌現(xiàn)的新能力,使后來者能夠快速、確定性地切入賽道。
知行科技著力構建的數(shù)據(jù)生產(chǎn)能力,積累的高質(zhì)量數(shù)據(jù),將為端到端模型訓練提供源源不斷的”燃料“,推動智駕功能從“能用”、“好用”,走向消費者“愛用”的未來。
-
自動駕駛
+關注
關注
793文章
14882瀏覽量
179854 -
知行科技
+關注
關注
1文章
84瀏覽量
4116 -
大模型
+關注
關注
2文章
3650瀏覽量
5183
原文標題:備戰(zhàn)端到端,知行科技大模型研發(fā)體系初見效果
文章出處:【微信號:gh_dd1765c34afb,微信公眾號:知行科技iMotion】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
知行科技開啟“人工智能+”場景落地新篇章
知行科技如何用小算力躋身第一梯隊
知行科技亮相2025地平線技術生態(tài)大會
車百會理事長張永偉赴知行科技調(diào)研交流
國際權威認證加持!“全球Robotaxi第一股”文遠知行筑牢隱私安全屏障
商湯絕影亮相汽車之家全球AI科技大會
土耳其中東科技大學科技園到訪智行者
知行科技機器人業(yè)務新獲一項合作
電子科技大學深圳高等研究院領導蒞臨景嘉微調(diào)研考察
知行科技30天內(nèi)獲得14款車型定點
探索吉他音色與效果器的奇妙世界(3)- 時延和哇音效果器
《中國企業(yè)家》專訪文遠知行CEO韓旭:Uber認可文遠知行技術具有領先性
知行科技大模型研發(fā)體系初見效果
評論