你有沒有過這樣的體驗?在高速上對著導航喊“小度小度”,它就神奇地回應道“來了”;在地下車庫問“最近的充電樁”,屏幕立刻跳出相關的充電樁指引;甚至對車載語音助手說“有點冷”,空調的溫度就會悄悄調高。這些看似“讀心術”的交互背后,藏著一個能聽懂人話、能感知環境、能精準應答的“數字領航員”。
當你說“查找故宮附近的粵菜館”時,系統不僅要從3億多條POI數據中精準定位,還要理解“附近”是500米還是3公里;當你追問“有包廂嗎”,它甚至能調用餐廳實時預訂系統。這些看似簡單的對話,需要跨越語音識別、語義理解、內容獲取、答案生成等多重技術關卡。
百度地圖早在今年4月發布全球首個具備記憶-推理-決策全鏈能力的出行智能體「小度想想」是如何將自然語言轉化為精準指令?那些“秒回”的答案又是怎樣煉成的?
【AI地圖 Tech說】第三期將帶你拆解這位“出行搭子”的魔法工廠,看看從“聽清”到“聽懂”方面,究竟藏著多少黑科技。
上圖說明了從用戶請求到最終執行的整個過程,可以看到其中經過了語音識別、意圖解析、技能承接等主要的環節!
語音指令的解碼之旅:從聲波到文本
當用戶說出"導航到故宮博物院"時,系統首先啟動聲學模型將聲波轉化為文字。這個看似簡單的步驟,其實也不容易,蘊含三層技術環節:
01基礎識別
其實就是我們大家常說的語音識別技術,它利用深度學習模型將聲波信號轉化為二進制序列,結合聲學模型與發音詞典生成初步文本。語音識別技術近年來經歷了白盒化到黑盒化的演進,其性能、效果都有很大的提升,大家應該都已經比較熟悉。但相對于安靜室內環境,用戶在戶外使用小度想想的時候,還有一類常見的問題是拒識。根據統計,至少有15%左右的語音請求是由于誤喚醒/誤收音引入的(非用戶主觀需求)。小度想想,需要考慮到行駛過程中的風噪、聊天、多媒體播放等復雜噪音場景,百度地圖引入了雙重拒識判斷模型(聲學拒識、語義拒識),提前對問題請求進行甄別和提前攔截,最大限度降低用戶干擾,大幅提升用戶體驗。
02糾錯
通過語言模型(如BERT、N-Gram)對識別結果進行上下文糾錯,例如將“北經”修正為“北京”。這是小度想想相對于通用的語音助手的優勢所在,在糾錯的過程中,會使用包括地圖POI數據、路名數據等專業字典進行參考。百度地圖建設了超億條POI數據的本名、別名、關聯名的地理知識圖譜,將POI的各種表達方式建立標準化映射。在此過程中,還需要構建錯誤拼音-標準名稱的雙向索引表,支持"西單大悅成"→"西單大悅城"這樣的智能糾錯。
03排序
在實際工程中,糾錯手段不可能只有一個,因此就需要在上述流程完成后,基于多個邏輯,會輸出多個可能的識別結果。這里就會基于用戶之前的對話習慣,以及一些其他基于先驗知識和統計學習的置信度評分算法,從多個候選文本中選取最優結果(比如“橫屏模式”,在排序中會優于“紅屏模式”)。
意圖解析的"翻譯官":把自然語言轉化為機器指令
當從語音的音頻識別為自然語言之后,下一步就是將其轉化為機器指令。這里包括幾個關鍵技術:
技術亮點一:『意圖模板匹配』
基于自然語言處理(NLP)技術,完成實體識別(如時間“明天”、地點“北京”)、意圖分類(如“天氣查詢”)、情感分析(如用戶是否急躁)。過去的語義理解,更多使用模板類技術,如下圖所示,針對用戶問詢的內容抽取出關鍵要素后,再看匹配了哪種需求表達方式,這稱之為一個“意圖模板”,基于大量預置的模板就可以實現大部分指令的識別。
技術亮點二: 『生成式意圖理解』
模板化語義理解能解決很多問題,但是存在的關鍵短板在于泛化理解能力不足,同時高度依賴領域知識積累,需要提前做大量的模板標注,還要解決相近表達方式的模板沖突問題,當模板數量達到一定程度后維護成本就會增加。LLM的出現,另辟蹊徑地解決了這個問題。其核心優點是端到端利用LLM的上下文理解能力,直接解析用戶自然語言中的隱含需求,形成對“口語表達中蘊含的本質意圖”的理解,這個過程中無需構造模板,而是提前將全量承接API的參數規范作為“知識”以Prompt的方式注入LLM,使其自主選擇API并填充參數。舉例來說,我們可以給大模型這樣的Prompt:
角色:你是一個語音助手語義解析器,目標是將用戶指令轉換為API調用 參考資料:可用的API及參數如下: {API參數規范庫} 用戶指令:{user_query} 任務:請按以下步驟執行: 1.選擇最匹配的API; 2.從指令中提取參數值,若未明確提及則設為null; 3.輸出JSON格式,包含api_name和parameters。 預期輸出:{"api_name": "search_flight","parameters": {"departure_city": "北京", ...}}
技術亮點三:『工具調用』
工具調用是小度想想的下半身,是能夠準確承接用戶需求的關鍵支撐。其本質上可以理解為一系列API接口的調用。當調用序列復雜了之后,調用狀態的維護就會成為問題,小度想想針對多輪復雜工具調用,提出了基于技能的狀態機架構,任意復雜的操作,都可以基于這套架構來統一表達。
技術亮點四:『生成式AI時代的工具調用進階』
在大模型的時代,為了提升工程化的效果,在API接口的基礎上又誕生了兩個公認的技術范式:
MCP:聚焦模型與外部工具的連接,提供統一接口(如數據庫、API調用),類似“AI的USB接口”,降低跨模型開發成本。只要所有工具都以MCP的協議接入,那么大模型就可以知道這個工具能力的存在,從而能做到在合適的時候調用它。
RAG:RAG本質上是對問答能力的數據增強,如果小度想想僅僅基于老舊的LLM底座來回答問題,會有很嚴重的幻覺發生。為了解決這個問題,往往使用檢索增強生成(Retrieval Augmented Generation,簡稱 RAG),百度地圖將所有的地圖領域數據以結構化來存儲,然后在用戶提問后,以向量相似性找到對應參考數據,并取出再用LLM做匯總,就相當于從“閉卷考試”變成了“開卷考試”,從而保證了答案的精準性。
持續提升生產力:從語音助手到智能體
隨著LLM的能力越來越強,我們發現,它的強大理解能力,對于一個一般化的常識問題,能給出相當接近人類的回答。那么是否它能模擬很多團隊協作的真人,甚至以硅基生命來承接現實世界的生產力?這就是智能體(Agent)要考慮的問題了。智能體是這兩年AI領域最火的詞之一,它是基于人工智能技術在某個領域體現高度智能,顯著提升人類工作效率的信息系統,相對于“語音助手”,更偏重于“通過觀察、思考、權衡利弊,動態自主調用基礎能力、高準確地解決復雜業務問題”的特性。
以自動駕駛場景為例,智能體可以實時感知車輛周圍的路況、其他車輛的行駛狀態、交通信號燈的變化等關鍵信息,為后續決策提供堅實的數據基礎。自主決策能力堪稱智能體的 “大腦”,它依據感知到的環境信息,結合內部預設的規則和先進算法,迅速、準確地做出決策。在面對復雜路況時,自動駕駛智能體能夠綜合分析各種因素,精準判斷是加速、減速還是轉彎,以確保車輛行駛的安全與高效。又如在智能物流配送中,智能體的核心目標是按時將貨物準確送達目的地,為此它會綜合考量實時路況、車輛載重等信息,動態規劃最優配送路線,克服重重困難以達成目標。
回到語音助手這個場景,結合地圖智能體的任務,首先要針對地圖場景深入精調大模型,百度地圖通過文心一言基座大模型進行二次預訓練、SFT、強化學習等手段,使地圖大模型能夠精確理解用戶在地圖中的各種常見表達,理解準確率高達95%以上。
此外,針對復雜任務的執行,還要引入的兩個特性是記憶和反思:
記憶能力
當用戶表達不完整的需求時,能夠基于之前的問答和用戶行為,自動補全對話內容(如用戶問“今天限行嗎?”默認補充用戶所在城市),因此需要構建記憶能力,用于存儲歷史交互數據、用戶偏好與領域知識(如常用地址、路線選擇習慣、節假日出行規律),為意圖理解與決策提供背景支持,減少重復詢問并提升個性化水平。這里面的短期記憶一般是指從啟動會話至今的內容,往往持續數分鐘,而長期記憶則是用戶相對穩定固化的特征,就地圖智能體來說,用戶的搜索、導航記錄等都是長期記憶的范疇。
反思能力
一個初始狀態的智能體,在應對用戶復雜需求以及實時環境快速變化時,往往會出現理解偏差、輸出內容不完備與知識更新滯后等問題。引入反思(Reflection)能力,能顯著提升服務的精準性與智能化水平?;谏鲜鲇洃?反思流程圖,可以看到反思能力能不斷地自我判斷當前的答案是否滿意。當然,客觀來說,在大部分領域很難實現完美的反思能力,因為反思的本質是要在將答案呈現給人之前就能判斷其質量,這里面存在大量主觀因素和模棱兩可的問題,在這個過程中,LLM是第一大功臣,可以說針對語音對話類場景,沒有LLM純靠規則就不可能實現普遍有效的反思。除此之外,長短期記憶也起到了重要的作用,它能夠結合用戶之前的習慣,猜測當前的結果是否符合用戶預期,如果不符合,會主動打回進行重新理解和執行。
案例解析:天氣查詢的完整技術鏈路
以一個簡單的“明天北京會下雨嗎”為例,系統執行以下操作:
語音識別:ASR引擎輸出“明天北京會下雨嗎”文本;
語義理解:通過注冊到小度想想的工具,結合這段文本,輸出應當調用天氣API,獲取相關數據;
服務調用:調用天氣API獲取預測天氣數據;
答案生成:輸出“明天北京陰有雨,15-25℃”;
反思與重新生成:LLM審視這個答案,認為還不夠詳細,反思后認為應該按時間段細化降水概率,因此重新請求天氣API,獲取更詳細的降雨預測數據,并呈現給用戶。
隨著多模態大模型以及自動駕駛技術的發展,未來的小度想想會有更多的可能性。從大的趨勢來說,語音語義一體化大模型正在逐漸成熟,2025年3月31日,百度在 AI DAY 上發布了業界首個基于全新互相關注意力(Cross - Attention)的端到端語音語言大模型,該模型實現了超低時延與超低成本。另外,多模態的對話(比如視頻AI對話)和自動駕駛的結合也值得重視,比如通過車載攝像頭識別"前方學校區域"并自動減速;通過聲紋、視頻和車輛傳感器識別人、車的異常,主動采取應對措施;而在導航行中播報的時候,所有內容都是基于實時動態數據進行人格化生成,再也不像機器人那樣的生硬,而是像真人一樣地交流,讓我們的出行更舒適高效。
-
百度
+關注
關注
9文章
2377瀏覽量
94881 -
智能體
+關注
關注
1文章
476瀏覽量
11605
原文標題:揭秘:全球首款真正會思考的出行智能體「小度想想」是如何煉成的
文章出處:【微信號:baidu_map,微信公眾號:百度地圖】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
百度地圖開放平臺助力商用車與兩輪車智能出行
百度地圖開放平臺與400萬開發者共赴智能時空新未來
百度地圖出行智能體“小度想想”的黑科技
評論