国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Text2SQL準確率暴漲22.6%!3大維度全拆

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2025-08-14 11:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

摘要

技術背景:Text2SQL 是將自然語言查詢轉為 SQL 的任務,經歷了基于規則、神經網絡、預訓練語言模型、大語言模型四個階段。當前面臨提示優化、模型訓練、推理時增強三大難題,研究基于 BIRD 數據集展開。

方法:提出 J-Schema 呈現數據庫結構并合理提供示例值,結合思維鏈引導模型推理。采用 Iterative DPO 迭代訓練,多輪迭代提升性能。用自洽性方法,通過硬 / 軟投票從多個候選答案中選最優,軟投票更優。

結果:解決 Text2SQL 性能提升的三大難題,將模型在 BIRD 數據集上的執行準確率從 56.6% 提升至 69.2%。

一、Text2SQL挑戰

自然語言到 SQL(Text-to-SQL),也稱為 NL2SQL,是將自然語言查詢轉換為可在關系數據庫上執行的相應SQL查詢的任務。具體來說,給定一個自然語言和一個關系數據庫,Text-to-SQL 的目標是生成一個SQL,該SQL能夠準確反映用戶的意圖,并在數據庫上執行時返回適當的結果。通過將自然語言查詢轉換為結構化查詢語言的能力,使復雜數據集更易于訪問。它極大地促進了非專業用戶和高級用戶從大量數據存儲中提取價值信息。

Text-to-SQL 解決方案的演進,經歷了四個不同階段:

1. 基于規則階段:早期的Text2SQL方法主要依賴于基于規則的統計語言模型,主要聚焦于單表查詢,理解能力僅限于詞元階段;

2. 基于神經網絡階段:神經網絡模型(序列模型、圖神經模型),提升了同義詞處理和意圖理解能力,使研究從單表擴展到多表場景。但其泛化能力仍受模型規模和訓練數據量限制;

3. 預訓練語言模型階段:預訓練語言模型(如BERT和T5)的引入顯著提升了性能,極大增強了自然語言理解能力;

4. 大語言模型階段:LLM憑借強大的涌現能力,成為當前Text2SQL領域的主流方案。研究重心轉向優化提示工程和微調LLM。

?

wKgZPGidVU6AdOSMAAVZUPmSBvw938.png

??

?

Text2SQL性能的提升,面臨著以下三個難題。

提示優化:怎么引導大模型給出明確的推理過程?數據庫的Schema要怎么設計,才能讓大模型更容易理解?

模型訓練:如何通過訓練方法提升模型的基礎能力?

推理時增強:大模型生成答案時好時壞,有什么辦法能讓輸出更加穩定可靠?

我們從這三個維度,分別給出了我們的答案。在本文中使用的數據集來自BIRD(BIg Bench for LaRge-scale Database Grounded Text-to-SQL Evaluation)。BIRD考察了大規模數據庫內容對文本到 SQL 解析的影響。BIRD 包含超過12,751個獨特的[問題-SQL]對,95 個大型數據庫,還涵蓋了超過 37 個專業領域,例如區塊鏈、冰球、醫療保健和教育等。

wKgZO2idVU-AGvzSAAMZu4VNtr0261.png

??

二、Prompt & J-Schema

要讓 LLM 理解數據庫結構,需在提示中提供數據庫模式。為此,我們提出一種名為 J-Schema 的新型數據庫表達方式。J-Schema 以完全結構化的格式呈現數據、表與列之間的層次關系,并采用特殊標記進行識別:用 “#DB_ID” 標記數據庫,“#Table” 表示表,“#Foreign keys” 表示外鍵。對于每個表,會給出表名;列信息則通過 “basic_info” 標識,其中包含列名、列描述、主鍵標識符,且為每個列提供示例值。

?

wKgZO2idVVCAH-A6AATonFFZKgY079.png

??

?

對于單一模型而言,在無法執行值檢索的情況下,提供盡可能豐富的示例值有助于模型深化對列的理解。然而,示例值過多會受限于上下文長度。為平衡示例值數量與上下文長度之間的關系,我們為值建立了新的顯示規則。

1.“DATE”、“TIME”、“DATETIME”、“TIMESTAMP”等表示時間的數據類型,只保留一個示例;

2.“REAL”浮點數據類型,保留兩位小數一個示例;

3.針對“INTEGER”整型,保留一個示例;

4.針對“TEXT”文本類型,根據分詞長度保留。小于10 token保留多個示例。

在這套規則背后,包含了我們對大量錯誤樣本的分析。對于日期、浮點數、整數這些數據類型,大模型往往是根據問題中的日期、時間要求來取值,因此增加這些數據類型的示例對最終的結果影響不大。而針對文本數據類型,往往涉及到用戶查詢和數據庫中值格式不統一問題。例如問題詢問的關鍵字是大寫的“North Bohemia”,而數據庫中的值為小寫的“north Bohemia”,若給出的示例中包含“north Bohemia”,則可以正確檢索。實驗驗證J-Schema在多個模型上均有執行準確率較大提升

?

問題 正確答案 錯誤答案 原因分析
What is the city location of the high school level school with Lunch Provision 2 whose lowest grade is 9 and the highest grade is 12 in the county of Merced? SELECT T2.City FROM frpm AS T1 INNER JOIN schools AS T2 ON T1.CDSCode = T2.CDSCode WHERE T1.`NSLP Provision Status` = 'Lunch Provision 2' AND T2.County = 'Merced' AND T1.`Low Grade` = 9 AND T1.`High Grade` = 12 AND T2.EILCode = 'HS' SELECT T2.City FROM main.frpm AS T1 INNER JOIN main.schools AS T2 ON T1.CDSCode = T2.CDSCode WHERE T1."NSLP Provision Status" = 'Breakfast Provision 2' AND T1."Low Grade" = '9' AND T1."High Grade" = '12' AND T1."County Name" = 'Merced'; 要求檢索的是“Lunch Provision 2”,因為示例值只給出了“Breakfast Provision 2”,導致檢索錯誤。可以通過增加示例解決。
How many accounts who choose issuance after transaction are staying in East Bohemia region? SELECT COUNT(T2.account_id) FROM district AS T1 INNER JOIN account AS T2 ON T1.district_id = T2.district_id WHERE T1.A3 = 'east Bohemia' AND T2.frequency = 'POPLATEK PO OBRATU' SELECT COUNT(T1.account_id) FROM main.account AS T1 INNER JOIN main.district AS T2 ON T1.district_id = T2.district_id WHERE T1.frequency = 'POPLATEK PO OBRATU' AND T2.A3 = 'East Bohemia' 問題的格式“East Bohemia”與示例值“east Bohemia”的格式不統一,增加示例值,讓模型學習到標準的值格式。

?

思維鏈(Chain of Thought, CoT)是一種提升大語言模型復雜推理能力的提示工程技術,核心是引導模型在輸出最終答案前,先生成連貫的中間推理步驟,模擬人類逐步思考的過程。在我們的提示中首先給出完整的數據庫信息,然后添加用戶查詢和外部知識,并給出引導大模型分步進行推理的提示,將推理過程輸出在和標記內,將最終的SQL答案輸出在和標記內。

?

三、訓練方法

Iterative DPO

偏好優化已被證明,在將預訓練語言模型與人類需求對齊時,相較于單獨的監督微調能帶來巨大的收益。DPO等離線方法因其簡單性和效率而越來越受歡迎。最近的研究結果表明,迭代應用這種離線流程是有益的,其中更新后的模型被用來構建更具有信息量的新偏好關系,從而進一步改善結果。為了提高模型的基礎能力,我們采用迭代式的DPO訓練方法

具體而言,在每次迭代中,我們從訓練提示中采樣多個思維鏈推理步驟和最終答案,通過驗證最終答案,構建正例池和負例池,在正、負例池根據距離挑選來構建偏好對,然后進行DPO訓練。在訓練新模型后,我們通過生成新偏好對并重新訓練來迭代該過程。我們發現推理性能在多次迭代后逐漸提高,最終達到飽和。

?

wKgZPGidVVGALorkAAHylCOq-Vo363.png

??

?

每一輪迭代中Text2SQL準確率提升如下表所示。在第三輪迭代中執行準確率達到最高,并飽和,繼續迭代執行準確率下降。并且隨著迭代輪次的增加,思維鏈的長度也在不斷增加。

模型 平均CoT token長度 執行準確率EX
Qwen2.5-Coder-32B 334 63.69%
iterative stage1 377 65.78%
iterative stage2 377 67.08%
iterative stage3 380 67.60%
iterative stage4 384 67.40%

?

超參數掃描

我們通過DPO方法進行訓練, beta是DPO Loss中的權重系數,數值越小越忽略參考模型,通常取0.1~0.5。因為我們觀察到DPO對齊算法對這一參數特別敏感。我們設置了beta從0.1、0.2 、...、0.6變化。所有實驗均訓練兩個 epoch。每次運行時,其他超參數保持不變,包括隨機種子。不同beta值對應的執行準確率如下圖所示。當beta取0.5時,達到最高的執行準確率,后續的DPO迭代中我們都延續使用該beta值。

wKgZO2idVVGABFfRAAKFOP09A4M183.png

?

四、自洽性(Self-consistency)

自一致性的核心思想是:讓模型對同一問題生成多個候選答案,然后通過投票機制選擇最優解,而不是只依賴單次生成結果。在單訓練模型賽道自洽性是被允許的,因為它反映了模型自身的性能。

在實現自洽性的過程中,我們使用了硬投票和軟投票兩種方式。硬投票直接根據模型生成結果的最終表現(如執行結果是否正確,二元判斷)進行投票,不考慮結果之間的相似程度。軟投票的決策依據是根據結果之間的相似程度(連續值)。如下圖所示。

?

wKgZPGidVVKAM9drAANU_DWzOno264.png

??

?

在某些場景下,硬投票可能過于嚴格:

?語義等價但結果有細微差異:例如 SQL 查詢結果的順序不同,但邏輯上是等價的。

?近似正確的結果:例如模型生成了一個接近正確答案的解,但存在小誤差。軟投票通過相似度計算,可以將這些 “近似正確” 的結果納入考慮,從而提高最終答案的可靠性。

不同的checkpoint模型使用自洽性均獲得了1%以上的執行準確率提升,其中軟投票方法要優于硬投票方法。

模型 無自洽性 硬投票 軟投票
iterative stage3 67.60% 67.93% 68.97%
iterative stage4 67.40% 67.40% 68.45%

五、未來探索

1.數據構造

SynSQL-2.5M是百萬規模的文本到 SQL 數據集,包含超過250萬份多樣且高質量的數據樣本,涵蓋來自不同領域的 16000 多個數據庫。如何從250萬份樣本中篩選出對于BIRD有益的數據將會是未來的重點嘗試方向。

2. 其他訓練方法

?GRPO通過組內相對獎勵來優化策略模型,在Text2SQL任務中,只需要定義獎勵函數(例如執行正確獎勵為1,執行錯誤獎勵為0),而不需要預先構建偏好數據對。9N LLM的新鏡像中提供了提交GRPO的訓練任務可作嘗試。在目前的嘗試中,GRPO的訓練時長主要受到reward驗證的影響,采樣n次時,每一個SQL樣本都需要連接數據庫執行驗證來獲取獎勵。為了縮短訓練時間,可以事先刪除執行時長過長的樣本。

?在BIRD訓練集中,針對多輪DPO后的模型,進行多次采樣時,仍然全錯的樣本,經過檢查有很大部分是自身標簽錯誤,使用LLM-as-Judge訓練方法,使模型能夠具備判斷正負樣本的能力,并且進一步刪除標簽錯誤的樣本,保留正確樣本。

3. 增加測試該優化方法的數據集和真實場景

用多個測試數據集有助于魯棒性,能夠更加全面的檢驗模型的性能。其中知名的數據集還有SPIDER、ScienceBenchmark、EHRSQL等。我們將在這些測試集驗證我們的優化方案。并且我們會逐步推廣到DataAgent的真實應用中。對于企業級的大型數據庫來說,還會有哪些新的挑戰?我們會持續關注,不斷探索和改進!

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • SQL
    SQL
    +關注

    關注

    1

    文章

    789

    瀏覽量

    46413
  • 數據庫
    +關注

    關注

    7

    文章

    3994

    瀏覽量

    67952
  • LLM
    LLM
    +關注

    關注

    1

    文章

    341

    瀏覽量

    1272
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    RTOS Crash 問題維度分析與解決指南

    RTOS Crash 問題維度分析與解決指南 RTOS(實時操作系統)的Crash(崩潰)是嵌入式實時系統中最致命的故障之一,直接破壞系統的實時性、可靠性,甚至引發安全事故。不同于通用操作系統
    發表于 12-08 03:56

    智慧光伏綜合管理系統中的“維度監測”

    和可持續發展等關鍵環節,從多個方面對光伏電站產生影響。 “維度監測”是智慧光伏綜合管理系統“智慧”的重要體現內容,其基于智能感知與數據采集,通過多源數據融合、邊緣計算能力以及無線通信技術來實現對光伏電站運
    的頭像 發表于 11-12 19:31 ?341次閱讀
    智慧光伏綜合管理系統中的“<b class='flag-5'>全</b><b class='flag-5'>維度</b>監測”

    構建CNN網絡模型并優化的一般化建議

    通過實踐,本文總結了構建CNN網絡模型并優化的一般化建議,這些建議將會在構建高準確率輕量級CNN神經網絡模型方面提供幫助。 1)避免單層神經網絡:我們清楚神經網絡本身是需要不斷抽象出更高級別的紋理
    發表于 10-28 08:02

    除了準確率,電能質量在線監測裝置在諧波源識別方面還有哪些重要指標?

    除了識別準確率,電能質量在線監測裝置在諧波源識別方面的核心價值還依賴于 識別效率、定位精度、抗干擾能力、場景適配性 等關鍵指標,這些指標直接決定裝置能否在復雜現場環境中 “快速找對、精準定位、穩定
    的頭像 發表于 10-22 16:22 ?815次閱讀

    電能質量在線監測裝置識別諧波源的準確率有多高?

    四類典型場景: 一、理想條件下的高精度識別(85%~95%) 在 低壓配網、單諧波源、測點密集 的場景中,裝置可實現高準確率定位: 典型場景 : 分布式光伏電站(單一逆變器集群):通過功率流向法(相位差判斷)與頻譜特征匹配(3 次諧波占比高),準
    的頭像 發表于 10-22 16:18 ?710次閱讀

    深海連接器: 從原理到應用的維度解析

    連接器狀態(水深、溫度、接觸電阻),預故障報警準確率≥98%。(二)市場增長引擎細分領域增速: 應用領域2025 年全球規模年復合增長中國占比 深海油氣5.2 億美元4.2%35% 海底觀測網3.8
    發表于 10-16 09:10

    精準匹配哈爾濱零碳標準!安科瑞EMS3.0實現碳排放數據準確率≥98%

    數據100%在線采集(參照《黑龍江省零碳園區建設指南》2025版)。 2. 地域化挑戰 嚴寒氣候限制:冬季光伏日均有效發電時長≤3小時,棄光高達40%。 重工業負荷特性:裝備制造/食品加工園區沖擊性負荷(如冷庫壓縮機)導致峰谷
    的頭像 發表于 08-18 16:39 ?445次閱讀
    精準匹配哈爾濱零碳標準!安科瑞EMS3.0實現碳排放數據<b class='flag-5'>準確率</b>≥98%

    觸摸芯片全面選型指南:從功能到場景的維度考量

    觸摸芯片全面選型指南:從功能到場景的維度考量
    的頭像 發表于 07-17 17:54 ?554次閱讀

    Gems維度傳感器方案在液冷數據中心的應用

    中心案例中,Gems維度傳感器方案使CDU系統的PUE優化至1.08,設備故障有效下降,驗證了 "精密感知即能效革命" 的行業共識。其中,傳感器作為 CDU 的 "神經末梢",它的技術演進正推動液冷系統向更細微的級別突破。
    的頭像 發表于 07-14 15:51 ?705次閱讀

    海思SD3403邊緣計算AI數據訓練概述

    模型,將模型轉化為嵌入式AI模型,模型升級AI攝像機,進行AI識別應用。 AI訓練模型是不斷迭代優化過程,譬如,100個數據樣本模型的識別準確率和10萬個數據樣本的識別準確率,不一樣,AI模型理論上是客戶采集訓練樣本越多,準確率
    發表于 04-28 11:11

    快速部署!米爾志T527開發板的OpenCV行人檢測方案指南

    :使用測試數據集評估訓練后的模型。計算模型的準確率、召回和F1分數等指標。 三、代碼實現import cv2 import time def detect(image,scale
    發表于 04-11 18:14

    浪潮信息:元腦EPAI已接入DeepSeek,大幅提升DeepSeek企業應用準確率

    結合,深度開發模型潛力,快速實現本地化部署DeepSeek,構建準確率高、安全穩定的專屬智能應用。實測數據顯示,DeepSeek在元腦企智EPAI上開發的企業應用回答準確率達到95%。 ? 企業落地
    的頭像 發表于 02-23 07:32 ?902次閱讀
    浪潮信息:元腦EPAI已接入DeepSeek,大幅提升DeepSeek企業應用<b class='flag-5'>準確率</b>

    Meta非入侵式腦機技術:AI讀取大腦信號打字準確率80%

    腦機技術主要通過AI模型與特定硬件的結合,將用戶的大腦信號映射成具體的鍵盤字符。該技術的準確率高達約80%,能夠準確判斷用戶在“敲擊”的按鍵,從而實現文字輸入。 值得注意的是,這項設備完全依靠外部腦機讀取用戶的大腦信號,無需進行植
    的頭像 發表于 02-11 15:45 ?1058次閱讀

    Devart: dbForge Compare Bundle for SQL Server—比較SQL數據庫最簡單、最準確的方法

    ? dbForge Compare Bundle For SQL Server:包含兩個工具,可幫助您節省用于手動數據庫比較的 70% 的時間 dbForge數據比較 幫助檢測和分析實時SQL數據庫
    的頭像 發表于 01-17 11:35 ?894次閱讀

    請問AFE4400 SPO2精度和準確率如何?

    請問用TI 的AFE4400 EVM 測量SPO2 的值,有沒有詳細的說明其測量的準確率和精度,抗弱灌注等。謝謝! 比如如下類似: SpO2 測量范圍 0~100% 分辨 1% 精
    發表于 01-15 07:02