近日,由追一科技主辦的首屆中文NL2SQL挑戰(zhàn)賽初賽結(jié)束。來自海內(nèi)外的1457支隊伍,經(jīng)過1個多月的初賽角逐,決出30強隊伍。來自國防科技大學(xué)、北京交通大學(xué)、國雙科技、清華大學(xué)、哈爾濱工業(yè)大學(xué)等高校、企業(yè)的30支優(yōu)勝團隊,晉級下一階段復(fù)賽挑戰(zhàn)。
此次比賽,也是中文NLP領(lǐng)域首次舉辦NL2SQL主題比賽,并發(fā)布相關(guān)數(shù)據(jù)集,引起了業(yè)內(nèi)和海內(nèi)外廣泛關(guān)注。自6月24日比賽啟動以來,共有1457支隊伍、1630名選手報名參賽,參與院校數(shù)達170所,其中227支隊伍、318名選手提交成績。廣泛的參與,使得NL2SQL成為國內(nèi)NLP技術(shù)比賽領(lǐng)域參賽規(guī)模最大的賽道之一。
挑戰(zhàn)中文數(shù)據(jù)集
值得注意的是,本次比賽提出的NL2SQL中文數(shù)據(jù)集比英文數(shù)據(jù)集WikiSQL引入了口語化表達、結(jié)合表格內(nèi)容、命名實體鏈接、更復(fù)雜的SQL語法等挑戰(zhàn),難度更高的同時也更貼近于真實應(yīng)用場景,但在選手們的積極、多方探索下,短期內(nèi)就已經(jīng)可以達到與英文數(shù)據(jù)集上相當(dāng)水平的分數(shù)。
近兩個月的初賽過程中,選手們的方案一直持續(xù)刷新著本次比賽的新記錄。
比賽初期,排行榜頭部選手們的分數(shù)聚集在0.58左右,已經(jīng)超過了比賽方所提供的baseline。隨后,選手通過各種討論、交流,加深對數(shù)據(jù)集理解,不斷探索更優(yōu)的方案,從而提高成績,頭部選手的分數(shù)很快突破了0.80大關(guān)。在8月12日初賽結(jié)束時,比賽榜上的頭部分數(shù)已經(jīng)達到0.89,已經(jīng)接近WikiSQL的成績。
比賽成績的快速提升,充分體現(xiàn)出選手們的投入與方案的優(yōu)秀,同時也側(cè)面反映出,目前積累的許多技術(shù)方案都可以在NL2SQL這一個新任務(wù)上發(fā)揮作用,大家也意識到,只要有充分的數(shù)據(jù)來支撐, 目前人工智能領(lǐng)域的方法論可以有效地為數(shù)據(jù)庫乃至結(jié)構(gòu)化數(shù)據(jù)提供自然語言的交互方式。
千支隊伍挑戰(zhàn)NL2SQL
任務(wù)上的創(chuàng)新、應(yīng)用上的潛力,NL2SQL比賽一經(jīng)推出,就受到了學(xué)界和工業(yè)界的廣泛關(guān)注。
據(jù)了解,本次1457支參賽隊伍中,院校和企業(yè)參與者各占“半壁江山”。其中,學(xué)生及科研人員占比48%,企業(yè)技術(shù)員工占比52%。學(xué)生參賽隊伍來自眾多知名院校,如北京大學(xué)、清華大學(xué)、復(fù)旦大學(xué)、上海交通大學(xué)、南京大學(xué)、浙江大學(xué)、中國科學(xué)技術(shù)大學(xué)、哈爾濱工業(yè)大學(xué)、西安交通大學(xué)等。
雖然本次比賽的數(shù)據(jù)內(nèi)容是中文形式,但仍然吸引了美國、英國、新加坡、日本、澳大利亞、加拿大等海外頂級院校參與,包括卡內(nèi)基梅隆、墨爾本大學(xué)、新加坡國立大學(xué)、南安普頓大學(xué)、新南威爾士大學(xué)、布里斯托大學(xué)、昆士蘭大學(xué)等。
作為新興NLP研究任務(wù),NL2SQL在專業(yè)難度上,也對選手提出較高要求。據(jù)了解,本次參賽選手中,碩士及以上學(xué)歷占比57%,其中,博士學(xué)歷占比6%;而專業(yè)分布上,計算機科學(xué)專業(yè)背景的選手則屬于參賽主力。
應(yīng)用潛力吸引名企參賽
值得注意的是,NL2SQL挑戰(zhàn)賽,還吸引了眾多的企業(yè)技術(shù)人員參與。
來自中國移動、平安集團、搜狗、達闥科技、中興通訊、網(wǎng)宿科技、國雙科技、捷通華聲等眾多企業(yè)的技術(shù)人員,也成為參賽隊伍的重要力量。
“此次挑戰(zhàn)賽參與規(guī)模遠超預(yù)期,顯示出NL2SQL在學(xué)術(shù)和工業(yè)應(yīng)用上的潛力,數(shù)據(jù)庫的交互創(chuàng)新,正在受到越來越多關(guān)注。”追一科技聯(lián)合創(chuàng)始人兼CTO劉云峰博士表示,追一科技將與更多院校、企業(yè)界同仁攜手,共同推動中文NLP研究與應(yīng)用突破。
據(jù)了解,中文NL2SQL挑戰(zhàn)賽復(fù)賽將于8月19至9月9日進行。復(fù)賽階段采用線上運行的方式來進行評測,測試集不可下載,并且內(nèi)容對選手不可見。同時,測試集在保證數(shù)據(jù)分布與初賽測試集一致同時,加入更多在初賽中沒有出現(xiàn)過的表格數(shù)據(jù),屆時,將對選手方案提出更高挑戰(zhàn)。而復(fù)賽勝出者,將會參加10月份的最終決賽。
-
nlp
+關(guān)注
關(guān)注
1文章
491瀏覽量
23280
發(fā)布評論請先 登錄
紫光同創(chuàng)助力2025中國研究生創(chuàng)“芯”大賽EDA精英挑戰(zhàn)賽圓滿收官
華大九天助力2025中國研究生創(chuàng)“芯”大賽EDA精英挑戰(zhàn)賽圓滿收官
安路科技助力2025年全國大學(xué)生FPGA創(chuàng)新設(shè)計競賽圓滿落幕
openDACS 2025 開源EDA與芯片賽項 賽題七:基于大模型的生成式原理圖設(shè)計
“睿創(chuàng)杯”首屆高校創(chuàng)新創(chuàng)業(yè)大賽圓滿收官
逐夢星閃,未來可期!“星閃杯” 區(qū)域決賽入圍名單出爐!
利用NVIDIA DOCA GPUNetIO技術(shù)提升MoE模型推理性能
基于NVIDIA BlueField DPU的5G UPF數(shù)據(jù)面加速方案
龍芯中科助力2025年全國大學(xué)生嵌入式芯片與系統(tǒng)設(shè)計競賽圓滿落幕
NVIDIA助力Axio團隊打造全新DPU數(shù)據(jù)面開發(fā)框架
TPU編程競賽|第九屆集創(chuàng)賽“算能杯”收官,22支隊伍競逐創(chuàng)佳績
利用NVIDIA DPU重塑網(wǎng)絡(luò)安全格局
第十三屆“有方杯”大賽圓滿落幕
2024集創(chuàng)賽全國總決賽即將啟航 | 西北、華東、華南、華北分賽區(qū)決賽圓滿舉辦!
2025集創(chuàng)賽紫光同創(chuàng)杯賽直播預(yù)告|提供400套板卡支持,參賽隊伍速來申請!
千支隊伍挑戰(zhàn)中文NL2SQL 院校與企業(yè)參賽者各半
評論