數據、算法、算力是人工智能的基本三要素。在資本的催化下,算力和算法都得到了“大躍進”式的發展,但作為三要素之一的數據卻一直站在聚光燈之外。隨著AI的商業化的不斷落地,打造以數據為核心的行業壁壘已成為各大人工智能企業面前最重要、但卻最容易被忽視的環節。
26歲的單身母親Brenda住在非洲最大的貧民窟基貝拉,這也是全球最貧困的社區之一。每天早上Brenda都會乘坐公共汽車前往內羅畢東部,和她的1000多名同事一起,開始一天八小時的工作。
她的主要工作內容簡單而機械:上傳圖片,然后用鼠標機械地標記一張圖片上的所有物體——人、車輛、交通標識、道路標記,甚至天空。在這里工作八小時可以得到9美元的報酬,對于當地人來說,這已是一筆可觀的收入。
能簡單控制鼠標的Brenda和她分布全球上百萬的同事們,在通過幾個小時的培訓后成為了全球人工智能產業鏈上最重要的環節之一。
在人工智能發展的早期,人工智能廠商通過廉價勞動力來滿足自身的數據標注需求。而Brenda和她的同事們就是這樣的勞力,是人工智能背后的“人工”。
隨著人工智能的發展迭代,這樣“粗放”的標注方式正在逐漸被淘汰。
從吃糠咽菜到山珍海味,人工智能變身挑剔老饕
作為人工智能發展最基本的三要素,數據、算法和算力三元素之間一直處于相互制約,又相互促進升級的關系。互聯網的誕生,讓數據處于井噴式的爆發,助推了算力的提升,推動了算法的進步。而近年來生成對抗網絡(GANs)等技術及眾多數據采集設備的應用,用于訓練的數據可被多次復用,并與更多維數據融合進行算法訓練正在成為趨勢。使得數據需求從原來單純追求“量”轉變成追求“質量”。
隨著人工智能商業化進程的加速,輔助駕駛、客服機器人等應用已開始普及。人工智能從理論落地正逐漸走入平常百姓家。人們對于AI的能力要求,以及在實際使用中產品穩定性,安全性的要求,也在逐漸提升。
安全性、穩定性的提升,實際是在倒逼對標注數據精確度提升的,這也就對數據精度有了更高的要求。曾經95%的數據精度就能“喂飽”的人工智能,開始需要更高精度的數據“喂養”,追求超高精度訓練數據已然成為了AI落地的必要因素。
如果說以前的算法使用的通用數據集是粗糧的話,那現在算法需要的就是定制化的營養餐。企業若想進一步提升模型的落地能力,必然要逐漸脫離原來的通用數據集和互聯網數據,積極投身于定制化數據采集當中,打造數據優勢壁壘。
數據采集進入深水區:定制化數據采集成為數據獲取層面的必要一環
眾包采集和定制化采集是數據采集行業的兩種常見模式。
眾包模式的優勢主要體現在樣本的豐富性和多樣性上,但對于行至今日的AI數據服務業務,通過眾包模式解決所有數據采集需求并不現實。
首先,數據的安全性問題很難解決:平臺用戶提供的圖片可能是未經合法授權的,作為平臺方很難判斷用戶提供數據的來源。
此外,涉及到定制化需求的采集任務中,尤其是較為復雜的任務中,從眾包用戶采集到的數據往往差強人意,反倒增加了更多的審核成本。
更不用說有些采集需要在特定的場景內進行,具有一定的危險性(如輔助駕駛中對駕駛員行為進行采集),類似這樣的采集任務通過眾包非但達不到效果,還增加了采集用戶的風險。
作為AI數據服務行業內唯一的獨角獸企業,Testin云測對這個問題感同身受。一開始,只是有一些AI企業找到Testin云測,希望通過Testin云測的眾測平臺做數據采集。但隨著AI企業數據需求的不斷進化,Testin云測開始通過自建數據場景實驗室和數據標注基地,打造專業的定制化采集和高質量的標注隊伍,來幫助AI企業獲取更多優質的特定場景數據。
場景實驗室:深挖真實數據需求,搭配穩定被采樣本
“場景實驗室是Testin云測布局高度定制化、多模態的AI數據服務的重要組成部分,借此能使得Testin云測的交付能力與客戶需求平行,甚至領先客戶的需求一點點”,Testin云測VP賈宇航說道。
領先需求“一點點”,需要的不僅是強大技術能力和搭建能力,更要有對應用場景深入的了解。
“在一個項目中,客戶希望在不同光照條件和光照角度下采集玻璃后面的人臉數據”,賈宇航為我們舉例道:“不同于以往常見的安防攝像頭采集,這個項目中單是光源條件就分成了室內和室強光、逆光、倒光等一共24種光照條件,不僅如此,玻璃反光度、模特臉部遮擋比例值等都有嚴格的要求。”
對于這樣的定制化采集需求,場景搭建雖然非常繁瑣,但還談不上困難。然而,AI數據服務的提供商絕不應該僅僅是幫助客戶搭建場景,而是要幫助客戶找到最需要的數據結果。在這個項目中,玻璃的反光程度不僅與玻璃的材質厚度有關,也跟光源大小、光源與玻璃之間的角度和距離等一系列變量有關。Testin云測最終搭建了一個將近3000平米的場景以完成數據采集。
“只有深入理解了場景、深入理解了客戶需求,才有可能提供給客戶真實需要的數據。缺乏把握客戶真實需求的能力將會給我們帶來巨大的風險”,賈宇航總結道。
而面對越來越定制化的AI數據需求,僅僅擁有場景搭建能力也是不夠的,沒有穩定的樣本儲備,再高超的場景搭建能力也是空談。
賈宇航為我們舉了很“簡單”的人臉表情采集的例子:“采集人臉表情是一件既簡單又困難的事情。簡單在于人群樣本并不難找,而困難則在于對著攝像頭切換不同表情并不是一件簡單的事情,能夠準確作出各種表情的人少之又少。例如‘痛苦’的表情,人類很難在沒有外界刺激的情況下憑空表現出來。對于這樣的需求,我們就需要更加專業,配合度更高的人群樣本。場景實驗室的第二個顯著優勢就是能夠搭配穩定的備采人群樣本。我們剛才提到的‘表情采集’項目最終是由在浙江橫店的演員群體完成的。”
雖然被采人群在性別、年齡、人種等方面的豐富度很重要,但面對越來越精細的落地場景,人群樣本的配合度更需要相應提高,如果考慮到長尾場景,甚至需要一些專業人士來參與采集,比如演員、殘障人士等等。
不論是從最開始的“識別人的臉”到“苛刻條件下識別是誰的臉”,還是從以前的“識別表情”到“識別真實的表情”。我們總能感受到人工智能在朝著越來越細分的領域發展。
數據標注精度要求從95%上升到99%+
為了算法落地,AI企業不僅需要定制化的數據采集來獲得長尾場景的數據;同時對于標注數據的精度也需要進一步提升。正如AI工程師的座右銘“garbage in, garbage out”所描述的那樣,對于模型精度要求的提高正在倒逼輸入數據的質量進一步提高。
賈宇航為我們解釋,“為了完成數據質量的跨越,我們選擇自建數據標注基地以及系統化流程。”
與場景實驗室的布局類似,Testin云測在全國范圍內也建立了數據標注基地。在這里,Testin云測的技術和項目管理能力能夠迅速轉換,成為具體數據標注業務中的生產力。
賈宇航接著說道:“為了應對專業度日益提高的標注任務,自建的數據基地能夠大幅提高數據標注的效率,在我們的標注平臺上,標注人員使用統一的工具在標準化的作業流程中對數據進行標注,在一些復雜任務上,甚至可以做到多人協同標注。而在無形的層面上,技術還能夠幫助我們迅速、深入地理解客戶需求,降低溝通成本。”
這種技術能力還滲透到了Testin云測的流程化管理中。通過標準化測試,標注云平臺將已經標注完成的數據隨機安插在標注員的標注作業中,實時把握標注人員對需求的掌握情況,從而減少了質檢環節的壓力,再加上云平臺本身的輔助質檢功能,能夠更有效地保證數據的高質量輸出。
“在路況信息數據的標注作業中,每一個圖片數據包含著幾十個屬性分類,基于平臺的協同標注,標注團隊可以劃分為幾個標注小組,針對固定的幾個屬性進行標注,這樣不但提升了標注員的效率,同時配合平臺的標準化測試和輔助質檢功能,還可以有效地對標后數據進行錯標和漏標的篩查,從而確保高質高效的數據交付。”賈宇航表示。
未來:更加安全和個性化
人工智能正在逐漸從一些抽象的概念變成我們生活當中實際的應用,但階段性地來看,AI數據數量和質量的瓶頸還將持續制約行業的發展。
對于AI行業當下的發展,賈宇航也沒有掩飾自己的擔憂:“行業內客觀存在一些要求版權歸屬甲方,但乙方依然售賣多份給不同客戶的情況。而我們首先做的就是嚴格把控數據的私密性,讓擁有數據成為企業的核心壁壘,不會存在倒買倒賣等行為。同時,我們內部有數據隔離、質量保障等一系列保護數據安全的方法,可以在確保企業數據安全的情況下,持續為數據采集和標注構建和優化自己的方案。”
盡管如此,賈宇航對于AI數據的未來依然充滿信心:“我們認為無論是過去的移動互聯網應用還是現在的AI應用都只是應用的一種,而我們想要做的事情就是幫助客戶讓其應用更有價值。從認識要用更加專業化的AI數據服務來解決越來越定制化的需求開始,我們已經在AI真正全面落地的征途上邁出了第一步。”
電子發燒友App


評論