国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Jeff Ullman:機(jī)器學(xué)習(xí)不是數(shù)據(jù)科學(xué)的全部!統(tǒng)計(jì)學(xué)也不是

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:智源社區(qū)夢(mèng)佳 ? 作者:Jeff Ullman ? 2021-04-09 10:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,2020年圖靈獎(jiǎng)重磅出爐,頒給了哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)名譽(yù)教授 Alfred Vaino Aho 和斯坦福大學(xué)計(jì)算機(jī)科學(xué)名譽(yù)教授 Jeffrey David Ullman。

Jeff Ullman 是數(shù)據(jù)科學(xué)領(lǐng)域的巨擘,他的研究興趣包括數(shù)據(jù)庫(kù)理論、數(shù)據(jù)庫(kù)集成、數(shù)據(jù)挖掘等。在去年撰寫(xiě)的一篇評(píng)論文章中,他用淺顯的語(yǔ)言重新定義了,統(tǒng)計(jì)學(xué)、數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)之間的交叉點(diǎn),并破除了其中的誤讀。他認(rèn)為,盡管機(jī)器學(xué)習(xí)非常重要,但它遠(yuǎn)非實(shí)現(xiàn)有效數(shù)據(jù)科學(xué)所需的唯一工具。

01Have we missed the boat again?

多年來(lái),數(shù)據(jù)庫(kù)領(lǐng)域有一種言論認(rèn)為,數(shù)據(jù)庫(kù)系統(tǒng)正在變得無(wú)關(guān)緊要。

大家似乎持一種絕望的心態(tài)。“have we missed the boat-again”這句話,在數(shù)據(jù)庫(kù)社區(qū)里似乎司空見(jiàn)慣[8]。

但我想論證,數(shù)據(jù)庫(kù)以及由數(shù)據(jù)庫(kù)研究而產(chǎn)生的技術(shù),對(duì)于“數(shù)據(jù)科學(xué)”仍然是必不可少的,特別是在解決科學(xué)、商業(yè)、醫(yī)學(xué)等應(yīng)用領(lǐng)域的重要問(wèn)題上。

數(shù)據(jù)庫(kù)系統(tǒng)的核心,一直是如何盡最大可能處理最大的數(shù)據(jù)量,無(wú)論是以MB為單位的企業(yè)工資單數(shù)據(jù)、TB為單位的基因組信息,還是PB為單位的的衛(wèi)星輸出信息。

因此,數(shù)據(jù)庫(kù)的工作就是:研究一切相關(guān)數(shù)據(jù)。

為了論證這一觀點(diǎn),我主要回答三個(gè)問(wèn)題:

1. 統(tǒng)計(jì)真的是數(shù)據(jù)科學(xué)的重要組成部分嗎?

2. 機(jī)器學(xué)習(xí)就是數(shù)據(jù)科學(xué)的全部嗎?

3. 數(shù)據(jù)科學(xué)是否會(huì)對(duì)社會(huì)規(guī)范是否構(gòu)成威脅?

我對(duì)這三個(gè)問(wèn)題的回答都是“no”。我將試著依次回答這三個(gè)問(wèn)題。

02數(shù)據(jù)科學(xué) vs. 統(tǒng)計(jì)學(xué):誰(shuí)是誰(shuí)的子集?

幾年前,我受邀參加了國(guó)家研究委員會(huì)(NRC)一個(gè)叫做“數(shù)據(jù)-科學(xué)-教育圓桌會(huì)議”的小組(詳見(jiàn) [16])。

這個(gè)圓桌不是由 NRC 的計(jì)算機(jī)科學(xué)部門(mén)組織的,而是由統(tǒng)計(jì)部門(mén)組織的。參與者中,統(tǒng)計(jì)學(xué)家和計(jì)算機(jī)科學(xué)家的數(shù)量差不多,加上其他學(xué)科的一些人。當(dāng)時(shí)的收獲主要是看統(tǒng)計(jì)學(xué)家如何思考這個(gè)數(shù)據(jù)的世界及其應(yīng)用。最明顯的一點(diǎn)是,統(tǒng)計(jì)學(xué)領(lǐng)域?qū)?shù)據(jù)科學(xué)視為自己的領(lǐng)域。

公平地講,首先讓我們明確一點(diǎn),我非常尊重統(tǒng)計(jì)學(xué)家和他們所做的工作。統(tǒng)計(jì)學(xué)在現(xiàn)代數(shù)據(jù)研究中變得越來(lái)越重要,包括但不限于機(jī)器學(xué)習(xí)。許多統(tǒng)計(jì)學(xué)家開(kāi)始像數(shù)據(jù)庫(kù)界或者更其他計(jì)算機(jī)科學(xué)界那樣,關(guān)注計(jì)算和數(shù)據(jù)分析。僅舉一個(gè)小例子,我最喜歡的技術(shù)之一是局部敏感哈希算法(LSH),這是一個(gè)直接來(lái)源于數(shù)據(jù)庫(kù)社區(qū)的想法。

然而,我在斯坦福大學(xué)統(tǒng)計(jì)部門(mén)的一位同事 Art Owen 向我展示了關(guān)鍵步驟——最小哈希(minhashing),這一步驟很大程度上加速了這個(gè)過(guò)程——這是我們幾年前就應(yīng)該能夠弄清楚的,但是沒(méi)有弄清楚。

然而,我在圓桌會(huì)議上的經(jīng)驗(yàn)也讓我感覺(jué)到,統(tǒng)計(jì)界的一些人正在努力將統(tǒng)計(jì)定義為數(shù)據(jù)科學(xué)的核心組成部分。相比之下,我更傾向于把高效處理大規(guī)模數(shù)據(jù)的算法和技術(shù)視為數(shù)據(jù)科學(xué)的中心。人們普遍認(rèn)為,數(shù)據(jù)科學(xué)是一門(mén)結(jié)合了多個(gè)領(lǐng)域知識(shí)的學(xué)科,我對(duì)此完全贊同。但這些領(lǐng)域究竟是什么,它們又是如何相互作用的呢?

這個(gè)問(wèn)題如此重要,以至于不同社區(qū)紛紛發(fā)表維恩圖來(lái)證明他們自己在數(shù)據(jù)科學(xué)中的中心地位。最近有一篇文章[10]對(duì)這些圖表進(jìn)行了總結(jié)和評(píng)論。其他維恩圖表示相關(guān)的所有觀點(diǎn),請(qǐng)查詢維基百科數(shù)據(jù)科學(xué)維恩圖。

2.1康威圖表

由于 Drew Conway的緣故(德魯 · 康威,美國(guó)數(shù)據(jù)科學(xué)家,因其對(duì)數(shù)據(jù)科學(xué)的維恩圖定義以及將數(shù)據(jù)科學(xué)應(yīng)用于研究恐怖主義而聞名),統(tǒng)計(jì)學(xué)家們都習(xí)慣使用特定的圖表。這個(gè)圖表顯示了三個(gè)相互交叉的集合: “黑客技能”、“數(shù)學(xué)和統(tǒng)計(jì)學(xué)”和“實(shí)質(zhì)性專業(yè)知識(shí)”。在圓桌會(huì)議上,這個(gè)圖表被多次展示,來(lái)說(shuō)明統(tǒng)計(jì)學(xué)的重要性,我還看到統(tǒng)計(jì)學(xué)家在其他幾個(gè)場(chǎng)合展示同樣的圖表,以解釋他們的領(lǐng)域?qū)?shù)據(jù)科學(xué)的重要性。我復(fù)制了圖1中的圖表,但是我添加了一些點(diǎn)評(píng)來(lái)解釋圖表中存在誤區(qū)之處。(如下圖)

圖1:數(shù)據(jù)科學(xué)的康威維恩圖

事實(shí)上,幾乎圖表中的每一個(gè)區(qū)域在某種程度上都有誤導(dǎo)性。

1、首先,一個(gè)小問(wèn)題: 所謂的“實(shí)質(zhì)性專門(mén)知識(shí)”一般要統(tǒng)稱為”領(lǐng)域知識(shí)”或類(lèi)似的東西。

2、最嚴(yán)重的問(wèn)題是將計(jì)算機(jī)科學(xué)稱為“黑客技能”。計(jì)算機(jī)科學(xué)給數(shù)據(jù)科學(xué)帶來(lái)的遠(yuǎn)不止是編寫(xiě)代碼的能力。我們提供算法、模型和框架,來(lái)解決各種各樣的問(wèn)題。所有這些在處理數(shù)據(jù)時(shí)都是必不可少的。

3、“傳統(tǒng)研究”在圖中顯示為數(shù)學(xué)/統(tǒng)計(jì)與應(yīng)用的交叉領(lǐng)域。換句話說(shuō),在這種形式的研究中,人們只考慮實(shí)際應(yīng)用,而不編寫(xiě)任何代碼,因此不會(huì)影響現(xiàn)實(shí)世界。我不知道這是哪來(lái)的傳統(tǒng),但我認(rèn)為,這可不是數(shù)據(jù)庫(kù)社區(qū)的傳統(tǒng)。

4、機(jī)器學(xué)習(xí)在這個(gè)圖表中有一個(gè)奇怪的位置。它被描述為“黑客”加上數(shù)學(xué)/統(tǒng)計(jì)。這意味著機(jī)器學(xué)習(xí)和實(shí)際應(yīng)用沒(méi)有任何關(guān)系。實(shí)際上,它與應(yīng)用之間有著千絲萬(wàn)縷的聯(lián)系,這就是為什么今天機(jī)器學(xué)習(xí)的算法如此受重視,不僅在數(shù)據(jù)庫(kù)界,而且在整個(gè)計(jì)算機(jī)科學(xué)界都是如此。

5.然后還有 Conway 所說(shuō)的“危險(xiǎn)區(qū)域”——通過(guò)編寫(xiě)代碼來(lái)解決應(yīng)用領(lǐng)域中的問(wèn)題,而不需要統(tǒng)計(jì)學(xué)家的明智指導(dǎo)。幾乎所有的數(shù)據(jù)科學(xué)都是這樣的。舉一個(gè)例子,谷歌和其他郵件服務(wù)商在檢測(cè)網(wǎng)絡(luò)釣魚(yú)郵件方面做得很好。有多好?我們真的不知道,即使我們今天可以做一個(gè)統(tǒng)計(jì)分析,明天也不會(huì)奏效,因?yàn)檫@種威脅是不斷變化的。真正的危險(xiǎn)是我們本來(lái)可以做得更好,卻放任那些騙子騙走可憐蟲(chóng)們畢生的積蓄。

2.2我的維恩圖

我也提出了自己的維恩圖(圖2) ,我相信它能更好地描述這些領(lǐng)域之間的關(guān)系。有計(jì)算機(jī)科學(xué)和各個(gè)其他領(lǐng)域的科學(xué),數(shù)據(jù)科學(xué)就位于這些領(lǐng)域交叉的某些地方。機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)的一個(gè)分支——是當(dāng)前一個(gè)非常重要的子領(lǐng)域。機(jī)器學(xué)習(xí)一部分可以用于數(shù)據(jù)科學(xué),也有很多其他和計(jì)算相關(guān)的用途。

這當(dāng)中很多應(yīng)用現(xiàn)在被認(rèn)為是“人工智能”,比如無(wú)人駕駛汽車(chē)或入侵檢測(cè)。最后,我認(rèn)為數(shù)學(xué)和統(tǒng)計(jì)學(xué)對(duì)于所有的計(jì)算機(jī)科學(xué)都是非常重要的工具,雖然我圖表中所畫(huà)的小氣泡并沒(méi)有充分展示出它們的重要性。這樣畫(huà)是為了強(qiáng)調(diào)它們并不真正直接影響領(lǐng)域科學(xué),而是通過(guò)在它們的幫助下開(kāi)發(fā)出的軟件來(lái)產(chǎn)生影響。

圖2: 計(jì)算機(jī)科學(xué)、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)之間的關(guān)系(個(gè)人觀點(diǎn))

2.3最大的區(qū)別: 數(shù)據(jù)庫(kù)和統(tǒng)計(jì)學(xué)價(jià)值體系

我所畫(huà)的圖中最有爭(zhēng)議的是,數(shù)學(xué)/統(tǒng)計(jì)學(xué)并不能直接解決領(lǐng)域的應(yīng)用。畢竟,康威圖所說(shuō)的“傳統(tǒng)研究”就是這么做的。但是,盡管應(yīng)用程序和數(shù)學(xué)/統(tǒng)計(jì)學(xué)之間可能存在繞過(guò)計(jì)算以外的交互,但我認(rèn)為這種交互很少會(huì)從應(yīng)用層面產(chǎn)生什么實(shí)際的好處。

為了說(shuō)明這種區(qū)別,我們來(lái)看一下數(shù)據(jù)科學(xué)教育圓桌會(huì)議第四次會(huì)議的報(bào)告[14]。其中討論的一部分集中在美國(guó)統(tǒng)計(jì)協(xié)會(huì)舉辦的“黑客馬拉松”上,名為“Datafest”。從表面上看,這個(gè)活動(dòng)就像我們通常看到的計(jì)算機(jī)科學(xué)專業(yè)學(xué)生參加的黑客馬拉松。競(jìng)賽團(tuán)隊(duì)將得到一個(gè)來(lái)自某個(gè)應(yīng)用領(lǐng)域的大數(shù)據(jù)集,但是在競(jìng)賽評(píng)分方面有很大的不同。評(píng)分的焦點(diǎn)不在于是否解決了什么具體的問(wèn)題,以及解決方案的質(zhì)量如何。

相反,大獎(jiǎng)?lì)C給了“最佳數(shù)據(jù)可視化、最佳外部數(shù)據(jù)使用和最佳洞察力”。換句話說(shuō),黑客馬拉松上獲獎(jiǎng)是因?yàn)槟阕隽艘恍┙y(tǒng)計(jì)學(xué)家感興趣的事情,而不是解決了別人的實(shí)際問(wèn)題。我希望讀者能從另一個(gè)角度看問(wèn)題,即目標(biāo)是服務(wù),而不是自?shī)首詷?lè)。面向計(jì)算機(jī)科學(xué)的 Kaggle 競(jìng)賽[13]正是如此。

03莫把萬(wàn)物歸為機(jī)器學(xué)習(xí)

現(xiàn)在,讓我們來(lái)看看機(jī)器學(xué)習(xí)的興起是如何影響數(shù)據(jù)的使用的。毫無(wú)疑問(wèn),機(jī)器學(xué)習(xí)已經(jīng)對(duì)我們利用數(shù)據(jù)解決問(wèn)題的能力產(chǎn)生了巨大的影響。然而,我并不認(rèn)為機(jī)器學(xué)習(xí)可以完全取代數(shù)據(jù)庫(kù)社區(qū)開(kāi)發(fā)的算法。我希望讀者可以考慮三個(gè)問(wèn)題:

1. 許多涉及“大數(shù)據(jù)”的問(wèn)題其實(shí)并不是真正的機(jī)器學(xué)習(xí)問(wèn)題;

2. 很多機(jī)器學(xué)習(xí)倡導(dǎo)者會(huì)把原本不屬于機(jī)器學(xué)習(xí)的方法歸類(lèi)到其中;

3. 許多機(jī)器學(xué)習(xí)方法產(chǎn)生的神秘模型不可解釋或不可證明。

3.1 機(jī)器學(xué)習(xí)并非數(shù)據(jù)科學(xué)的全部

我認(rèn)為,機(jī)器學(xué)習(xí)的一個(gè)公平的定義是利用數(shù)據(jù)創(chuàng)建某種模型的算法,并從中可以得到問(wèn)題的答案。例如,可以使用機(jī)器學(xué)習(xí)建立垃圾郵件模型,將給定的電子郵件來(lái)喂養(yǎng)模型,從而判斷是或不是垃圾郵件。但并非所有有用的解決方案都可以用模型來(lái)表示。例如,我們?cè)谇懊嫣岬搅司植棵舾泄?shù)據(jù)庫(kù)(LSH) ,它是數(shù)據(jù)庫(kù)社區(qū)處理數(shù)據(jù)的一種重要技術(shù)。LSH 是一種用于在數(shù)據(jù)集中查找類(lèi)似項(xiàng)的技術(shù),使用它就不必查看所有數(shù)據(jù)對(duì)了。在實(shí)際應(yīng)用中,LSH 是一個(gè)非常強(qiáng)大的工具,但是它不屬于機(jī)器學(xué)習(xí)模型。

3.2 機(jī)器學(xué)習(xí)倡導(dǎo)者有時(shí)把原本不屬于機(jī)器學(xué)習(xí)的方法歸入其中

比如說(shuō),聚類(lèi),它被定義為機(jī)器學(xué)習(xí)的一個(gè)分支,盡管早在機(jī)器學(xué)習(xí)出現(xiàn)之前,聚類(lèi)就已經(jīng)被研究過(guò)了。梯度下降法是另一個(gè)早于機(jī)器學(xué)習(xí)的例子,然而不知何故被普遍認(rèn)為是一個(gè)機(jī)器學(xué)習(xí)的分支。另一個(gè)重要的例子是關(guān)聯(lián)規(guī)則(一種常用的無(wú)監(jiān)督學(xué)習(xí)算法)。關(guān)聯(lián)規(guī)則于1993-1994年由拉凱什 · 阿格拉瓦爾和朋友首創(chuàng),比幾乎所有的機(jī)器學(xué)習(xí)概念都要早。我甚至記得曾經(jīng)和一位機(jī)器學(xué)習(xí)的倡導(dǎo)者談起,他提出 LSH“一定是機(jī)器學(xué)習(xí),因?yàn)樗娴氖且粋€(gè)很好的方法。”但事實(shí)上,LSH 就是一個(gè)與機(jī)器學(xué)習(xí)毫無(wú)關(guān)系的大數(shù)據(jù)算法。

3.3 解釋能力

通常,機(jī)器學(xué)習(xí)算法會(huì)得出正確的結(jié)論,而這些結(jié)論只有通過(guò)所展示的模型才能夠解釋。而這種模型往往是如此復(fù)雜,以至于對(duì)于普通用戶來(lái)說(shuō)毫無(wú)意義。更重要的是,這個(gè)模型,即便能夠給出正確的診斷,但可能它的推理隱藏在處理一張百萬(wàn)像素的圖像中。另一方面,有時(shí)候,我們有權(quán)要求解釋。例如,如果你的保險(xiǎn)公司提高了你的保險(xiǎn)費(fèi)率,原因是一些預(yù)測(cè)汽車(chē)事故的模型顯示你的事故發(fā)生率提高了,至少你得知道為什么會(huì)這樣。

但是,非機(jī)器學(xué)習(xí)方法通常比機(jī)器學(xué)習(xí)模型更可解釋。為了看出區(qū)別,以通過(guò)關(guān)聯(lián)規(guī)則識(shí)別垃圾郵件為例。產(chǎn)生一組“規(guī)則”,在這種情況下可以是一組單詞,它們?cè)陔娮余]件中的出現(xiàn)表明它是垃圾郵件。

您可能認(rèn)為這些規(guī)則就是垃圾郵件的模型,這也就是為什么機(jī)器學(xué)習(xí)倡導(dǎo)者認(rèn)為關(guān)聯(lián)規(guī)則屬于機(jī)器學(xué)習(xí)。但實(shí)際上,用于尋找關(guān)聯(lián)規(guī)則的算法并沒(méi)有從數(shù)據(jù)中“學(xué)習(xí)”到一個(gè)模型。

他們只是簡(jiǎn)單地計(jì)算包含某些單詞的垃圾郵件的數(shù)量,如果這個(gè)數(shù)量足夠高,他們就宣布一條規(guī)則,即包含這些單詞的郵件是垃圾郵件。假如一個(gè)規(guī)則說(shuō),包含{ Nigerian,prince }單詞的電子郵件是垃圾郵件。

相比之下,即使是最簡(jiǎn)單的機(jī)器學(xué)習(xí)技術(shù),比如學(xué)習(xí)每個(gè)可能的單詞的(正負(fù))權(quán)重,以及在權(quán)重總和超過(guò)閾值時(shí)聲明是垃圾郵件,也比基于關(guān)聯(lián)規(guī)則的解決方案更準(zhǔn)確。

但問(wèn)題是關(guān)聯(lián)規(guī)則方法是可解釋的,而機(jī)器學(xué)習(xí)模型則不能。如果我真的是一個(gè)尼日利亞王子,我所有的電子郵件都被關(guān)聯(lián)規(guī)則方法判定為垃圾郵件,那么至少我可以理解其中的原因。而另一方面,如果你問(wèn) gmail 為什么它判斷某些東西是垃圾郵件,它通常的回答類(lèi)似于“它看起來(lái)像其他垃圾郵件。”也就是說(shuō),gmail在使用的模型告訴你它是垃圾郵件,其余的無(wú)可奉告。

04我們不要責(zé)怪?jǐn)?shù)據(jù)

我們經(jīng)常會(huì)把社會(huì)的弊病歸咎于數(shù)據(jù)。錯(cuò)誤主要來(lái)源于:

1. 人們有意或無(wú)意地錯(cuò)誤使用數(shù)據(jù),或

2. 數(shù)據(jù)忠實(shí)地反映了現(xiàn)實(shí)問(wèn)題。

4.1 數(shù)據(jù)濫用

在數(shù)據(jù)-科學(xué)-教育圓桌會(huì)議上,在第五次會(huì)議上有一個(gè)關(guān)于數(shù)據(jù)倫理的討論[15]。舉例說(shuō)明,一個(gè)城市希望在犯罪高發(fā)的地區(qū)部署警力。警察們手握逮捕發(fā)生地的數(shù)據(jù),結(jié)果是他們?cè)谀切┑貐^(qū)確實(shí)逮捕了更多的人。但是,逮捕行動(dòng)并不僅僅反映犯罪的發(fā)生,也反映了警察到場(chǎng)進(jìn)行逮捕行動(dòng)本身。數(shù)據(jù)造成了誤區(qū)。就是說(shuō),歷史原因,警察優(yōu)先被派往某些地區(qū),數(shù)據(jù)真實(shí)地反映出,在那些地區(qū)有更多的人被捕。也許本質(zhì)上只是因?yàn)椋诰Σ蛔愕牡胤剑堵瘦^低。

數(shù)據(jù)可能使偏見(jiàn)永久化的另一個(gè)常見(jiàn)例子,一家公司在決定晉升時(shí)總是歧視婦女。他們希望利用機(jī)器學(xué)習(xí)建立一個(gè)AI系統(tǒng),來(lái)處理簡(jiǎn)歷,并識(shí)別那些與他們成功晉升員工相似的特征。

但數(shù)據(jù)顯示,女性候選人往往不會(huì)成功,機(jī)器學(xué)習(xí)算法便從數(shù)據(jù)中學(xué)習(xí),從而拒絕女性的申請(qǐng)。這些數(shù)據(jù)再次延續(xù)了現(xiàn)有的偏見(jiàn)。但是這些數(shù)據(jù)并沒(méi)有產(chǎn)生偏見(jiàn),而是人產(chǎn)生了偏見(jiàn)。

4.2 數(shù)據(jù)反映了一個(gè)我們不喜歡的世界

有一種對(duì)數(shù)據(jù)使用的指責(zé)是,由數(shù)據(jù)產(chǎn)生的系統(tǒng)反映了說(shuō)話者所反對(duì)的社會(huì)的某些東西。這種誤讀的一個(gè)明顯例子涉及 Word2Vec [13] ,這是谷歌幾年前開(kāi)發(fā)的一個(gè)系統(tǒng)(后來(lái)被BERT所取代) ,該系統(tǒng)將單詞嵌入到高維向量空間中,從而使具有相似意義的單詞具有相近的向量。直觀的想法是看看通常圍繞在單詞 w 周?chē)膯卧~。那么 w 的向量就是與其周?chē)P(guān)聯(lián)單詞的方向的加權(quán)組合。例如,我們預(yù)期「可口可樂(lè)」和「百事可樂(lè)」有相似的向量,因?yàn)槿藗冋務(wù)撍鼈兊姆绞酱笾孪嗤?/p>

當(dāng)觀察到某些向量方程的規(guī)律時(shí),問(wèn)題就出現(xiàn)了,例如作為向量,

London ? England + France = Paris

也就是說(shuō),倫敦和巴黎,作為各自國(guó)家的首都和最大的城市,周?chē)性S多反映這種地位的詞匯。我們預(yù)期倫敦周?chē)鷷?huì)有更多與英格蘭有關(guān)的詞匯,所以把它們拿走,代之以與法國(guó)有關(guān)的詞匯。

這個(gè)觀察結(jié)果無(wú)關(guān)緊要,但是其他方程式引起了一些嚴(yán)重的爭(zhēng)議,例如,

doctor ? man + woman = nurse

這個(gè)方程式,它是在要求“給我找一個(gè)像醫(yī)生一樣的職業(yè)詞匯,但要更傾向于女性。”。大約50% 的醫(yī)生是女性,但接近90% 的護(hù)士是女性。我們希望醫(yī)生和護(hù)士這兩個(gè)詞是相似的,但是后者更多地出現(xiàn)在「她」這樣的詞附近。所以這個(gè)等式是有一定道理的。

這些負(fù)面例子真正反映的是,在這個(gè)社會(huì)中,女性更有可能和護(hù)理崗位聯(lián)系到一起。我同意,很可能在不遠(yuǎn)的將來(lái),情況會(huì)變化。但我的觀點(diǎn)是: 不要責(zé)怪?jǐn)?shù)據(jù)。像 Word2Vec 或者 BERT 這樣的系統(tǒng),當(dāng)在一個(gè)像維基百科這樣的大型語(yǔ)料庫(kù)上訓(xùn)練時(shí),將會(huì)反映出廣大公眾使用的語(yǔ)言,而這種數(shù)據(jù)的使用又會(huì)反映出人們普遍認(rèn)為是真實(shí)的東西,不管我們是否喜歡這個(gè)真實(shí)。

The Last Word

我希望讀者可以吸收到以下想法:

?數(shù)據(jù)及其管理仍然是數(shù)據(jù)科學(xué)的本質(zhì)。

?盡管機(jī)器學(xué)習(xí)非常重要,但它遠(yuǎn)非實(shí)現(xiàn)有效數(shù)據(jù)科學(xué)所需的唯一工具或想法。

?盡管數(shù)據(jù)有誤用的情況,但如果數(shù)據(jù)反映的是世界的本來(lái)面目,而不是我們希望的那樣,我們就不應(yīng)該責(zé)怪?jǐn)?shù)據(jù)本身。

原文鏈接為:http://sites.computer.org/debull/A20june/p8.pdf

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:圖靈獎(jiǎng)得主Jeff Ullman直言:機(jī)器學(xué)習(xí)不是數(shù)據(jù)科學(xué)的全部!統(tǒng)計(jì)學(xué)也不是

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    手把手教你學(xué)51單片機(jī)-C語(yǔ)言版

    特色 1、實(shí)踐為主,理論與實(shí)踐相結(jié)合 現(xiàn)階段,學(xué)習(xí)單片機(jī)不是為了應(yīng)付考試,不是為了去撰寫(xiě)論文,而是真正掌握單片機(jī)開(kāi)發(fā)技術(shù)。因此本書(shū)主要起到一個(gè)輔導(dǎo)實(shí)踐的作用,通過(guò)每一章節(jié)的
    發(fā)表于 03-05 11:47

    銷(xiāo)冠必備之六脈神劍:干銷(xiāo)售三年還沒(méi)突破?你可能缺的不是努力,是系統(tǒng)

    芯片是標(biāo)品,但客勤關(guān)系卻是定制。銷(xiāo)冠賣(mài)的是量身定制的解決方案,不是冰冷的產(chǎn)品說(shuō)明書(shū)。頂級(jí)銷(xiāo)售不是天生的,是一招一式練出來(lái)的。 六脈神劍不是孤立的絕招,而是互相加持的系統(tǒng)。
    的頭像 發(fā)表于 02-20 14:49 ?4131次閱讀
    銷(xiāo)冠必備之六脈神劍:干銷(xiāo)售三年還沒(méi)突破?你可能缺的<b class='flag-5'>不是</b>努力,是系統(tǒng)

    電子廠效率升級(jí)秘訣:UV膠10秒固化,產(chǎn)能翻倍不是夢(mèng)

    電子廠效率升級(jí)秘訣:UV膠10秒固化,產(chǎn)能翻倍不是夢(mèng)
    的頭像 發(fā)表于 01-12 17:06 ?246次閱讀
    電子廠效率升級(jí)秘訣:UV膠10秒固化,產(chǎn)能翻倍<b class='flag-5'>不是</b>夢(mèng)

    機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個(gè)常見(jiàn)錯(cuò)誤與局限性

    ,并驗(yàn)證輸出結(jié)果,就能不斷提升專業(yè)技能,養(yǎng)成優(yōu)秀數(shù)據(jù)科學(xué)家的工作習(xí)慣。需避免的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)數(shù)據(jù)
    的頭像 發(fā)表于 01-07 15:37 ?191次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 個(gè)常見(jiàn)錯(cuò)誤與局限性

    鴻蒙系統(tǒng)對(duì)手機(jī)市場(chǎng)會(huì)產(chǎn)生怎樣的影響?現(xiàn)在汽車(chē)是不是用上鴻蒙系統(tǒng)了?

    鴻蒙系統(tǒng)對(duì)手機(jī)市場(chǎng)會(huì)產(chǎn)生怎樣的影響?現(xiàn)在汽車(chē)是不是用上鴻蒙系統(tǒng)了?
    發(fā)表于 12-04 20:47

    開(kāi)源不是削弱競(jìng)爭(zhēng)力,而是新護(hù)城河的開(kāi)始

    過(guò)去十年,是開(kāi)源軟件徹底改變世界的十年。Linux 驅(qū)動(dòng)著全球服務(wù)器,TensorFlow 讓AI走出實(shí)驗(yàn)室,Node-RED 讓工業(yè)數(shù)據(jù)流動(dòng)起來(lái),Kubernetes 則成為云計(jì)算的操作系統(tǒng)
    的頭像 發(fā)表于 11-06 14:26 ?381次閱讀

    利用 Banana Pi BPI-CM5 Pro(ARMSoM CM5 SoM) 加速保護(hù)科學(xué)

    損壞的風(fēng)險(xiǎn)(所有浸入水中的技術(shù)設(shè)備都是如此),這意味著數(shù)據(jù)可能會(huì)在不知不覺(jué)中丟失,而基線數(shù)據(jù)集的后續(xù)缺口可能會(huì)妨礙科學(xué)家得出具有統(tǒng)計(jì)意義的可靠結(jié)論。 在邊緣部署深度
    發(fā)表于 10-27 09:18

    AI/嵌入式轉(zhuǎn)行,華清遠(yuǎn)見(jiàn)虛擬仿真系統(tǒng)幫你避開(kāi)3個(gè)無(wú)效學(xué)習(xí)陷阱,牢記崗位導(dǎo)向邏輯

    轉(zhuǎn)行學(xué)AI/嵌入式的人里,80%會(huì)陷入“學(xué)了沒(méi)用、越學(xué)越慌”的怪圈——不是因?yàn)椴粔蚺Γ菑囊婚_(kāi)始就踩了“違背學(xué)習(xí)規(guī)律”的坑。這些誤區(qū)看似是“選課失誤”,本質(zhì)是沒(méi)搞懂“轉(zhuǎn)行
    的頭像 發(fā)表于 10-17 16:22 ?385次閱讀
    AI/嵌入式轉(zhuǎn)行,華清遠(yuǎn)見(jiàn)虛擬仿真系統(tǒng)幫你避開(kāi)3個(gè)無(wú)效<b class='flag-5'>學(xué)習(xí)</b>陷阱,牢記崗位導(dǎo)向邏輯

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用

    和量子計(jì)算的兩項(xiàng)新興的技術(shù),將在生產(chǎn)假說(shuō)方面發(fā)揮重要作用,從而改變科學(xué)發(fā)現(xiàn)的范式。 生成式AI: 2、窮舉搜索 3、分析排錯(cuò)與組合優(yōu)化 分析排錯(cuò)是生成假說(shuō)的重要手段。強(qiáng)化學(xué)習(xí)在優(yōu)化假說(shuō)組合、尋找
    發(fā)表于 09-17 11:45

    電焊機(jī)EMC測(cè)試整改:基于200+案例的統(tǒng)計(jì)學(xué)分析

    深圳南柯電子|電焊機(jī)EMC測(cè)試整改:基于200+案例的統(tǒng)計(jì)學(xué)分析
    的頭像 發(fā)表于 08-06 10:56 ?1290次閱讀

    超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)級(jí)芯片(SoC)上解鎖邊緣人工智能應(yīng)用.

    Neuton 是一家邊緣AI 公司,致力于讓機(jī)器 學(xué)習(xí)模型更易于使用。它創(chuàng)建的模型比競(jìng)爭(zhēng)對(duì)手的框架小10 倍,速度快10 倍,甚至可以在最先進(jìn)的邊緣設(shè)備上進(jìn)行人工智能處理。在這篇博文中,我們將介紹
    發(fā)表于 07-31 11:38

    任正非說(shuō) AI已經(jīng)確定是第四次工業(yè)革命 那么如何從容地加入進(jìn)來(lái)呢?

    處理,TensorFlow、PyTorch用于構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)。以Python為例,通過(guò)編寫(xiě)簡(jiǎn)單的程序來(lái)處理數(shù)據(jù),如讀取數(shù)據(jù)集、進(jìn)行數(shù)據(jù)清洗和預(yù)處理,這是進(jìn)入AI領(lǐng)域的基本技能。 學(xué)習(xí)機(jī)器
    發(fā)表于 07-08 17:44

    不是8萬(wàn)不是13萬(wàn),高速風(fēng)筒為什么偏偏是11萬(wàn)轉(zhuǎn)速呢?--【其利天下】

    在追求高效便捷的現(xiàn)代生活中,高速風(fēng)筒已成為眾多消費(fèi)者吹干頭發(fā)、打造精致造型的得力助手。那么從技術(shù)角度看,為什么市面上大多數(shù)高速風(fēng)筒驅(qū)動(dòng)方案的轉(zhuǎn)速集中在110000rpm這一數(shù)值,而不是
    的頭像 發(fā)表于 06-26 16:00 ?2043次閱讀
    <b class='flag-5'>不是</b>8萬(wàn)<b class='flag-5'>也</b><b class='flag-5'>不是</b>13萬(wàn),高速風(fēng)筒為什么偏偏是11萬(wàn)轉(zhuǎn)速呢?--【其利天下】

    光纖跳線是不是就是尾纖

    光纖跳線和尾纖不是同一種東西,它們?cè)诙鄠€(gè)方面存在明顯區(qū)別: 定義與用途 光纖跳線 定義:光纖跳線叫光纖連接器,是兩端都帶有連接器的光纖線纜,用于連接設(shè)備與設(shè)備、設(shè)備與光纖配線架等,實(shí)現(xiàn)光信號(hào)的傳輸
    的頭像 發(fā)表于 06-18 09:58 ?1022次閱讀

    機(jī)器學(xué)習(xí)賦能的智能光子學(xué)器件系統(tǒng)研究與應(yīng)用

    與應(yīng)用 在人工智能與光子學(xué)設(shè)計(jì)融合的背景下,科研的邊界持續(xù)擴(kuò)展,創(chuàng)新成果不斷涌現(xiàn)。從理論模型的整合到光學(xué)現(xiàn)象的復(fù)雜模擬,從數(shù)據(jù)驅(qū)動(dòng)的探索到光場(chǎng)的智能分析,機(jī)器學(xué)習(xí)正以前所未有的動(dòng)力推動(dòng)
    的頭像 發(fā)表于 06-04 17:59 ?636次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>賦能的智能光子<b class='flag-5'>學(xué)</b>器件系統(tǒng)研究與應(yīng)用