肏久久,国产91热爆TS人妖月奴,91久久精品一二三区色欲网站

如果是咱家公眾號(hào)的忠實(shí)粉絲就一定還記得之前咱家一篇關(guān)于NLP Privacy的文章，不出意外的話，你們是不是現(xiàn)在依然還擔(dān)心自己的隱私被輸入法竊取而瑟瑟發(fā)抖。所以，我們又來(lái)了！今天給大家討論的是NLP Privacy中一個(gè)非常核心的話題——文本對(duì)抗攻擊。

相信大家已經(jīng)非常熟悉對(duì)抗攻擊了，此類攻擊是攻擊者針對(duì)機(jī)器學(xué)習(xí)模型的輸入即數(shù)值型向量（Numeric Vectors）設(shè)計(jì)的一種可以讓模型做出誤判的攻擊。簡(jiǎn)言之，對(duì)抗攻擊就是生成對(duì)抗樣本的過(guò)程。對(duì)抗樣本的概念最初是在2014年提出的，指的是一類人為構(gòu)造的樣本，通過(guò)對(duì)原始的樣本數(shù)據(jù)添加針對(duì)性的微小擾動(dòng)所得到（該微擾不會(huì)影響人類的感知），但會(huì)使機(jī)器學(xué)習(xí)模型產(chǎn)生錯(cuò)誤的輸出[1]。因此，從上述定義可知，對(duì)抗攻擊以及對(duì)抗樣本的生成研究最開(kāi)始被用于計(jì)算機(jī)視覺(jué)領(lǐng)域。在當(dāng)時(shí)，那家伙，文章多的你看都看不完…當(dāng)然在這里我也拋出當(dāng)時(shí)寫的比較好的一篇綜述：“Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey”[2]。大家可以溫故而知新啦。

當(dāng)視覺(jué)領(lǐng)域中的對(duì)抗攻擊研究很難再有重大突破的時(shí)候（坑已滿，請(qǐng)換坑），研究人員便把目光轉(zhuǎn)移到了NLP領(lǐng)域。其實(shí)就NLP領(lǐng)域而言，垃圾郵件檢測(cè)、有害文本檢測(cè)、惡意軟件查殺等實(shí)用系統(tǒng)已經(jīng)大規(guī)模部署了深度學(xué)習(xí)模型，安全性對(duì)于這些系統(tǒng)尤為重要。但相比于圖像領(lǐng)域，NLP領(lǐng)域?qū)构舻难芯窟€遠(yuǎn)遠(yuǎn)不夠，特別是文本具有離散和前后輸入具有邏輯的特點(diǎn)使得對(duì)抗樣本的生成更具挑戰(zhàn)性，也有更多的研究空間。我們欣喜地看到，目前有越來(lái)越多的 NLP 研究者開(kāi)始探索文本對(duì)抗攻擊這一方向，以 2020 年 ACL 為例，粗略統(tǒng)計(jì)有超過(guò) 10 篇相關(guān)論文，其中最佳論文Beyond Accuracy: Behavioral Testing of NLP Models with CheckList[3]中大部分測(cè)試方法其實(shí)和文本對(duì)抗攻擊有異曲同工之妙。故在本次推文中，我們一起來(lái)探究和領(lǐng)略一下如何在NLP領(lǐng)域?qū)嵤?duì)抗攻擊，并提供一些在該領(lǐng)域繼續(xù)深入挖掘的工具和方向。

對(duì)抗攻擊的分類

對(duì)抗攻擊按攻擊者所掌握的知識(shí)來(lái)分的話，可分為以下兩類：

白盒攻擊：稱為white-box attack，也稱為open-box attack，即攻擊者對(duì)模型（包括參數(shù)、梯度等信息）和訓(xùn)練集完全了解，這種情況比較攻擊成功，但是在實(shí)際情況中很難進(jìn)行操作和實(shí)現(xiàn)。

黑盒攻擊：稱為black-box attack，即攻擊者對(duì)模型不了解，對(duì)訓(xùn)練集不了解或了解很少。這種情況攻擊很難成功但是與實(shí)際情況比較符合，因此也是主要的研究方向。

如果按攻擊者的攻擊目標(biāo)來(lái)分的話，可以分為以下兩類：

定向攻擊：稱為targeted attack，即對(duì)于一個(gè)多分類網(wǎng)絡(luò)，把輸入分類誤判到一個(gè)指定的類上

非定向攻擊：稱為non-target attack，即只需要生成對(duì)抗樣本來(lái)欺騙神經(jīng)網(wǎng)絡(luò)，可以看作是上面的一種特例。

發(fā)展歷史與方法分類

我們先談?wù)劙缀泄簦驗(yàn)榘缀泄粢子趯?shí)現(xiàn)，因此早在2014年關(guān)于對(duì)抗樣本的開(kāi)山之作“Intriguing Properties of Neural Networks”中設(shè)計(jì)了一種基于梯度的白盒攻擊方法。具體來(lái)說(shuō)，作者通過(guò)尋找最小的損失函數(shù)添加項(xiàng)，使得神經(jīng)網(wǎng)絡(luò)做出誤分類，將問(wèn)題轉(zhuǎn)化成了凸優(yōu)化。問(wèn)題的數(shù)學(xué)表述如下：

表示習(xí)得的分類映射函數(shù)，表示改變的步長(zhǎng)，公式表達(dá)了尋找使得映射到指定的類上的最小的。在此之后，許多研究人員在上述方法的基礎(chǔ)上提出了許多改進(jìn)的基于梯度的方法，具體可見(jiàn)[4-6]。

后來(lái)，研究人員逐漸從白盒攻擊的研究轉(zhuǎn)向研究黑盒攻擊，Transfer-based方法就是過(guò)渡時(shí)期的產(chǎn)物。Nicolas Papernot等人在2017年的時(shí)候利用訓(xùn)練數(shù)據(jù)可以訓(xùn)練出從中生成對(duì)抗性擾動(dòng)的完全可觀察的替代模型[7]。因此，基于Transfer的攻擊不依賴模型信息，但需要有關(guān)訓(xùn)練數(shù)據(jù)的信息。此外，[8]文獻(xiàn)證明了如果在一組替代模型上生成對(duì)抗性樣本，則在某些情況下，模型被攻擊的成功率可以達(dá)到100％（好家伙，100%真厲害）。近幾年，不同類型的攻擊方法越來(lái)越多，但總體來(lái)說(shuō)歸為以下三類：Score-based方法、Decision-based方法、Attack on Attention方法[9]（這個(gè)方法非常新，有坑可跳），前兩大類方法的相關(guān)研究和參考文獻(xiàn)可閱讀原文一探究竟，在這里不再贅述。

文本對(duì)抗攻擊

基本概念

下圖展示了文本領(lǐng)域內(nèi)實(shí)現(xiàn)對(duì)抗攻擊的一個(gè)例子。語(yǔ)句（1）為原始樣本，語(yǔ)句（2）為經(jīng)過(guò)幾個(gè)字符變換后得到的對(duì)抗樣本。深度學(xué)習(xí)模型能正確地將原始樣本判為正面評(píng)論，而將對(duì)抗樣本誤判為負(fù)面評(píng)論。而顯然，這種微小擾動(dòng)并不會(huì)影響人類的判斷。

算法的分類

首先，根據(jù)上述對(duì)抗攻擊的分類。同樣地，文本中的對(duì)抗攻擊也可以分為黑盒攻擊和白盒攻擊。除此之外，由于文本涉及到字符、詞匯、句子。因此我們可以根據(jù)添加擾動(dòng)時(shí)所操作的文本粒度可以分為字符級(jí)、單詞級(jí)和語(yǔ)句級(jí)攻擊。具體來(lái)說(shuō)，字符級(jí)攻擊是通過(guò)插入、刪除或替換字符，以及交換字符順序?qū)崿F(xiàn)；單詞級(jí)攻擊主要通過(guò)替換單詞實(shí)現(xiàn)，基于近義詞、形近詞、錯(cuò)誤拼寫等建立候選詞庫(kù)；語(yǔ)句級(jí)攻擊主要通過(guò)文本復(fù)述或插入句子實(shí)現(xiàn)。具體分類詳見(jiàn)下圖.

攻擊方式的發(fā)展和分類

根據(jù)攻擊策略和攻擊方式我們可以分為Image-to-Text（借鑒圖像領(lǐng)域的經(jīng)典算法）、基于優(yōu)化的攻擊、基于重要性的攻擊以及基于神經(jīng)網(wǎng)絡(luò)的攻擊。Image-to-Text攻擊方式的思想是將文本數(shù)據(jù)映射到連續(xù)空間，然后借鑒圖像領(lǐng)域的一些經(jīng)典算法如FGSM、JSMA等，生成對(duì)抗樣本；基于優(yōu)化的攻擊則是將對(duì)抗攻擊表述為帶約束的優(yōu)化問(wèn)題，利用現(xiàn)有的優(yōu)化技術(shù)求解，如梯度優(yōu)化、遺傳算法優(yōu)化；基于重要性的攻擊通常首先利用梯度或文本特性設(shè)計(jì)評(píng)分函數(shù)鎖定關(guān)鍵詞，然后通過(guò)文本編輯添加擾動(dòng)；基于神經(jīng)網(wǎng)絡(luò)的攻擊訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型自動(dòng)學(xué)習(xí)對(duì)抗樣本的特征，從而實(shí)現(xiàn)對(duì)抗樣本的自動(dòng)化生成。具體的算法細(xì)節(jié)大家可移步一篇寫的非常全面的綜述“Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey“。

文本對(duì)抗攻擊相關(guān)資源

文獻(xiàn)總結(jié)

如下圖所示，清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室（THUNLP）總結(jié)了各類文本對(duì)抗領(lǐng)域的相關(guān)文獻(xiàn)，其中包含但不限于工具包、綜述、文本對(duì)抗攻擊、文本對(duì)抗防御、模型魯棒性驗(yàn)證、基準(zhǔn)和評(píng)估等內(nèi)容。針對(duì)本文涉及的文本對(duì)抗攻擊領(lǐng)域，該列表收錄了句級(jí)、詞級(jí)、字級(jí)、混合四個(gè)子部分，并且還為每篇論文打上了受害模型可見(jiàn)性的標(biāo)簽：
gradient/score/decision/blind
除了提供論文 pdf 鏈接之外，如果某篇論文有公開(kāi)代碼或數(shù)據(jù)，也會(huì)附上相應(yīng)的鏈接[19]。

其中必須的綜述論文如下：

-- Analysis Methods in Neural Language Processing: A Survey. Yonatan Belinkov, James Glass. TACL 2019.
-- Towards a Robust Deep Neural Network in Text Domain A Survey. Wenqi Wang, Lina Wang, Benxiao Tang, Run Wang, Aoshuang Ye. 2019.
-- Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey. Wei Emma Zhang, Quan Z. Sheng, Ahoud Alhazmi, Chenliang Li. 2019.

文本對(duì)抗攻擊工具包

目前文本攻擊工具包為該領(lǐng)域的研究人員提供了非常好的開(kāi)發(fā)和研究基礎(chǔ)。這里介紹兩個(gè)比較常用的：

清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室開(kāi)源的OpenAttack[20]

弗吉尼亞大學(xué)祁妍軍教授領(lǐng)導(dǎo)的 Qdata 實(shí)驗(yàn)室開(kāi)發(fā)的TextAttack[21]

至于如何使用上述兩種工具包，請(qǐng)大家火速前往項(xiàng)目主頁(yè)一探究竟，并不要忘了給一個(gè)Star哦！！！

責(zé)任編輯：lq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴