“互聯(lián)網(wǎng)上有很多數(shù)據(jù)”,這么說太保守了。事實上,2020年,“數(shù)字宇宙”預(yù)計將擁有40萬億字節(jié)或40澤字節(jié)(zettabytes)的信息,一個澤字節(jié)擁有的數(shù)據(jù)足以填滿大約五分之一曼哈頓大小的數(shù)據(jù)中心。
可供分析的信息如此之多,將收集數(shù)據(jù)的任務(wù)留給AI就顯得合情合理了。網(wǎng)絡(luò)機(jī)器人能以令人難以置信的速度抓取網(wǎng)頁,提取所需的相關(guān)信息。不過,盡管許多數(shù)據(jù)科學(xué)家和營銷人員以一種完全合乎倫理的方式獲取和使用這些信息。但很遺憾,隨著網(wǎng)絡(luò)人工智能日益普及,網(wǎng)絡(luò)機(jī)器人還是逐漸被污名化了。
對人工智能的大部分負(fù)面印象是由好萊塢電影和科幻小說間接造成的,畢竟在這些作品中,即使最美好愜意的時候也要提防著AI。此外,某些web用戶以不道德的方式使用網(wǎng)絡(luò)機(jī)器人,導(dǎo)致即便是專業(yè)、誠心使用數(shù)據(jù)的人也備受打擊。
對于許多專業(yè)人士來說,網(wǎng)頁抓取仍然是必不可少的工具。那么,對于與網(wǎng)絡(luò)機(jī)器人的污名,我們能做些什么呢?
首先,網(wǎng)頁抓取是什么
你可以簡單地把網(wǎng)頁抓取行為理解為數(shù)據(jù)提取。盡管數(shù)據(jù)科學(xué)家和其他專業(yè)人士使用抓取來分析非常復(fù)雜的數(shù)字信息棧,但從網(wǎng)站復(fù)制粘貼文本的行為本身就可以被認(rèn)作一種簡單的抓取形式。
然而,就算可以在網(wǎng)站上盡情訪問,由于可用信息太多,可能也要花費(fèi)非常長的時間從來源處收集數(shù)據(jù)。大多數(shù)情況下,網(wǎng)頁抓取都是留給人工智能來完成的,人工智能會將檢索到的數(shù)據(jù)進(jìn)行透徹分析以達(dá)到各種目的。雖然這對網(wǎng)絡(luò)爬蟲來說極為便利,但網(wǎng)站所有者和旁觀者都非常擔(dān)心人工智能在網(wǎng)絡(luò)上的“濫用”
使用網(wǎng)絡(luò)機(jī)器人進(jìn)行網(wǎng)頁抓取會更好嗎
有這么多的信息要分析,求助于人工智能來收集數(shù)據(jù)理所當(dāng)然。實際上,谷歌本身就是為感興趣的各方提供網(wǎng)頁抓取工具最可信的來源之一。例如,你可以使用其數(shù)據(jù)集搜索引擎快速訪問認(rèn)為可以免費(fèi)使用的數(shù)據(jù),甚至能定制搜索,以了解這些信息是否可用于商業(yè)用途。完成這些任務(wù)只需要幾秒鐘。
如果沒有谷歌AI如此高效檢查每個網(wǎng)站的相關(guān)數(shù)據(jù),恐怕無法實現(xiàn)這樣的速度。這是一個利用人工智能以純道德的方式為研究或商業(yè)收集有用信息的完美例子,其速度之快也證明了“網(wǎng)絡(luò)機(jī)器人”如何讓執(zhí)行網(wǎng)頁抓取任務(wù)變得如此容易。
人工智能流量變得如此普遍,如今已經(jīng)占到互聯(lián)網(wǎng)流量的一半以上。即便如此,我們還是容易忽視其造成的影響。
有人認(rèn)為,人工智能在互聯(lián)網(wǎng)流量中占主導(dǎo)地位令人擔(dān)憂。讓這一問題變得更糟的原因是,有一小部分人工智能流量是由“糟糕的機(jī)器人”組成的。即使抓取的意圖很好,方法也合乎道德,人工智能的污名還是不可避免。
使用網(wǎng)絡(luò)機(jī)器人來處理大量數(shù)據(jù)是合理的步驟。除了人工智能,在網(wǎng)頁數(shù)據(jù)抓取時考慮其他必要工具也很重要。
代理如何提供幫助
使用代理進(jìn)行網(wǎng)絡(luò)抓取有很多優(yōu)點,匿名性正是其中之一。比方說,如果你想對一個競爭品牌進(jìn)行調(diào)研,并利用這些信息來確定改善自己公司發(fā)展的最佳方案,你可能不想讓別人知道自己訪問了他們的網(wǎng)站。在這種情況下,使用代理既能訪問、檢查數(shù)據(jù),又不會泄露身份,兩全其美。
做進(jìn)一步探討之前,先來快速回顧一下代理服務(wù)器:
代理服務(wù)器的設(shè)計目的是充當(dāng)用戶和web服務(wù)器之間的中間人。
功能多樣:個人和公司都能使用代理服務(wù)器來滿足特定需求。
代理的一個常見用途與網(wǎng)頁抓取有關(guān):使用代理服務(wù)器可以繞過網(wǎng)站管理員設(shè)置的限制,從而大量收集數(shù)據(jù)。
那么問題來了,為什么要設(shè)置限制呢?這些數(shù)據(jù)不是可以在網(wǎng)上免費(fèi)獲得嗎?對人類用戶來說,是的。這里有一個典型的例子。價格聚合商的整個商業(yè)模式是建立在準(zhǔn)確信息之上的,它為“我在哪里能買到價格最低的X產(chǎn)品?”這個問題提供確切答案。
盡管這對客戶來說是一個省錢的好機(jī)會,但供應(yīng)商對其他公司窺探他們的數(shù)據(jù)并不太感興趣,原因是聚合器的網(wǎng)絡(luò)爬蟲軟件(通常稱為“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)頁蜘蛛”)給網(wǎng)站帶來了額外的負(fù)載。因此,如果網(wǎng)站管理員懷疑給定的網(wǎng)絡(luò)活動不是由真正的用戶進(jìn)行的,就會限制用戶訪問網(wǎng)站。
代理的另一個實際用途是逃避審查禁令。住宅代理(Residentialproxies),顧名思義,會顯示你是來自X國的真正用戶,你可自定義來自哪個國家。對住宅代理的需求很簡單:(可疑的)網(wǎng)絡(luò)機(jī)器人活動通常來自某些國家,所以即使是來自這些國家的真正用戶也經(jīng)常遇到地域限制。
此外,當(dāng)你試圖從數(shù)據(jù)源收集數(shù)據(jù)、卻因各種原因無法訪問時,使用代理尤其有用。在網(wǎng)絡(luò)抓取時有很多使用代理的方法,但為了在數(shù)字社區(qū)中建立信任,我們建議你堅持使用那些可以建立品牌信任和權(quán)威的方法。
利用人類可見性和可信賴的品牌來對抗人工智能的污名
目前,人工智能發(fā)展速度確實超過了上網(wǎng)人數(shù)增長速度。不過,互聯(lián)網(wǎng)在未來幾年將會如何發(fā)展還不得而知,因此沒有理由立即斷定這一趨勢不可逆轉(zhuǎn),也不能斷定它代表著一種固有的消極趨勢。
要想扭轉(zhuǎn)網(wǎng)絡(luò)上有關(guān)人工智能流量的負(fù)面言論,最佳辦法就是讓互聯(lián)網(wǎng)上的人工智能使用恢復(fù)人性化。還需注意,要以建立信任的方式使用人工智能,無需考慮太多。
堅持使用由高認(rèn)知度、可信賴的品牌提供的可信賴的產(chǎn)品和服務(wù)。
堅持合乎道德的網(wǎng)頁抓取操作。不要濫用信任,忽略網(wǎng)站上robots.txt文件,或在短時間內(nèi)大量使用機(jī)器人程序。
以專業(yè)、負(fù)責(zé)的方式使用數(shù)據(jù)。核實你是否擁有將抓取獲得的數(shù)據(jù)用于預(yù)期目的的權(quán)限。
多多普及人工智能。多去和其他人說說如何以及為什么使用網(wǎng)絡(luò)抓取,讓人們對網(wǎng)絡(luò)抓取有更深的認(rèn)識。人們對使用人工智能獲取、研究大量數(shù)據(jù)的好處了解得越多,對網(wǎng)頁抓取和網(wǎng)絡(luò)機(jī)器人持負(fù)面看法的可能性就越小。
通過純粹的人工操作來手動訪問網(wǎng)站數(shù)據(jù)或許讓人很放心,但由于信息太多,這幾乎不可能。可用的數(shù)據(jù)量幾乎無窮無盡,使用人工智能是我們?yōu)g覽網(wǎng)站和盡可能高效分析數(shù)據(jù)的最佳手段。不過,它或許還需要再加點兒“人情味”。
責(zé)編AJX
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
31087瀏覽量
222324 -
AI
+關(guān)注
關(guān)注
91文章
39810瀏覽量
301479 -
網(wǎng)頁抓取
+關(guān)注
關(guān)注
0文章
3瀏覽量
1998
發(fā)布評論請先 登錄
再談低溫?zé)Y(jié)銀的應(yīng)用:從春晚四家機(jī)器人出鏡的幕后推手說起
如何使用機(jī)器人分析儀EtherCAT-Analyzer抓取主從站數(shù)據(jù)?
探索RISC-V在機(jī)器人領(lǐng)域的潛力
RK3576機(jī)器人核心:三屏異顯+八路攝像頭,重塑機(jī)器人交互與感知
小蘿卜機(jī)器人的故事
機(jī)器人競技幕后:磁傳感器芯片激活 “精準(zhǔn)感知力”
工業(yè)機(jī)器人的特點
明遠(yuǎn)智睿SSD2351開發(fā)板:語音機(jī)器人領(lǐng)域的變革力量
詳細(xì)介紹機(jī)場智能指路機(jī)器人的工作原理
【「# ROS 2智能機(jī)器人開發(fā)實踐」閱讀體驗】機(jī)器人入門的引路書
【「# ROS 2智能機(jī)器人開發(fā)實踐」閱讀體驗】+內(nèi)容初識
大象機(jī)器人攜手進(jìn)迭時空推出 RISC-V 全棧開源六軸機(jī)械臂產(chǎn)品
如何用Brower Use WebUI實現(xiàn)網(wǎng)頁數(shù)據(jù)智能抓取與分析?
富唯智能最小復(fù)合機(jī)器人的強(qiáng)大抓取實力?
讓AI和網(wǎng)絡(luò)機(jī)器人進(jìn)行網(wǎng)頁抓取、收集數(shù)據(jù)等工作,有用嗎?
評論