最近,我們經(jīng)常能夠聽到“XX公司做違法爬蟲”被一鍋端,程序員坐牢。還有XX公司的爬蟲給12306網(wǎng)站帶來重壓等等新聞,在看熱鬧的同時,很多人都會提出疑問——爬蟲到底是啥?今天就徹底給您講明白。
按照定義“網(wǎng)絡(luò)爬蟲”就是按照一定的規(guī)則,自動地抓取互聯(lián)網(wǎng)信息的程序或者腳本,能夠把網(wǎng)站上的信息收集回來,并且能在網(wǎng)站之間游走。爬蟲還會模擬人的行為,這看看、那瞅瞅。
比如百度、谷歌等搜索引擎就是典型的“爬蟲”,當(dāng)你搜索“科技富能量”這個關(guān)鍵詞時,搜索引擎就會到各個網(wǎng)站上把和這個關(guān)鍵詞有關(guān)的內(nèi)容找來呈現(xiàn)在結(jié)果頁面。
搜索之后,我們自然會選擇想要的結(jié)果點擊進去,這樣“被爬”的網(wǎng)站增加了點擊量,搜索引擎也獲得流量,這屬于雙贏局面。
但并非所有網(wǎng)站都愿意“被爬”。比如12306,作為中國唯一的官方火車票預(yù)訂渠道,本身每天就有海量點擊,但火車票代訂、代刷軟件(比如攜程、360等),為了掙搶票費,也會使用爬蟲軟件,惡意爬12306.
最瘋狂的時候,就是年前那段時間,公開數(shù)據(jù)表示:最高峰時1天內(nèi)頁面瀏覽量達813.4億次,1小時最高點擊量59.3億次,平均每秒164.8萬次。

令人討厭的不僅僅有搶票爬蟲,還有微博的“僵尸爬蟲”——僵尸粉
打開某流量明星的留言頁面你就會看到,海量的留言量中,除了幾個真粉的發(fā)言,剩下的都是“步調(diào)一致”的僵尸粉。為啥流量明星最愛爬蟲?因為他們可以告訴廠商——我有流量,我有海量粉絲,來找我做代言/拍戲吧!
某流量明星留言中,還帶著“文案”二字
當(dāng)然,還有中性爬蟲——比價軟件。

按照正常購物流程,你會打開京東、淘寶甚至貝殼找房,查看同一商品然后進行價格對比,費時費力。
在比價網(wǎng)站上,你搜索一樣商品,這類聚合平臺就會自動把各個電商的商品都放在你面前供你選擇,基本各大購物網(wǎng)站都能囊括在內(nèi)。這就是“爬蟲”的功勞。它們?nèi)ジ骷译娚誊浖希焉唐返膱D片和價格統(tǒng)統(tǒng)扒下來,然后在自己這里展示。
這種爬蟲方便了用戶卻“惡心”了電商,因為電商平臺會把最顯眼的位置留給交錢最多的賣家,你都爬走了,肯定按照最便宜的產(chǎn)品展示,如此一來,誰還看交過錢的商家呢?
但是電商平臺沒法像12306那樣設(shè)置驗證碼,而且爬蟲還會模擬用戶的操作行為,你能想象每打開一次商品就輸入一次驗證碼嗎?誰還愿意買東西呢?
但是電商平臺也不是吃素的,各種封禁爬蟲IP地址、故意耗費爬蟲程序資源等等方式也很常見,爬與被爬的攻防戰(zhàn),一刻不停。
最重要的是,雖然《網(wǎng)絡(luò)安全法》沒有對爬蟲行為作出明確規(guī)定,但是其司法解釋寫道“未經(jīng)授權(quán)爬取用戶手機通訊錄超過50條記錄;未經(jīng)授權(quán)抓取用戶淘寶交易記錄超過500條;未經(jīng)授權(quán)讀取用戶運營商網(wǎng)站通話記錄超過500條;未經(jīng)授權(quán)讀取用戶公積金社保記錄的超過50000條的。”可以入刑。
技術(shù)本無善惡之分,就看爬與被爬的,到底是誰。
編輯:hfy
-
網(wǎng)絡(luò)爬蟲
+關(guān)注
關(guān)注
1文章
52瀏覽量
9157 -
爬蟲
+關(guān)注
關(guān)注
0文章
87瀏覽量
8091
發(fā)布評論請先 登錄
一文讀懂TUSS4440:變壓器驅(qū)動超聲波傳感器IC的極致應(yīng)用
一文讀懂SDWAN:打破網(wǎng)絡(luò)壁壘,賦能企業(yè)數(shù)字化轉(zhuǎn)型——附云邊云科技實踐解析
京東關(guān)鍵詞搜索商品列表的Python爬蟲實戰(zhàn)
# 深度解析:爬蟲技術(shù)獲取淘寶商品詳情并封裝為API的全流程應(yīng)用
從 0 到 1:用 PHP 爬蟲優(yōu)雅地拿下京東商品詳情
一文讀懂大模型常見的10個核心概念
ALM(應(yīng)用生命周期管理)解析:一文了解其概念、關(guān)鍵階段及Perforce ALM工具推薦
Nginx限流與防爬蟲配置方案
一文讀懂 PWM控制背光亮度原理
一文讀懂高速信號眼圖
一文讀懂 ASM1042 芯片應(yīng)用技巧
一文讀懂關(guān)于爬蟲的概念
評論