很多人不知道,其實我們最常用的表格,在某些情況下也是可以用來做爬蟲的,而且爬下來的數據規整,不需要花太多時間進行數據清洗,來看看是怎么實現的。
一、Microsoft Excel
首先教大家一個用Excel爬取數據的方法,這里用的Microsoft Excel 2013版本,下面手把手開始教學~
(1)新建Excel,打開它,如下圖所示
(2)點擊“數據”——“自網站”
(3)在彈出的對話框中輸入目標網址,這里以全國實時空氣質量網站為例,點擊轉到,再導入
選擇導入位置,確定
(4)結果如下圖所示,怎么樣,是不是很贊?
(5)如果要實時更新數據,可以在“數據”——“全部更新”——“連接屬性”中進行設置,輸入更新頻率即可
非誠勿擾:正在學習python的小伙伴或者打算學習的,可以私信小編“01”領取資料!
二、Google Sheet
使用Google Sheet爬取數據前,要保證三點:使用Chrome瀏覽器、擁有Google賬號、電腦可以科學上網。如果這三個條件具備了的話,下面我們就開始吧~
(1)打開Google Sheet網站:http://www.google.cn/sheets/about/
(2)在首頁上點擊“轉到Google表格”,然后登錄自己的賬號,可以看到如下界面,再點擊“+”創建新的表格
新建的表格如下:
(3)打開要爬取的目標網站,一個全國實時空氣質量網站http://www.pm25.in/rank,目標網站上的表格結構如下圖所示
(4)回到Google sheet頁面,使用函數=IMPORTHTML(網址, 查詢, 索引),“網址”就是要爬取數據的目標網站,“查詢”中輸入“list”或“table”,這個取決于數據的具體結構類型,“索引”填阿拉伯數字,從1開始,對應著網站中定義的哪一份表格或列表
對于我們要爬取的網站,我們在Google sheet的A1單元格中輸入函數
=IMPORTHTML("http://www.pm25.in/rank","table",1),回車后就爬得數據啦
(5)將爬取好的表格存到本地
是不是感覺超級簡單?
當然,沒有學習成本的技能缺陷也是很明顯的,就是在網頁的數據排列沒那么規則的時候,或者說多個頁面的數據,以上的方法就失效了,這個時候Python就展現出它強大的威力了。
不過,話說回來,這么裝逼的技能,而且不需要學習成本,掌握了有什么不好呢,沒準什么時候就能用上了。
最后多說一句,小編是一名python開發工程師,這里有我自己整理了一套最新的python系統學習教程,包括從基礎的python腳本到web開發、爬蟲、數據分析、數據可視化、機器學習等。想要這些資料的可以關注小編,并在后臺私信小編:“01”即可領取。
-
瀏覽器
+關注
關注
1文章
1043瀏覽量
37086 -
Excel
+關注
關注
4文章
231瀏覽量
57703 -
爬蟲
+關注
關注
0文章
87瀏覽量
8092
發布評論請先 登錄
京東關鍵詞搜索商品列表的Python爬蟲實戰
# 深度解析:爬蟲技術獲取淘寶商品詳情并封裝為API的全流程應用
用 Python 給 Amazon 做“全身 CT”——可量產、可擴展的商品詳情爬蟲實戰
從 0 到 1:用 PHP 爬蟲優雅地拿下京東商品詳情
Nginx限流與防爬蟲配置方案
用于各種設備協議間做報文轉換的網關是什么
matlab appdesigner 表格組件賦值問題,求助
【HarmonyOS 5】鴻蒙應用實現發票掃描、文檔掃描輸出PDF圖片或者表格的功能
CYUSB3014從機FIFO接口圖顯示支持DQ[31:0],但表格僅表明支持DQ[15:0],哪一個是正確的?
如何堅持做難而正確的芯片研發?
如何使用表格做爬蟲
評論