網絡爬蟲的基本工作流程
通用網絡爬蟲根據預先設定的一個或若干初始種子URL開始,以此獲得初始網頁上的URL列表,在爬行過程中不斷從URL隊列中獲一個的URL,進而訪問并下載該頁面。頁面下載后頁面解析器去掉頁面上的HTML標記后得到頁面內容,將摘要、URL等信息保存到Web數據庫中,同時抽取當前頁面上新的URL,保存到URL隊列,直到滿足系統停止條件。其工作流程如圖1所示。

主題爬蟲工作流程
主題爬蟲需要根據一定的網頁分析算法,過濾掉與主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它會根據一定的搜索策略從待抓取的隊列中選擇下一個要抓取的URL,并重復上述過程,直到滿足系統停止條件為止。所有被抓取網頁都會被系統存儲,經過一定的分析、過濾,然后建立索引,以便用戶查詢和檢索;這一過程所得到的分析結果可以對以后的抓取過程提供反饋和指導。其工作流程如圖3所示。

深度網絡爬蟲工作流程
1994年Dr.jillEllsworth提出DeepWeb(深層頁面)的概念,即DeepWeb是指普通搜索引擎難以發現的信息內容的Web頁面¨。DeepWeb中的信息量比普通的網頁信息量多,而且質量更高。但是普通的搜索引擎由于技術限制而搜集不到這些高質量、高權威的信息。這些信息通常隱藏在深度Web頁面的大型動態數據庫中,涉及數據集成、中文語義識別等諸多領域。如此龐大的信息資源如果沒有合理的、高效的方法去獲取,將是巨大的損失。因此,對于深度網爬行技術的研究具有極為重大的現實意義和理論價值。

-
網絡爬蟲
+關注
關注
1文章
52瀏覽量
9157 -
爬蟲
+關注
關注
0文章
87瀏覽量
8091
發布評論請先 登錄
是德科技與三星攜手英偉達展示端到端AI-RAN驗證工作流程
虛幻引擎5在建筑可視化中的應用:趨勢、挑戰與基于Perforce P4的工作流程
安寶特方案丨AI 識別遇上 AR 工作流,PCB 質控迎來新的「黃金時代」
一張圖看懂遠動通信裝置的工作流程
芯片ATE測試詳解:揭秘芯片測試機臺的工作流程
# 深度解析:爬蟲技術獲取淘寶商品詳情并封裝為API的全流程應用
鋰電池組裝生產線——鋰電池電芯分選與組裝段工作流程
強強合作 西門子與日月光合作開發 VIPack 先進封裝平臺工作流程
ADI Power Studio工作流程與工具概述
恩智浦i.MX RT1180跨界MCU驅動EtherCAT的工作流程
網絡爬蟲的基本工作流程
評論