亚洲一区二区三区日本久久九,天天日天天色天天干,欧美熟妇另类久久久不卡

網絡爬蟲的基本工作流程

通用網絡爬蟲根據預先設定的一個或若干初始種子URL開始，以此獲得初始網頁上的URL列表，在爬行過程中不斷從URL隊列中獲一個的URL，進而訪問并下載該頁面。頁面下載后頁面解析器去掉頁面上的HTML標記后得到頁面內容，將摘要、URL等信息保存到Web數據庫中，同時抽取當前頁面上新的URL，保存到URL隊列，直到滿足系統停止條件。其工作流程如圖1所示。

　網絡爬蟲的基本工作流程

主題爬蟲工作流程

主題爬蟲需要根據一定的網頁分析算法，過濾掉與主題無關的鏈接，保留有用的鏈接并將其放入等待抓取的URL隊列。然后，它會根據一定的搜索策略從待抓取的隊列中選擇下一個要抓取的URL，并重復上述過程，直到滿足系統停止條件為止。所有被抓取網頁都會被系統存儲，經過一定的分析、過濾，然后建立索引，以便用戶查詢和檢索；這一過程所得到的分析結果可以對以后的抓取過程提供反饋和指導。其工作流程如圖3所示。

　網絡爬蟲的基本工作流程

深度網絡爬蟲工作流程

1994年Dr．jillEllsworth提出DeepWeb（深層頁面）的概念，即DeepWeb是指普通搜索引擎難以發現的信息內容的Web頁面¨。DeepWeb中的信息量比普通的網頁信息量多，而且質量更高。但是普通的搜索引擎由于技術限制而搜集不到這些高質量、高權威的信息。這些信息通常隱藏在深度Web頁面的大型動態數據庫中，涉及數據集成、中文語義識別等諸多領域。如此龐大的信息資源如果沒有合理的、高效的方法去獲取，將是巨大的損失。因此，對于深度網爬行技術的研究具有極為重大的現實意義和理論價值。

　網絡爬蟲的基本工作流程