首頁(yè)技術(shù)文章正文

Python爬蟲之增量式爬蟲和深層網(wǎng)絡(luò)爬蟲

更新時(shí)間:2022-08-18 來(lái)源:黑馬程序員 瀏覽量:

IT培訓(xùn)班

  網(wǎng)絡(luò)爬蟲歷經(jīng)幾十年的發(fā)展,技術(shù)變得更加多樣化,并結(jié)合不同的需求衍生出類型眾多的網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)大致可以分為4種類型,分別是通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲。接下來(lái),對(duì)增量式爬蟲和深層網(wǎng)絡(luò)爬蟲這兩種爬蟲分別進(jìn)行介紹。

  1.增量式爬蟲

  增量式網(wǎng)終爬蟲(Incremental Web Crawler)是指對(duì)已下載的網(wǎng)頁(yè)采取增量式更新,只抓取新產(chǎn)生或者已經(jīng)發(fā)生變化的網(wǎng)頁(yè)的網(wǎng)絡(luò)爬蟲。

  增量式網(wǎng)絡(luò)爬蟲只會(huì)抓取新產(chǎn)生的或內(nèi)容變化的網(wǎng)頁(yè),并不會(huì)重新抓取內(nèi)容未發(fā)生變化的網(wǎng)頁(yè),這樣可以有效地減少網(wǎng)頁(yè)的下載量,減少訪問(wèn)時(shí)間和存儲(chǔ)空間的耗費(fèi),但是增加了網(wǎng)頁(yè)抓取算法的復(fù)雜度和實(shí)現(xiàn)難度。


網(wǎng)絡(luò)爬蟲


  2.深層網(wǎng)絡(luò)爬蟲

  深層網(wǎng)絡(luò)爬蟲(Deep Web Crawler)是指抓取深層網(wǎng)頃的網(wǎng)絡(luò)爬蟲,它要抓取的網(wǎng)頁(yè)層次比較深,需要通過(guò)一定的附加策略才能夠自動(dòng)抓取,實(shí)現(xiàn)難度較大。

  表層網(wǎng)頁(yè)與深層網(wǎng)頁(yè)

  網(wǎng)頁(yè)按存在方式可以分為表層網(wǎng)頁(yè)(Surface Web)和深層網(wǎng)頁(yè)(Deep Web),關(guān)于這兩類網(wǎng)頁(yè)的介紹如下。

  表層網(wǎng)頁(yè)是指?jìng)鹘y(tǒng)搜索引擎可以索引的頁(yè)面,主要以超鏈接可以到達(dá)的靜態(tài)網(wǎng)頁(yè)構(gòu)成的網(wǎng)頁(yè)。

  深層網(wǎng)頁(yè)是指大部分內(nèi)容無(wú)法通過(guò)靜態(tài)鏈接獲取的,只能通過(guò)用戶提交一些關(guān)鍵詞才能獲取的網(wǎng)頁(yè),如用戶注冊(cè)后內(nèi)容才可見(jiàn)的網(wǎng)頁(yè)。

分享到:
在線咨詢 我要報(bào)名
和我們?cè)诰€交談!