在Python中,具有特殊功能的標(biāo)識符稱為關(guān)鍵字,每個關(guān)鍵字都代表不同的含義,Python語言自己已經(jīng)使用它們,不允許自己定義和關(guān)鍵字相同名字的標(biāo)識符,開發(fā)者應(yīng)該盡量避開這些關(guān)鍵字。Python中的關(guān)鍵字如下所示:查看全文>>
使用變量存儲數(shù)據(jù)時,為了更充分利用內(nèi)存空間,我們可以為變量指定不同的數(shù)據(jù)類型。Python中常見的數(shù)據(jù)類型包含整型、浮點型和復(fù)數(shù)類型等,本節(jié)課來就來講解一下Python中常見的數(shù)據(jù)類型和他們的示例代碼查看全文>>
Slaver端從Master端拿任務(wù)(Request/url/ID)進(jìn)行數(shù)據(jù)抓取,在抓取數(shù)據(jù)的同時也生成新任務(wù),并將任務(wù)分配給Master端。Master端只有一個Redis數(shù)據(jù)庫,負(fù)責(zé)對Slaver提交的任務(wù)進(jìn)行去重、加入待爬隊列查看全文>>
Scrapy是一個為了爬取網(wǎng)站數(shù)據(jù),提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架,我們只需要實現(xiàn)少量代碼,就能夠快速的抓取到數(shù)據(jù)內(nèi)容。Scrapy使用了Twisted異步網(wǎng)絡(luò)框架來處理網(wǎng)絡(luò)通訊,可以加快我們的下載速度,不用自己去實現(xiàn)異步框架,并且包含了各種中間件接口,可以靈活的完成各種需求。查看全文>>
Selenium是一個Web的自動化測試工具,可以根據(jù)我們的指令,讓瀏覽器自動加載頁面,獲取需要的數(shù)據(jù),甚至頁面截屏,或者判斷網(wǎng)站上某些動作是否發(fā)生。查看全文>>
python爬蟲用什么數(shù)據(jù)庫好?Mysql和Mongdb哪家有優(yōu)勢?我們從Mysql、Mongdb各自特點和關(guān)系數(shù)據(jù)庫和非關(guān)系數(shù)據(jù)庫的特點來分析。查看全文>>