3. 整體了解Scrapy的運(yùn)行順序
Python Scrapy 網(wǎng)絡(luò)爬蟲入門課程 / 3. 整體了解Scrapy的運(yùn)行順序

Python Scrapy 網(wǎng)絡(luò)爬蟲入門課程

手機(jī)也能上課
App下載
1/4

Scrapy組件介紹

掌握?qǐng)?zhí)行順序前,先了解scrapy的組件:
  • 引擎(Engine):負(fù)責(zé)整個(gè)系統(tǒng)的數(shù)據(jù)流處理,觸發(fā)事務(wù)。
  •  調(diào)度器(Scheduler):接受引擎發(fā)過來的請(qǐng)求,壓入隊(duì)列中,并在引擎再次請(qǐng)求的時(shí)候返回。 
  • 下載器(Downloader): 下載網(wǎng)頁內(nèi)容,并將網(wǎng)頁內(nèi)容返回給爬蟲。 
  • 爬蟲(Spider): 爬蟲是主要干活的,用來制定特定域名或網(wǎng)頁的解析規(guī)則。
  •  項(xiàng)目管道(Item Pipeline): 清洗驗(yàn)證存儲(chǔ)數(shù)據(jù),頁面被蜘蛛解析后,被發(fā)送到項(xiàng)目管道,并經(jīng)過幾個(gè)特定的次序處理數(shù)據(jù)。 
  • 下載器中間件(Downloader Middleware): 位于引擎和下載器之間,處理引擎與下載器之間的請(qǐng)求及響應(yīng)。 
  • 爬蟲中間件(Spider Middleware):位于引擎和爬蟲之間,處理從引擎發(fā)送到調(diào)度的請(qǐng)求及響應(yīng)。
如圖:

1


+10 經(jīng)驗(yàn) +10積分
解析
提示
參考答案
+10 經(jīng)驗(yàn) +10積分
視頻播放結(jié)束,是否學(xué)習(xí)下一節(jié)?