App下載

爬蟲開發(fā)者的網(wǎng)頁分析工具——F12開發(fā)者工具介紹!

猿友 2021-07-26 18:05:39 瀏覽數(shù) (5719)
反饋

很多小伙伴在跟著視頻學習爬蟲的時候總是能完成一個爬蟲,但自己獨立開發(fā)就開發(fā)不了,原因是自己并沒有網(wǎng)頁分析的能力,不懂得如何從網(wǎng)頁中獲取相應的數(shù)據(jù),更有甚者連網(wǎng)絡分析的能力都沒有,請求頁面總是被服務器拒絕。實際上瀏覽器為我們提供的F12開發(fā)者工具是一個非常不錯的網(wǎng)頁分析和網(wǎng)絡分析的工具。接下來我們就來講講如何用F12開發(fā)者工具進行網(wǎng)頁和網(wǎng)絡分析吧。

網(wǎng)頁分析

爬蟲的目的,就是從網(wǎng)頁中獲取到某一元素的某個值,這一點其實很簡單,只要能定位到元素就可以獲取到它的值了。在小編的自動化測試開發(fā)輔助工具——F12開發(fā)者工具介紹!中介紹了如何定位元素,在文末也介紹了另一種定位方式——css定位,實際上在python中有一個庫叫beautifulsoup,這個庫可以通過css來定位元素并獲取它的值,各位小伙伴可以前往beautifulsoup教程進行學習。

 另一個更加出名的xml解析庫叫l(wèi)xml,這個庫不止可以通過css定位元素,也可以用想xpath來進行定位,詳情可以看:lxml教程

網(wǎng)絡分析

爬蟲的基本動作第一步就是向服務器發(fā)起請求并獲取響應,然后才是對響應的處理,因為響應一般對應的是頁面的HTML代碼,所以網(wǎng)頁分析的作用在這里體現(xiàn)。然而爬蟲請求服務器一般都會被發(fā)現(xiàn),因為爬蟲沒有請求頭的掩護(相當于直接告訴瀏覽器我是爬蟲),在F12開發(fā)者工具中有一項網(wǎng)絡功能,它可以記錄頁面和服務器之間的請求和響應。

請求分析-

點擊即可看到詳細的信息:

詳細信息

從請求和返回的響應中我們可以獲得很多內(nèi)容,在上述圖中已有注明,主要對爬蟲開發(fā)有關的有cookie,瀏覽器的user-agent,請求時傳遞的參數(shù)和請求url分析等。其實這個工具還給我們提供了很多內(nèi)容,但小編水平有限只能用這么多,小伙伴們可以繼續(xù)往深處挖掘。

小結

對于爬蟲開發(fā)而言,網(wǎng)絡分析和網(wǎng)頁分析才是爬蟲開發(fā)的要點,python代碼編程只是實現(xiàn)爬蟲的方式罷了。如果你還學不會爬蟲編程,請好好思考你是否已經(jīng)學會了網(wǎng)絡分析和網(wǎng)頁分析?;蛘吒唵蔚兀耗闶欠駥W會了使用F12開發(fā)者工具。以上就是這篇文章的全部內(nèi)容了,更多F12開發(fā)者工具的其他有用的內(nèi)容可以關注W3Cschool的后續(xù)內(nèi)容,小編在這里等著你!

0 人點贊