爬蟲開發(fā)者的網(wǎng)頁分析工具——F12開發(fā)者工具介紹！

猿友 2021-07-26 18:05:39 瀏覽數(shù) (5719)

反饋

很多小伙伴在跟著視頻學習爬蟲的時候總是能完成一個爬蟲，但自己獨立開發(fā)就開發(fā)不了，原因是自己并沒有網(wǎng)頁分析的能力，不懂得如何從網(wǎng)頁中獲取相應的數(shù)據(jù)，更有甚者連網(wǎng)絡分析的能力都沒有，請求頁面總是被服務器拒絕。實際上瀏覽器為我們提供的F12開發(fā)者工具是一個非常不錯的網(wǎng)頁分析和網(wǎng)絡分析的工具。接下來我們就來講講如何用F12開發(fā)者工具進行網(wǎng)頁和網(wǎng)絡分析吧。

網(wǎng)頁分析

爬蟲的目的，就是從網(wǎng)頁中獲取到某一元素的某個值，這一點其實很簡單，只要能定位到元素就可以獲取到它的值了。在小編的自動化測試開發(fā)輔助工具——F12開發(fā)者工具介紹！中介紹了如何定位元素，在文末也介紹了另一種定位方式——css定位，實際上在python中有一個庫叫beautifulsoup，這個庫可以通過css來定位元素并獲取它的值，各位小伙伴可以前往beautifulsoup教程進行學習。

另一個更加出名的xml解析庫叫l(wèi)xml，這個庫不止可以通過css定位元素，也可以用想xpath來進行定位，詳情可以看：lxml教程

網(wǎng)絡分析

爬蟲的基本動作第一步就是向服務器發(fā)起請求并獲取響應，然后才是對響應的處理，因為響應一般對應的是頁面的HTML代碼，所以網(wǎng)頁分析的作用在這里體現(xiàn)。然而爬蟲請求服務器一般都會被發(fā)現(xiàn)，因為爬蟲沒有請求頭的掩護（相當于直接告訴瀏覽器我是爬蟲），在F12開發(fā)者工具中有一項網(wǎng)絡功能，它可以記錄頁面和服務器之間的請求和響應。

請求分析-

點擊即可看到詳細的信息：

詳細信息

從請求和返回的響應中我們可以獲得很多內(nèi)容，在上述圖中已有注明，主要對爬蟲開發(fā)有關的有cookie，瀏覽器的user-agent，請求時傳遞的參數(shù)和請求url分析等。其實這個工具還給我們提供了很多內(nèi)容，但小編水平有限只能用這么多，小伙伴們可以繼續(xù)往深處挖掘。

小結

對于爬蟲開發(fā)而言，網(wǎng)絡分析和網(wǎng)頁分析才是爬蟲開發(fā)的要點，python代碼編程只是實現(xiàn)爬蟲的方式罷了。如果你還學不會爬蟲編程，請好好思考你是否已經(jīng)學會了網(wǎng)絡分析和網(wǎng)頁分析?；蛘吒唵蔚兀耗闶欠駥W會了使用F12開發(fā)者工具。以上就是這篇文章的全部內(nèi)容了，更多F12開發(fā)者工具的其他有用的內(nèi)容可以關注W3Cschool的后續(xù)內(nèi)容，小編在這里等著你！

HTML CSS Python

0 人點贊