scrapy 2.3 檢查網(wǎng)頁的源代碼

2021-06-17 11:56 更新

有時您需要檢查網(wǎng)頁的源代碼(而不是 DOM )確定所需數(shù)據(jù)的位置。

使用Scrapy's ?fetch? 命令下載Scrapy看到的網(wǎng)頁內(nèi)容:

scrapy fetch --nolog https://example.com > response.html

如果所需數(shù)據(jù)位于 ?<script/>? 元素,請參見 分析javascript代碼 .

如果你找不到想要的數(shù)據(jù),首先要確保它不僅僅是垃圾:用HTTP客戶端下載網(wǎng)頁,比如 curl 或 wget 看看這些信息是否可以在他們得到的響應中找到。

如果他們得到所需數(shù)據(jù)的響應,請修改您的 Scrapy ?Request? 以匹配其他HTTP客戶端。例如,嘗試使用相同的用戶代理字符串 (?USER_AGENT? )或者同樣的 ?headers? .

如果他們也得到了沒有所需數(shù)據(jù)的響應,那么您需要采取措施使您的請求更類似于Web瀏覽器的請求。見 復制請求 .

以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號