正確使用ip代理應付反爬蟲策略
jj
2021-11-19
最經典的反爬蟲策略是“驗證碼”。因為驗證碼是圖片,用戶只需要輸入一次就可以登錄成功。然而,在我們的程序捕獲數據的過程中,我們需要不斷地登錄。比如我們需要抓取1000個用戶的個人信息,需要填寫1000次驗證碼,但是手工輸入驗證碼是不現實的。因此,驗證碼的出現一度難倒了很多網絡爬蟲工程師。

解決方案:
1.分析網站的驗證碼機制,從網站后臺或前端獲取驗證碼(文本形式)。這種方法只適用于少數網站,因為我們一般很難獲得驗證碼。
2.利用圖像識別技術識別驗證碼文本。
3.通常,一些網站不僅是個人電腦端的,也是移動端的。很有可能手機端網站不包含驗證碼。所以試試手機網站,可能會有意想不到的收獲。
另一個反爬蟲策略是封ip和賬號。剛開始用機器搶新浪微博,導致我的賬號被封,IP短時間被封,遇到類似問題一定要多加小心。
解決方案:
1.最簡單的解決方法:限制程序捕獲頻率,每隔幾秒鐘登錄一次(如果對捕獲數量沒有要求,可以用這個方法;如果要捕獲大量數據,就不應該捕獲的日期)。
2.由于賬號是用IP封的,我會用多個賬號多臺機器去抓取,既解決了反爬蟲的問題,也相當于分流和減輕了單機的帶寬壓力。
3.事實證明,即使我們采用一兩種方法,有些網站也會被屏蔽。在這種情況下,我們只能使用ip代理來捕獲我們想要的數據,到目前為止,基本上解決封賬號封IP的問題還是很有效的。
上一篇:缺少ip代理爬蟲工作量大無法完成
下一篇:決定代理IP速度慢的原因有很多