寫在前面

做爬蟲的小伙伴一般都繞不過代理IP這個問題.

PS:如果還沒遇到被封IP的場景,要不就是你量太小人家懶得理你,要不就是人家壓根不在乎...

爬蟲用戶自己是沒有能力維護一系列的代理服務器和代理IP的,這個成本實在有點高了。
所以公用代理服務器應運而生,現(xiàn)在幾大云服務商家都提供代理IP服務,一般論個買...

同時網(wǎng)上也有很多代理IP共享網(wǎng)站,會把一些免費的代理IP放出來給大家用。
大家都是做爬蟲的,那么,是不是可以先把代理IP網(wǎng)站的數(shù)據(jù)爬一遍?
所以可以看到不少的爬代理IP的爬蟲,如突破反爬蟲的利器——開源IP代理池之類的項目。
這些項目都能達到抓取代理IP數(shù)據(jù)的目的,很多時候也夠用了。

然而在使用過程中我們發(fā)現(xiàn)了一些問題:

  1. 網(wǎng)站公布的代理IP不一定是可用的??赡艽矸掌鲯炝耍赡躀P無效了...等等之類的。

  2. 代理IP是部分可用的。某代理IP可用代理訪問百度,但是代理訪問谷歌的時候就GG了。

  3. 代理連通性是好的,但是已經(jīng)被訪問站識別為代理IP返回驗證碼或者辣雞數(shù)據(jù)。

proxyipcenter的解決方案

網(wǎng)友評論