【大公开】爬虫防封ip代码

  • 内容
  • 相关
 
随着数据捕获量的增加,服务器负载增加,就会导致ip被直接阻塞。
采取措施:
  1.创建请求头部信息:
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.9 Safari/537.36'} #创建请求头
strhtml = requests.get(url,headers = headers); #使用GET方式,获取网页数据
  2.我们就只修改User-Agent还不够,爬虫1秒钟可以抓取很多图片,通过统计IP的访问频率,频率超过阈值,会返回一个验证码,如果是用户访问,用户就会填写继续访问,而代码访问就会被封IP,有两种解决方法:
  (1)增设延时 (耗时)
import time
time.sleep(3)#每3秒抓取1次
 
(2)构建自己代理IP池

proxies = {
    "http": "http://10.10.1.10:3128",
    "https": "http://10.10.1.10:1080",
}
url="http://www.cntour.cn/"  #需要爬取的网址
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.9 Safari/537.36'} #创建请求头
strhtml = requests.get(url,headers = headers,proxies=proxies);

本文标签:

版权声明:若无特殊注明,本文皆为《urlfh》原创,转载请保留文章出处。

本文链接:【大公开】爬虫防封ip代码 - https://blog.urlfh.com/post-67.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注