python教程网

当前位置：首页 » python爬虫 » 正文

Python常见反爬虫机制解决方案

看: 2240次时间：2020-07-02 分类 : python爬虫

1、使用代理

适用情况：限制IP地址情况，也可解决由于“频繁点击”而需要输入验证码登陆的情况。

这种情况最好的办法就是维护一个代理IP池，网上有很多免费的代理IP，良莠不齐，可以通过筛选找到能用的。对于“频繁点击”的情况，我们还可以通过限制爬虫访问网站的频率来避免被网站禁掉。

proxies = {'http':'http://XX.XX.XX.XX:XXXX'}
Requests：
 import requests
 response = requests.get(url=url, proxies=proxies)
Urllib2：
 import urllib2
 proxy_support = urllib2.ProxyHandler(proxies)
 opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)
 urllib2.install_opener(opener) # 安装opener，此后调用urlopen()时都会使用安装过的opener对象
 response = urllib2.urlopen(url)

2、时间设置

适用情况：限制频率情况。

Requests，Urllib2都可以使用time库的sleep()函数：

import time
time.sleep(1)

3、伪装成浏览器，或者反“反盗链”

有些网站会检查你是不是真的浏览器访问，还是机器自动访问的。这种情况，加上User-Agent，表明你是浏览器访问即可。有时还

会检查是否带Referer信息还会检查你的Referer是否合法，一般再加上Referer。

headers = {'User-Agent':'XXXXX'} # 伪装成浏览器访问，适用于拒绝爬虫的网站
headers = {'Referer':'XXXXX'}
headers = {'User-Agent':'XXXXX', 'Referer':'XXXXX'}
Requests：
 response = requests.get(url=url, headers=headers)
Urllib2：
 import urllib, urllib2  
 req = urllib2.Request(url=url, headers=headers)
 response = urllib2.urlopen(req)

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持python博客。

标签：requests urllib

2021-07-20Python爬虫基础之爬虫的分类知识总结
2021-07-20Python爬虫基础讲解之请求
2021-07-20PyQt5爬取12306车票信息程序的实现
2021-07-20Python爬虫之m3u8文件里提取小视频的正确姿势
2021-07-20如何用python抓取B站数据
2021-07-20快速搭建python爬虫管理平台
2021-07-20Python爬虫之获取心知天气API实时天气数据并弹窗提醒
2021-07-20Python爬虫之批量下载喜马拉雅音频
2021-07-20python使用pywinauto驱动微信客户端实现公众号爬虫
2021-07-20Requests什么的通通爬不了的Python超强反爬虫方案！

搜索

推荐资源

python教程网

当前位置：首页 » python爬虫 » 正文

Python常见反爬虫机制解决方案

看: 2240次 时间：2020-07-02 分类 : python爬虫

相关文章

搜索

推荐资源

看: 2240次时间：2020-07-02 分类 : python爬虫