对于爬虫中部分网站设置了请求次数过多后会封杀ip,现在模拟浏览器进行爬虫,也就是说让服务器认识到访问他的是真正的浏览器而不是机器操作
创新互联制作网站网页找三站合一网站制作公司,专注于网页设计,网站制作、成都网站制作,网站设计,企业网站搭建,网站开发,建网站业务,680元做网站,已为近1000家服务,创新互联网站建设将一如既往的为我们的客户提供最优质的网站建设、网络营销推广服务!简单的直接添加请求头,将浏览器的信息在请求数据时传入:
打开浏览器--打开开发者模式--请求任意网站
如下图:找到请求的的名字,打开后查看headers栏,找到User-Agent,复制。然后添加到请求头中
代码如下:
import requests url = 'https://www.baidu.com' headers ={ 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/65.0.3325.181 Safari/537.36' } rq = requests.get(url=url, headers=headers) print(rq.text)
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。