python中怎么用JS加载加快爬虫获取

这篇文章主要介绍python中怎么用JS加载加快爬虫获取,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!

成都创新互联长期为近千家客户提供的网站建设服务,团队从业经验10年,关注不同地域、不同群体,并针对不同对象提供差异化的产品和服务;打造开放共赢平台,与合作伙伴共同营造健康的互联网生态环境。为永胜企业提供专业的成都网站设计、成都做网站永胜网站改版等技术服务。拥有十载丰富建站经验和众多成功案例,为您定制开发。

python的requests库只能爬取静态页面,爬取不了动态加载的页面。使用JS加载数据方式,能提高爬虫门槛。

爬虫方法:

抓包获取数据url

通过抓包方式可以获取数据的请求url,再通过分析和更改url参数来进行数据的抓取。

示例:

1.看 https://image.baidu.com这部分的包。可以看到,这部分包里面,search下面的那个 url和我们访问的地址完全是一样的,但是它的response却包含了js代码。

2.当在动物图片首页往下滑动页面,想看到更多的时候,更多的包出现了。从图片可以看到,下滑页面后得到的是一连串json数据。在data里面,可以看到thumbURL等字样。它的值是一个url。这个就是图片的链接。

3. 打开一个浏览器页面,访问thumbURL=https://ss1.bdstatic.com/70cFvXSh_Q1YnxGkpoWK1HF6hhy/it/u=1968180540,4118301545&fm=27&gp=0.jpg,发现搜索结果里的图片。

4. 根据前面的分析,就可以知道,用浏览器访问这个链接确定他是公开的。

5. 最后就可以寻找URL的规律,对URL进行构造便可获取所有照片。

使用selenium

通过使用selenium来实现模拟用户操作浏览器,然后结合BeautifulSoup等包来解析网页通过这种方法获取数据,简单,也比较直观,缺点是速度比较慢。

以上是“python中怎么用JS加载加快爬虫获取”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注创新互联行业资讯频道!


网站名称:python中怎么用JS加载加快爬虫获取
本文路径:http://bzwzjz.com/article/jhehhp.html

其他资讯

Copyright © 2007-2020 广东宝晨空调科技有限公司 All Rights Reserved 粤ICP备2022107769号
友情链接: 成都商城网站建设 网站建设方案 手机网站制作 定制网站建设多少钱 H5网站制作 公司网站建设 成都网站设计公司 重庆网站建设 重庆电商网站建设 专业网站设计 网站建设开发 重庆企业网站建设 温江网站设计 企业网站建设公司 重庆网站建设 网站制作 成都响应式网站建设公司 外贸营销网站建设 成都网站建设公司 教育网站设计方案 自适应网站建设 成都网站建设