Python网络爬虫之爬取微博热搜-创新互联

微博热搜的爬取较为简单,我只是用了lxml和requests两个库

资阳ssl适用于网站、小程序/APP、API接口等需要进行数据传输应用场景,ssl证书未来市场广阔!成为创新互联的ssl证书销售渠道,可以享受市场价格4-6折优惠!如果有意向欢迎电话联系或者加微信:18982081108(备注:SSL证书合作)期待与您的合作!

url= https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6

1.分析网页的源代码:右键--查看网页源代码.

Python网络爬虫之爬取微博热搜

从网页代码中可以获取到信息

(1)热搜的名字都在的子节点

(2)热搜的排名都在的里(注意置顶微博是没有排名的!)

(3)热搜的访问量都在的子节点

2.requests获取网页

(1)先设置url地址,然后模拟浏览器(这一步可以不用)防止被认出是爬虫程序。

###网址
url="https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6"
###模拟浏览器,这个请求头windows下都能用
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


本文标题:Python网络爬虫之爬取微博热搜-创新互联
网址分享:http://bzwzjz.com/article/ddodpd.html

其他资讯

Copyright © 2007-2020 广东宝晨空调科技有限公司 All Rights Reserved 粤ICP备2022107769号
友情链接: 成都网站建设公司 网站制作报价 成都网站建设公司 四川成都网站建设 成都网站设计公司 成都网站设计公司 重庆网站建设 企业网站制作 四川成都网站制作 成都商城网站建设 成都网站建设 成都网站建设 成都响应式网站建设 手机网站制作 成都网站建设 网站建设方案 成都网站建设 成都定制网站建设 重庆网站制作 广安网站设计 成都网站设计 做网站设计