Python爬虫开发之xpath使用

在进行爬虫开发中,需要的页面信息进行解析处理,获取到需要的关键数据。可以利用xpath进行对页面的xml文件进行解析处理,获取到需要的关键数据。
XPath使用:
XPath 可用来在 XML 文档中对元素和属性进行遍历.
from lxml import etree
import urllib2
req = urllib2.Request(url)
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')
web_info = urllib2.urlopen(req).read()
html = etree.HTML(web_info)
result = etree.tostring(html) #tostring 是补全缺失的html标签
html_data = result.xpath('/html/body/div/ul/li/a/text()') 获取某个标签的数据,返回的是对象,可以通过遍历得到具体的数据
html_data = html.xpath('/html/body/div/ul/li/a/@href') 获取某个标签的属性获取属性值用@
html_data = html.xpath('/html/body/div/ul/li/a[@href="link2.html"]/text()') 获取a表现属性为link2.html的内容
html_data = html.xpath('//li/a/text()') 使用相对路径获取a标签的内容
html_data = html.xpath('//li/a//@href') 使用相对路径获取a标签的属性值

成都创新互联一直通过网站建设和网站营销帮助企业获得更多客户资源。 以"深度挖掘,量身打造,注重实效"的一站式服务,以成都网站设计、网站制作、移动互联产品、成都全网营销服务为核心业务。十多年网站制作的经验,使用新网站建设技术,全新开发出的标准网站,不但价格便宜而且实用、灵活,特别适合中小公司网站制作。网站管理系统简单易用,维护方便,您可以完全操作网站资料,是中小公司快速网站建设的选择。


分享文章:Python爬虫开发之xpath使用
文章链接:http://bzwzjz.com/article/iiecog.html

其他资讯

Copyright © 2007-2020 广东宝晨空调科技有限公司 All Rights Reserved 粤ICP备2022107769号
友情链接: 网站建设公司 重庆网站建设 成都网站制作 高端品牌网站建设 重庆手机网站建设 成都网站建设公司 响应式网站设计 成都模版网站建设 宜宾网站设计 教育网站设计方案 成都企业网站建设公司 定制网站建设多少钱 手机网站制作 成都网站设计 企业网站建设 四川成都网站建设 手机网站建设 响应式网站建设 温江网站设计 H5网站制作 成都网站制作 网站建设公司