Python爬虫开发之xpath使用

在进行爬虫开发中,需要的页面信息进行解析处理,获取到需要的关键数据。可以利用xpath进行对页面的xml文件进行解析处理,获取到需要的关键数据。
XPath使用:
XPath 可用来在 XML 文档中对元素和属性进行遍历.
from lxml import etree
import urllib2
req = urllib2.Request(url)
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')
web_info = urllib2.urlopen(req).read()
html = etree.HTML(web_info)
result = etree.tostring(html) #tostring 是补全缺失的html标签
html_data = result.xpath('/html/body/div/ul/li/a/text()') 获取某个标签的数据,返回的是对象,可以通过遍历得到具体的数据
html_data = html.xpath('/html/body/div/ul/li/a/@href') 获取某个标签的属性获取属性值用@
html_data = html.xpath('/html/body/div/ul/li/a[@href="link2.html"]/text()') 获取a表现属性为link2.html的内容
html_data = html.xpath('//li/a/text()') 使用相对路径获取a标签的内容
html_data = html.xpath('//li/a//@href') 使用相对路径获取a标签的属性值

成都创新互联一直通过网站建设和网站营销帮助企业获得更多客户资源。 以"深度挖掘,量身打造,注重实效"的一站式服务,以成都网站设计、网站制作、移动互联产品、成都全网营销服务为核心业务。十多年网站制作的经验,使用新网站建设技术,全新开发出的标准网站,不但价格便宜而且实用、灵活,特别适合中小公司网站制作。网站管理系统简单易用,维护方便,您可以完全操作网站资料,是中小公司快速网站建设的选择。


网页标题:Python爬虫开发之xpath使用
网页网址:http://bzwzjz.com/article/iiecog.html

其他资讯

Copyright © 2007-2020 广东宝晨空调科技有限公司 All Rights Reserved 粤ICP备2022107769号
友情链接: 成都网站制作 响应式网站设计 重庆网站建设 做网站设计 成都网站制作 成都网站建设 企业网站设计 网站设计 重庆企业网站建设 app网站建设 成都网站制作 网站建设开发 成都网站建设 网站建设 品牌网站建设 成都网站建设 重庆外贸网站建设 达州网站设计 成都网站建设 成都网站设计 网站建设方案 外贸网站设计方案