Python爬虫网页，解析工具lxml.html（二）

【前情回顾】如何灵活的解析网页，提取我们想要的数据，是我们写爬虫时非常关心和需要解决的问题。

额尔古纳ssl适用于网站、小程序/APP、API接口等需要进行数据传输应用场景，ssl证书未来市场广阔！成为创新互联建站的ssl证书销售渠道，可以享受市场价格4-6折优惠！如果有意向欢迎电话联系或者加微信：18982081108（备注：SSL证书合作）期待与您的合作！

从Python的众多的可利用工具中，我们选择了lxml的，它的好我们知道，它的妙待我们探讨。前面我们已经从HTML字符串转换成的HtmlElement对象，接下来我们就探讨该如何操作这个的HtmlElement对象。

lxml.html的HtmlElement对象的各种属性和方法

这个的HtmlElement对象有各种方法，我们重点讨论跟解析网页相关的函数，而修改这个对象的方法若与提取内容相关也一并介绍，介绍过程结合下面这段HTML代码以便更好说明问题：


    abclink

.attrib属性和.get（）方法

前者是html tag的属性集合，以字典表示;后者是取得某个属性的值，相当于字典的.get（）方法。看示例：

In [35]: doc = lxml.html.fromstring('abclink

') In [37]: doc.attrib Out[37]: {'class': 'post', 'id': '123'} In [38]: doc.get('class') Out[38]: 'post'

.drop_tag（）方法

移除该html标签，但保留它的子节点和文本并合并到该标签的父节点。

In [46]: doc = lxml.html.fromstring('abclink

In [55]: doc = lxml.html.fromstring('abclink

') In [56]: doc.find('p') Out[56]: In [57]: doc.find('.//a') Out[57]: In [58]: doc.findall('p') Out[58]: [] In [76]: doc.findtext('.//a') Out[76]: 'link'

In [83]: doc = lxml.html.fromstring('abclink

') In [84]: doc.getchildren() Out[84]: [] In [85]: doc.getparent() Out[85]: # 注意：输入的本没有body，div已经是最上层节点，它的父节点就是body了

In [127]: doc = lxml.html.fromstring('abclink

') In [128]: for itr in doc.getiterator(): ...: print(itr.tag) ...: div p a In [129]: for itr in doc.iter(): ...: print(itr.tag) ...: div p a

In [134]: doc = lxml.html.fromstring('abclink

') In [135]: a = doc.find('.//a') In [136]: for itr in doc.iterancestors(): ...: print(itr.tag) ...: body html In [137]: for itr in a.iterancestors(): ...: print(itr.tag) ...: p div body html In [138]: for itr in doc.iterdescendants(): ...: print(itr.tag) ...: p a

用户体验为先导为品牌带来生命力

Python爬虫网页，解析工具lxml.html（二）

lxml.html的HtmlElement对象的各种属性和方法

.attrib属性和.get（）方法

.drop_tag（）方法

.drop_tree（）方法

.find（path）,. find（path）,. findtext（path）方法

.find_class（CLASS_NAME）方法

.get_element_by_id（id）方法

.getchildren（），getparent（）方法

.getnext（）。getprevious（）方法

.getiterator（）,. iter（）方法

.iterchildren（）方法

.iterancestors（）。iterdescendants（）方法

.iterfind（path）方法

.make_links_absolute（BASE_URL）

.tag属性

.text .tail属性

.text_content（）方法

其他资讯

用户体验为先导 为品牌带来生命力

Python爬虫网页，解析工具lxml.html（二）

lxml.html的HtmlElement对象的各种属性和方法

.attrib属性和.get（）方法

.drop_tag（）方法

.drop_tree（）方法

.find（path）,. find（path）,. findtext（path）方法

.find_class（CLASS_NAME）方法

.get_element_by_id（id）方法

.getchildren（），getparent（）方法

.getnext（）。getprevious（）方法

.getiterator（）,. iter（）方法

.iterchildren（）方法

.iterancestors（）。iterdescendants（）方法

.iterfind（path）方法

.make_links_absolute（BASE_URL）

.tag属性

.text .tail属性

.text_content（）方法

其他资讯

用户体验为先导为品牌带来生命力