这篇文章将为大家详细讲解有关怎么在Python中利用get_text()方法从html中提取文本,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。
站在用户的角度思考问题,与客户深入沟通,找到江安网站设计与江安网站推广的解决方案,凭借多年的经验,让设计与互联网技术结合,创造个性化、用户体验好的作品,建站类型包括:网站设计制作、网站设计、企业官网、英文网站、手机端网站、网站推广、国际域名空间、网络空间、企业邮箱。业务覆盖江安地区。如下所示:
比如这儿有这么一大段带html的字串,想要从中提取文本,首先发现这是一个textarea
我们使用beautifulsoup
def get_content(url): resp = urllib.request.urlopen(url) html = resp.read() bs = BeautifulSoup(html, "html.parser") return bs.textarea.get_text()
首先用那段html字符串初始化beautifulsoup对象
然后bs.textarea返回找到的第一个textarea,找到后使用get_text()清空所有html标签元素
之后就会返回干净的文字
关于怎么在Python中利用get_text()方法从html中提取文本就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。