pdf用python读取的方法

这篇文章主要介绍pdf用python读取的方法,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!

成都创新互联专注于网站建设,为客户提供成都网站设计、做网站、成都外贸网站建设公司、网页设计开发服务,多年建网站服务经验,各类网站都可以开发,品牌网站制作,公司官网,公司展示网站,网站设计,建网站费用,建网站多少钱,价格优惠,收费合理。

python中可以使用pdfminer库来读取PDF文件中的内容。

安装命令:

pip install pdfminer
pip install pdfminer3k

python中读取PDF文件代码:

from urllib.request import urlopen
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open

def readPDF(pdfFile):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, laparams=laparams)

    process_pdf(rsrcmgr, device, pdfFile)
    device.close()

    content = retstr.getvalue()
    retstr.close()
    return content

pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()

解析pdf文件用到的类:

PDFParser:从一个文件中获取数据

PDFDocument:保存获取的数据,和PDFParser是相互关联的

PDFPageInterpreter处理页面内容

PDFDevice将其翻译成你需要的格式

PDFResourceManager用于存储共享资源,如字体或图像。

以上是pdf用python读取的方法的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注创新互联行业资讯频道!


当前标题:pdf用python读取的方法
分享地址:http://bzwzjz.com/article/jocojc.html

其他资讯

Copyright © 2007-2020 广东宝晨空调科技有限公司 All Rights Reserved 粤ICP备2022107769号
友情链接: 成都网站建设 手机网站制作 成都网站制作 重庆企业网站建设 成都企业网站建设 成都网站设计制作公司 网站建设方案 成都网站制作 app网站建设 成都网站设计 成都响应式网站建设 古蔺网站建设 达州网站设计 成都网站建设 四川成都网站建设 成都网站设计 成都网站设计 网站设计 营销网站建设 重庆外贸网站建设 成都定制网站建设 成都网站制作