PDFMiner通过首先考虑的PDF文件的内容,并把它转换为如HTML一个更有延展性的格式。
从那里,文本和数据被提取和分析,并基于分离并呈现给用户,或传送到其它更强大的数据分析工具的预定义的规则。
如果文本分析是不是你打算做什么,你可以轻松地配置PDFMiner简单地提取或者只是将PDF转换数据为好。
它的功能可相互独立工作,并允许更广泛的使用范围全靠它
功能:
- 100%的Python代码,没有C或C ++
- 解析PDF文件
- 分析PDF文件
- PDF文件转换为其他格式
- 的ToC提取
- 只得到标记的内容
- 支持大量的文本的PDF功能
- 支持大量的字体类型的PDF文件里面
- 基本加密(RC4)的支持
什么在此版本中是新的:
- 在PDFDocument.initialize()方法被删除,不再需要。密码是作为一个PDFDocument构造函数的参数。
在什么版本20110515是新的:
- 在API的变化
- LTPolygon类更名为LTCurve。
在什么版本20110227是新的:
- 在Bug修复和布局分析改进
什么是20101226版新:
- 在一对夫妇的错误修正和小的改进的
什么是20101017版新:
- 在一对夫妇的错误修正和小的改进李>
在什么版本20100424是新的:
- 在错误修正和TOC提取微小的改进
要求:
- 在Python的2.4至3
限制:
- 在PDFMiner可以比C / C ++慢20倍 - 基于软件李>
评论没有发现