PDFTextStream项目是可用于Java,Python和.NET中的PDF文本和元数据提取库。它支持所有版本的PDF文档规范的,(包括V1.6,使用的Acrobat 7),提取文本使用双字节字符集(包括中国,日本,韩国和),40位和128位解密编码位加密的文件,并通过提取PDF文件(包括表格数据,书签和注释)提供的所有文件的元数据。与雅加达Lucene的易于集成包括 什么是此版本中的新: ...

阅读更多