PDFTextStream

软件截图:
PDFTextStream
软件详细信息:
版本: 2.6.0
上传日期: 20 Feb 15
许可: 共享软件
价格: 1900.00 $
人气: 2

Rating: nan/5 (Total Votes: 0)

PDFTextStream项目是可用于Java,Python和.NET中的PDF文本和元数据提取库。
它支持所有版本的PDF文档规范的,(包括V1.6,使用的Acrobat 7),提取文本使用双字节字符集(包括中国,日本,韩国和),40位和128位解密编码位加密的文件,并通过提取PDF文件(包括表格数据,书签和注释)提供的所有文件的元数据。
与雅加达Lucene的易于集成包括

什么是此版本中的新

  • 在该版本包含了多种修复发确保PDFTextStream能够提取所不合格的PDF规范PDF文档的文本。
  • 在其中还包括了各种性能增强。

什么是新的在2.3.0版本:

  • 在增加了一个.isStruckThrough()方法融为一体。 snowtide.pdf.TextUnit,指示字符是否具有穿过它画出的删除线。
  • 在改进PDFTextStream的支持嵌入式字符映射。
  • 在字与字之间空白的计算已经被固定为适当的解释是在源PDF文档中明确编码的空白。
  • 在改进的复合内容编码,这在以前是无法产生的PDF内容一定范围内开采过程中被“忽略”的PDFTextStream的处理。
  • 修正了VisualOutputTarget一个错误的地方,从一个单行文本将拆分为多行
  • 在文本的改进垂直对齐方式提取出来,使用VisualOutputTarget
  • 在改进的VisualOutputTarget生产提取物,消除紧密相邻字之间的寄生额外的空格

什么是2.2.5版本,新的

  • 在这个版本增加了对提取XFA表单数据作为支撑XML。
  • 在这显著提高使用VisualOutputTarget文本提取的性能。支持PDF文件大于2GB。
  • 在一个错误的地方,从嵌入的Type1字体的编码以前未在某些情况下正确应用的修复。
  • 在对凡在更新PDF文件更新的内容有时被忽视的问题的修复程序。
  • 在哪里PDFDocEncoding的编码书签和元数据没有被正确解码的问题的修复程序。
  • 系统.getDestinationName()在com.snowtide.pdf.Bookmark方法。

要求

  • 在Apache的Lucene的

意见 PDFTextStream

评论没有发现
添加评论
打开图片!