ByteScout PDF Extractor SDK

软件截图:
ByteScout PDF Extractor SDK
软件详细信息:
版本: 9.0.0.3079 更新
上传日期: 15 Aug 18
开发: ByteScout
许可: 共享软件
价格: 10.00 $
人气: 130
尺寸: 596 Kb

Rating: 3.0/5 (Total Votes: 3)


        适用于Windows软件开发人员的PDF Extractor SDK:PDF到文本,PDF到XML,PDF图像,阅读PDF信息,PDF到CSV for Excel。

Bytescout PDF Extractor SDK允许将PDF转换为文本,PDF转换为XML,PDF转换为CSV,从PDF中提取图像,在.NET和ActiveX界面中提取有关PDF文件的信息,而无需任何其他软件。


优点:
 将PDF转换为纯文本(如果您转换PDF格式的报纸,可以按照列进行操作) - 包括隐形文本提取;
 通过读取给定矩形的单元格将PDF格式的表格转换为Excel(CSV);
 将PDF中的表格转换为XML文件;
 提取PDF文件元数据(标题,作者,描述)并获取有关该文件的其他信息(页数,加密与否);
 从PDF文档中提取嵌入的图像(在ASP.NET,VB.NET,C#,VB6和VBScript中);
 DocumentMerger和DocumentSplitter接口和类,用于合并和拆分PDF文档;
不需要安装Adobe Reader或任何其他PDF阅读器软件;
 提供.NET和ActiveX接口;
 使用100%托管的C#代码制作。
    

此版本中的新功能

版本9.0.0.3079:按字体名称,字体大小和颜色添加了对提取内容的过滤。
将OCR引擎更新到最新版本。从'tessdata'文件夹更新语言文件。
改进了文本提取,表格数据中的行分组,性能,XFA表单提取,TableDetector,修复的PDF解析问题。

8.7.0.2980版中的新功能

按字体名称,字体大小和颜色添加对提取内容的过滤。
将OCR引擎更新到最新版本。从'tessdata'文件夹更新语言文件。
在8.6.0.2911版本中改进了文本提取,表格数据中的行分组,性能,XFA表单提取,TableDetector,修复的PDF解析问题。

什么是新的

按字体名称,字体大小和颜色添加对提取内容的过滤。
将OCR引擎更新到最新版本。从'tessdata'文件夹更新语言文件。
在8.2.0.2699版本中改进了文本提取,表格数据中的行分组,性能,XFA表单提取,TableDetector,修复的PDF解析问题。

什么是新

版本8.2.0.2699可能包含未指定的更新,增强功能或错误修复。

8.0.0.2528版中的新功能

  • 按字体名称,字体大小和颜色添加对提取内容的过滤。
  • 将OCR引擎更新到最新版本。从“tessdata”文件夹更新语言文件。
  • 改进文本提取。
  • 改进了表格数据中的行分组。
  • 改进了性能。
  • 改进了XFA表单提取。
  • 改进了TableDetector。
  • 修复了PDF解析问题。
  • 修正了JBIG图像解码。
  • ImageExtractor:固定的每页图像提取。
  • MultimediaExtractor:对嵌入式MPEG音频进行固定提取。
  • TextExtractor:修复了非工作的RemoveHyphenation属性。
  • 7.0.0.2474版中的其他小改进和错误修复。
  • 新功能

    版本7.0.0.2474:

    • 添加了新的DocumentPrinter实用程序类,允许以静默方式打印PDF文档(无需任何用户对话框)
    • 添加了新的JSONExtractor类
    • 为DocumentSplitter.Split()方法添加了覆盖,允许为生成的文件指定输出文件夹
    • 修复了DocumentSplitter中的多线程错误
    • tableDetector现在尊重由SetExtractionArea()方法设置的提取区域
    • 提取类中的新属性:ExtractionColumns - 包含检测到的列的坐标; CustomExtractionColumns - 允许覆盖列检测
    • GetPageRect *方法没有考虑页面轮换。
      修复了安装程序中导致以前安装的某些文件干扰更新的问题
    • 重新进行了注册检查。现在库不会抛出异常,但如果您错过了或输入错误的RegistrationName和RegistrationKey,则在演示模式下工作
    • PDF Multitool:将最近的文档列表添加到“打开PDF文档”按钮
    • PDF Multitool:现在可以调整选择大小
    • PDF Multitool:添加了提取JSON功能
    • PDF Multitool:改进的表检测器UI
    • PDF Multitool:大大提高了字体渲染质量
    • PDF Multitool:在上下文菜单中添加了调试选项“显示检测到的提取列”,以在当前页面上显示检测到的列。仅在对当前显示的页面运行任何提取后变为可见
    • PDF Multitool:修复了32位Windows上的字体渲染问题
    • 其他小改进和错误修复

    版本6.30.0.2421中的新功能

    版本6.30.0.2421:

    • 添加了TextComparer实用程序类(仅适用于.NET 4.0程序集),允许比较两个PDF文档中的文本并生成报告。
    • 改进了对ICC颜色配置文件的支持。
    • 对嵌入字体的处理不力。
    • 改进了AttachmentExtractor。
    • 修正了XMLExtractor.SaveXMLToStream()方法。
    • 修复了使用OCRCacheMode.WholePage选项时提取的文本复制。
    • 其他错误修复和改进。

    版本6.20.2354中的新功能

    版本6.20.2354:

    • PDF到文本,PDF到CSV,PDF到XML功能改进
    • 新提取视频,提取音频示例
    • CSV和XML提取器改进了对
    • 中空列的表的支持
    • 用于从PDF中提取视频和音频的新MultimediaExtractor
    • 新属性PageDataCaching
    • new“MemoryCareProcessingOfHugeFiles”示例
    • 在尝试处置已经处理过的页面时修复了空例外
    • XLSExtractor:改进字体支持
    • SkipInvisibleText现在跳过剪切的文本(不可见)
    • 文字输出渲染改进
    • XFDF Extractor:添加了对复选框的支持
    • 改进了图像输出以支持更多子格式
    • 改进了Unicode文本处理

    版本6.11.2149中的新功能

    版本6.11.2149:

    • 批处理样本已更新,以显示Reset()方法的使用
    • 为Pages Extraction添加了C ++源代码示例
    • DocumentMerger添加Merge2(inputfile1,inputfile2,outputfile)方法来合并2个文件
    • XLS Extractor小错误修复程序
    • PDF Multitool现在允许启用/禁用文本,图像,矢量图层,添加文本提取的高级设置
    • XML,CSV,表格提取改进了对列中具有emtpry单元格的表的支持
    • .ExtractShadowLikeText属性改进:更好地过滤类似阴影的文本

    版本6.10.2136中的新功能

    版本6.10.2136:

    • PDF到XML,PDF到CSV,PDF到文本功能得到改进
    • PDF到XLS命令行示例添加(基于vbscript)
    • PDF到HTML SDK添加新的.DetectHyperLinks属性(默认情况下为TRUE)以启用/禁用文本中的自动链接检测
    • 新的SearchablePDFMaker(可用于PRO许可证)将PDF转换为可搜索的PDF文件
    • 提取器中的新属性:ThinkingFontNames,ConsideFontSizes,TakingFontColors,CFG文件中的ConsideVerticalBorders
    • 标题列检测(当AutoAlighHeaderToColumns = true时)得到改进
    • .DetectLinesInsteadOfParagraphs替换为新的.LineGroupingMode来控制如何将行合并为段落
    • 重要! PDF To XML修复了文本对象的Y坐标不正确的长时间问题(指向左下角而不是左上角)
    • .TableXMinIntersectionRequiredInPercents和.TableYMinIntersectionRequiredInPercents属性已添加
    • 添加了C ++源代码示例
    • XML Extractor修复了PreserveFormatting = true模式中缺少的空列
    • 对某些PDF文件中的颜色进行微小修复
    • 添加了对多种OCR语言的支持
    • PDF Multitool GUI:将复制到剪贴板按钮添加到TXT,CSV,XML和光栅渲染器对话框
    • XLSExtractor:添加PageToWorksheet属性以启用/禁用每页生成单独的工作表
    • new .TextEncodingCodePage属性
    • PDFViewerControl:添加ValidateContextMenu,允许用户将自定义项添加到上下文菜单
    • PDF查看器控件:添加属性ShowTextObjects,ShowImageObjects,ShowVectorObjects
    • XMLExtractor现在为已识别的文本添加“OCRConfidence”属性
    • PDF / A检查功能(测试版)
    • 根据原始布局改进控件和文本检查和对齐。问题是由解析时控件中Y坐标的移位引起的:这是不正确的。正确的方法是shif ...
    • XML Extractor已更新:现在为复选框和文本字段生成CONTROL标记
    • 将当前目录更改为临时目录
    • 更好地支持复选框,radioboxes,editboxes,comboboxes
    • 现在允许部分信任呼叫者

    版本5.80.1781中的新功能

    版本5.80.1781:

    • PDF到XML,PDF到CSV,PDF到文本功能已更新
    • OCRMode现在提供9种模式
    • .DetectLineInsteadOfParagraph现在效果更好。将其设置为False以捕获表格单元格中的多行文本!
    • PDF控件支持改进
    • FDF和XFDF数据提取

    版本5.10.1747中的新功能

    版本5.10.1747:

    • PDF到XML,PDF到CSV,PDF到文本功能得到改进
    • 现在支持从文本控件中提取文本
    • XML提取器现在将字体样式,大小,名称,文本坐标添加到标记中
    • 添加了用于OCR使用的ASP.NET示例
    • 新属性OCRLanguageDataFolder指定“tessdata”文件夹的位置
    • 改进了对PDF文件的支持
    • 改进了对旋转文本的支持
    • 更新了源代码示例
    • 更新了文档
    • 小改进和修复

    版本5.00.1626中的新功能

    版本5.00.1626:

    • 添加了OCR(图像中的文本)功能:现在您可以从嵌入的图像中提取文本并修复损坏的文本
    • 使用CSV和XML提取程序修复的问题在某些设置中缺少最后一列
    • 改进了对损坏的PDF文件的支持
    • 现在支持使用单词匹配模式的多行搜索文本搜索
    • 现在可以使用连字符和不同的行搜索文本:查看新的源代码示例查找带连字符的文本
    • 新属性.RTLTextAutoDetectionEnabled(默认为false)自动检测RTL语言
    • 改进了PDF Viewer GUI演示
    • 小改进和修复

    要求

    .NET Framework 2.0或更高版本

    限制

    Nag屏幕,输出水印

    支持的操作系统

    类似的软件

    ApPHP Tabs
    ApPHP Tabs

    14 Dec 14

    JEZ Arguo
    JEZ Arguo

    14 Dec 14

    KoolChart
    KoolChart

    14 Dec 14

    显影剂的其他软件 ByteScout

    意见 ByteScout PDF Extractor SDK

    评论没有发现
    添加评论
    打开图片!