Apache Tika

软件截图:
Apache Tika
软件详细信息:
版本: 1.9 更新
上传日期: 20 Jul 15
许可: 免费
人气: 89

Rating: 5.0/5 (Total Votes: 1)

的Apache提卡是作为一个低级别的工具包内查找其他文件的内容。
蒂卡没有做太多自己是一个简单的库,但它可以集成更多的功能强大的工具,如搜索引擎,数字资产管理系统或CMS的,以提供一个全功能的文件搜索系统。
这个库可以访问不仅仅是文件的标题,以便快速全面的文件资料,也可以去真正深入并在该文件的正文中搜索甚至对于不同类型的数据,文本或二进制格式。
多种文件类型支持和提卡也可以与其他编程语言多亏了一系列第三方的绑定和包装使用。

什么是此版本的新

  • 在此版本包括bug修复和新功能,包括新的tesseract OCR分析器;新GDAL分析器;支持更多的格式,并整体改善提卡稳定。

什么是1.8版本的新

  • 在此版本包括bug修复和新功能,包括新的tesseract OCR分析器;新GDAL分析器;支持更多的格式,并整体改善提卡稳定。

什么是1.7版本的新

  • 在此版本包括bug修复和新功能,包括新的tesseract OCR分析器;新GDAL分析器;支持更多的格式,并整体改善提卡稳定。

什么是1.6版本的新

  • 在此版本包括bug修复和新功能,包括新的翻译API,支持更多的格式,并在提卡稳定的全面改善。

什么是1.5版新

  • 在PDF文件中处理的嵌入式文件处理的固定的臭虫
  • 新增SourceCodeParser支持Java,Groovy中,C ++的文件。
  • 更新提卡服务器支持的multipart / form-data的有效载荷。
  • 更新提卡服务器CXF 2.7.8。
  • 更新提卡服务器接受了通配符地址的请求。
  • 添加选项使用备用NonSequentialPDFParser。
  • 从PDF AcroForms内容现在提取。
  • 从主幻灯片固定无效的星号的PPT。
  • 添加测试用例以确认PPT和PPTX处理的​​自动更新。

什么,版本1.4中新的

  • 在删除一个选择不当的GPL文本在测试HTML文件吧。
  • 改进提卡服务器允许它生产的text / html和text / xml内容。
  • ,改进了压缩机分析器作出处理需要的decompressConcatenated选项设置为true g'zipped文件。
  • 在写给一个从检测AWK文件防止印刷错误。

什么版本1.2是新的

  • 在Apache的蒂卡1.2包含了一些改进和bug修复。

什么版本1.0是新的

  • 在Apache的蒂卡1.0包含了一些改进和bug修复。

什么是0.9版本的新

  • 在此版本包括一些重要的错误修复和新功能

什么是0.8版本的新

  • 在语言识别是目前动态配置,通过配置文件管理从classpath载入。
  • 提卡现在支持解析供稿通过封装底层的罗马库。
  • 快速入门指南提卡解析了贡献。
  • 通过XHTML属性管道的方法加入。
  • 在媒体类型层次信息现在选择一个给定的输入文档的最佳解析器的时候考虑的。
  • 支持解析共同的科学数据格式,包括的netCDF和HDF4 / 5加入。
  • 在单元测试的Windows已经被固定,允许​​TestParsers完成。

什么是0.7版本的新

  • 在MP3文件的解析进行了改进,包括通道和采样率提取ID3v2的支持。此外,音频解析MIME检测也得到了改善的MIDI格式。
  • 提卡不再依赖于X11以其RTF的分析功能。
  • 在AutoDetectParser线程安全漏洞被发现和解决。
  • 升级到1.0.0 PDFBox的。新PDFBox的版本改进了PDF解析性能,并修复了一些文本提取问题。

要求

  • 在Java 6或更高

类似的软件

JSON-lib
JSON-lib

23 Jul 15

rdf-spec
rdf-spec

10 Dec 15

BigInt.js
BigInt.js

14 Apr 15

Json.NET
Json.NET

20 Jul 15

显影剂的其他软件 Apache Software Foundation

Apache HBase
Apache HBase

9 Apr 16

Apache ACE
Apache ACE

13 Apr 15

Apache Avro
Apache Avro

10 Apr 16

意见 Apache Tika

评论没有发现
添加评论
打开图片!