Apache Tika

软件截图:
Apache Tika
软件详细信息:
版本: 1.4
上传日期: 20 Feb 15
许可: 免费
人气: 6

Rating: nan/5 (Total Votes: 0)

的Apache提卡是一个开源工具包旨在检测并提取元数据,以及结构化的文本内容来自几个文件,只用现有的解析器库。
阿帕奇蒂卡支持以下文件格式:超文本标记语言(HTTP),XML和派生格式,微软Office文档格式,开放文档格式(ODF),可移植文档格式(PDF),电子出版物格式(EPF),​​富文本格式(RTF ),压缩和封装格式,文本/音频/图片/视频格式的mbox格式,和Java类文件和档案。
此前,阿帕奇提卡是在Apache Lucene的软件库的一个子项目。现在,它是分布式作为一个独立的包由Apache软件基金会

什么在此版本中是新的

  • 在删除一个测试HTML文件,它(TIKA-1129)一个选择不当的GPL文本。
  • 在改进提卡服务器允许它生产的text / html和文本/ xml内容(TIKA-1126,TIKA-1127)。
  • 在改进了对压缩机解析器作出处理需要的decompressConcatenated选项设置为true(TIKA-1096)g'zipped文件。
  • 在寻址一个从检测的awk文件(TIKA-1081)。
  • 防止印刷错误
  • 在增加了一个新的端点,以Tika的JAX-RS REST服务器只检测媒体类型的基础上提交(TIKA-1047号)文件的一小部分。
  • RTF:有序和无序列表现在提取(TIKA-1062)
  • 在MP3:音频持续时间现在提取(TIKA-991)
  • 在Java的.class文件:升级从ASM 3.1至4.1 ASM解析了Java字节码(TIKA-1053)
  • 在Mime类型:定义扩大到包括可选链接(URL)以及UTI,以及细节几种常见的格式(TIKA-1012 / TIKA-1083)
  • 在解析时,OLE10嵌入文档,从Office文档解析摘要信息的时候,并保存在TikaCLI嵌入式documennts时例外现在登录而不是放弃提取(TIKA-1074)
  • 在MS Word中:行表格的性格,现在换成换行符(TIKA-1128)
  • 在XML:ElementMetadataHandlers现在可以选择接受重复和空值(TIKA-1133)

要求

  • 在Java 2标准版运行环境

显影剂的其他软件 The Apache Software Foundation

Apache HBase
Apache HBase

17 Feb 15

Apache Chukwa
Apache Chukwa

19 Feb 15

Apache Ambari
Apache Ambari

18 Jul 15

意见 Apache Tika

评论没有发现
添加评论
打开图片!