的Apache提卡是一个开源工具包旨在检测并提取元数据,以及结构化的文本内容来自几个文件,只用现有的解析器库。
阿帕奇蒂卡支持以下文件格式:超文本标记语言(HTTP),XML和派生格式,微软Office文档格式,开放文档格式(ODF),可移植文档格式(PDF),电子出版物格式(EPF),富文本格式(RTF ),压缩和封装格式,文本/音频/图片/视频格式的mbox格式,和Java类文件和档案。
此前,阿帕奇提卡是在Apache Lucene的软件库的一个子项目。现在,它是分布式作为一个独立的包由Apache软件基金会
什么在此版本中是新的:
- 在删除一个测试HTML文件,它(TIKA-1129)一个选择不当的GPL文本。
- 在改进提卡服务器允许它生产的text / html和文本/ xml内容(TIKA-1126,TIKA-1127)。
- 在改进了对压缩机解析器作出处理需要的decompressConcatenated选项设置为true(TIKA-1096)g'zipped文件。
- 在寻址一个从检测的awk文件(TIKA-1081)。 防止印刷错误
- 在增加了一个新的端点,以Tika的JAX-RS REST服务器只检测媒体类型的基础上提交(TIKA-1047号)文件的一小部分。
- RTF:有序和无序列表现在提取(TIKA-1062)
- 在MP3:音频持续时间现在提取(TIKA-991)
- 在Java的.class文件:升级从ASM 3.1至4.1 ASM解析了Java字节码(TIKA-1053)
- 在Mime类型:定义扩大到包括可选链接(URL)以及UTI,以及细节几种常见的格式(TIKA-1012 / TIKA-1083)
- 在解析时,OLE10嵌入文档,从Office文档解析摘要信息的时候,并保存在TikaCLI嵌入式documennts时例外现在登录而不是放弃提取(TIKA-1074)
- 在MS Word中:行表格的性格,现在换成换行符(TIKA-1128)
- 在XML:ElementMetadataHandlers现在可以选择接受重复和空值(TIKA-1133) 。
要求:
- 在Java 2标准版运行环境
评论没有发现