Apache Tika 1.4

的Apache提卡是一个开源工具包旨在检测并提取元数据,以及结构化的文本内容来自几个文件,只用现有的解析器库。阿帕奇蒂卡支持以下文件格式:超文本标记语言(HTTP),XML和派生格式,微软Office文档格式,开放文档格式(ODF),可移植文档格式(PDF),电子出版物格式(EPF),​​富文本格式(RTF ),压缩和封装格式,文本/音频/图片/视频格式的mbox格式,和Java类文件和档案。此前,阿帕奇提卡是在Apache...