是处理非结构化数据许多应用程序需要访问的格式化或标记的文档的文本内容。该归档文件组织经常需要访问文本内容,以使文档搜索,使内容聚合,文件档案的报告和开采。搜索和检索应用程序还需要提取和记号化,从各种文件格式的文本。 访问和提取的文件的文本的一个标准的机制是由微软的搜索引擎所使用的IFilter的插件接口提供的。还有微软和其他厂商开发了一些IFilter的实现,涵盖多种文件格式。在多个IFilter的开发标准或可靠性和文本提取质量参差不齐。 Opait文字过滤器是与其他主机以及一个直接与文件格式而工作,并...

阅读更多