是处理非结构化数据
许多应用程序需要访问的格式化或标记的文档的文本内容。该归档文件组织经常需要访问文本内容,以使文档搜索,使内容聚合,文件档案的报告和开采。搜索和检索应用程序还需要提取和记号化,从各种文件格式的文本。
访问和提取的文件的文本的一个标准的机制是由微软的搜索引擎所使用的IFilter的插件接口提供的。还有微软和其他厂商开发了一些IFilter的实现,涵盖多种文件格式。在多个IFilter的开发标准或可靠性和文本提取质量参差不齐。
Opait文字过滤器是与其他主机以及一个直接与文件格式而工作,并改善了默认的IFilter实现一些自定义文本提取过滤器上已经安装了一个简单的接口IFilter的一个小工具程序。
。提取文本的接口是由被包括并且可用于文本过滤器集成到.NET应用程序的小类库称为Opait.Filters提供
<强>要求强>
的.NET Framework 4.5
评论没有发现