Apache Nutch 2.3

阿帕奇Nutch的是建立在顶部的的Apache Lucene的,一个强大的Java搜索引擎。Nutch的开发人员修改了Lucene的代码库,转换数据无关的代码库的Lucene成专门用于搜索网络上的数据专门项目。这种技术可以用于搜索自己的Web页面作为一个内置的搜索服务器,或爬行网页寻找数据解析和刮除到数据库。Nutch的可以在一台机器上运行,但效果更好的的Hadoop 集群。各种插件可用于扩大其使用范围 什么是此版本中的新: ...