Reds

Reds 0.2.5

红色基本上是一个服务器端,可以添加到任何Node.js的web应用程序的JavaScript搜索引擎。该指数基于文本的数据,将其存储在Redis的数据库,在那里更容易在比解析文本真实位置更快的结果进行查询。这是速度做为主,也更容易维护,以及。红人专门开发用于苦厄 什么在此版本中是新的: 加功能限制的结果(分页)的数目。在不包含单词串固定失败。 什么在0.2.2版本新: 在更新自然 什么在0.2.1版本新: 在处理标点符号更好 什么在0.2.0版本新: ...

阿帕奇Nutch的是建立在顶部的的Apache Lucene的,一个强大的Java搜索引擎。Nutch的开发人员修改了Lucene的代码库,转换数据无关的代码库的Lucene成专门用于搜索网络上的数据专门项目。这种技术可以用于搜索自己的Web页面作为一个内置的搜索服务器,或爬行网页寻找数据解析和刮除到数据库。Nutch的可以在一台机器上运行,但效果更好的的Hadoop 集群。各种插件可用于扩大其使用范围 什么是此版本中的新: ...

PHPCrawl

PHPCrawl 0.83

可以以书面的搜索爬虫(蜘蛛),地雷网页的各种信息进行使用。PHPCrawl收购它被配置来获取信息,并通过它进行进一步处理,以更强大的应用 特点: 在过滤器URL和内容类型的数据定义的方式来处理cookie 定义的方式来处理的robots.txt文件在限制它的活动以各种方式在多处理模式 什么在此版本中是新的: 在修正错误:现在,正确编码在链接被部分进行了urlencoded和部分没有得到重建/。从PHPCrawlerRobotsTxtParser.class.php...