Apache的Nutch的项目是一个开源的,可扩展的,高度可扩展的和免费的基于Web的网络爬虫软件建立在Apache Lucene的(Java版本)库。
它增加了网络的细节,诸如履带式,链路图形数据库,解析器HTML和其他文件格式等,这是由Apache基金会,它两个单独的分支开发和分布。
作为模块化,可插拔的,Apache的Nutch的有它的好处,通过提供像解析,索引和ScoringFilter扩展接口的自定义实现,比如Apache提卡解析。
此外,Apache的Nutch的目的是在一台机器上运行,但在Hadoop集群上运行时更强大。可插拔的索引存在弹性搜寻,Apache Solr实现,等等
什么是此版本的新:
- 在Nutch的-1779应用格式的代码(lewismc)
- Outlinks的Nutch的-1907错误的输出到主机内HostDbUpdateReducer(lewismc)
- Nutch的-1856文件webpage.avsc和host.avsc(lewismc)
- Nutch的-1834 GeneratorMapper行为取决于日志级别(格哈德通过snagel戈森)
- Nutch的-1899升级的Restlet的lib,以防止构建失败(塔拉特)
- Nutch的-1797关掉不用的包oanhtml(SAURABH通过snagel Chhajed)
- Nutch的1888指定HTMLMapper在TikaParser(通过jnioche哈利勒Simsek)使用
- Nutch的-1897更容易调试插件XML错误(马库斯)
- Nutch的-1823升级到elasticsearch 1.4.1(富侨,马库斯,lewismc)
- Nutch的-1829发电机:无法分辨真正的错误(马修布沙尔,jnioche,snagel)
- Nutch的-1778发电机无法正常登录一批网址数量(jnioche通过snagel)
- Nutch的-1877后缀URL过滤忽略默认的查询字符串(通过snagel马库斯)
- Nutch的-1825协议HTTP可能会挂起的某些网页(富通过snagel侨)
- Nutch的-1483不能抓取文件系统,协议文件的插件(罗热里奥·佩雷拉·阿劳霍,梦莹王,snagel)
- Nutch的1885协议文件应该把符号链接作为重定向(梦莹王,snagel)
- Nutch的-1880 URLUtil不应该添加的文件URL额外的斜线(snagel)
- Nutch的-1879正则表达式的URL规范器应文件后删除多个斜线:协议(snagel)
- Nutch的-1820删除字段"原稿"它复制及QUOT; ID" (lewismc,snagel)
- Nutch的-1843升级到戈拉0.5(塔拉特,lewismc,基里尔·缅希科夫,drazzib)
- Nutch的-1883斌/抓取:使用功能运行斌/ Nutch的时间并退出值(snagel)
- Nutch的-1882蚁蚀目标增加输出路径为src /测试(snagel)
- Nutch的-1827端口的Nutch-1467和Nutch的,1561年到2.X(snagel)
- Nutch的-1876升级到履带下议院0.5(jnioche)
- Nutch的,1866年蚁蚀目标不应该删除运行时(nimafl通过lewismc)
- Nutch的-1859让Nutch的Web应用程序的端口配置(通过lewismc尼玛Falaki)
- 在DashboardPage.html情况下反Nutch的-1848的Bug(尼玛通过lewismc Falaki)
- Nutch的-841创建一个Wicket的Web应用Nutch的(通过lewismc Fjodor Vershinin)
- Nutch的-1832让Nutch的工作,而一个索引(mattmann通过lewismc)
- 的Nutch-1840在SolrIndexWriter的功能描述不正确(kaveh通过jnioche minooie)
- Nutch的,1837年升级到提卡1.6(lewismc)
- Nutch的-1829发电机:无法分辨真正的错误(通过jnioche马修布沙尔)
- Nutch的-1828斌/抓取:不正确处理Nutch的错误(通过jnioche马修布沙尔)
- Nutch的-1693 TextMD5Signature计算的文本内容(田阮孟,马库斯通过snagel)
- Nutch的-1409删除过时的属性分贝。{默认情况下,最大} .fetch.interval,generate.max.per.host.by.ip(通过snagel马蒂亚斯Agethle)
- Nutch的-1819 batchId在GeneratorJob(通过lewismc Fjodor Vershinin)
- Nutch的-1708使用相同的ID时,检索和删除重定向(snagel)
- Nutch的-1817从源代码中删除的pom.xml(jnioche)
- Nutch的-1811箱/ Nutch的JUnit来使用JUnit 4测试运行器(snagel)
- Nutch的-1776登陆不正确plugin.folder文件路径(通过snagel Diaa)
- Nutch的-1566箱/ Nutch的允许空白的路径(tejasp,snagel)
- Nutch的-1605 MIME类型探测器识别XLSX为zip文件(snagel)
- Nutch的-385改进线程相关的配置说明撷取(jnioche,陆丰)
- Nutch的-1798抓取脚本不调用index命令正确(亚伦Bedward通过jnioche)
- Nutch的-1769的REST API的重构(Fjodor通过lewismc Vershinin)
- Nutch的-1633 SLF4J是由Hadoop的提供,不应包括在(通过jnioche kaveh minooie)的作业文件
- Nutch的-1787更新和完整的API文档总览页面(snagel)
- Nutch的-1767取出的特殊治疗(treatment)PARAMS"在相对链接(snagel)
- Nutch的-1718重新定义http.robots.agent为"另外的代理名称和QUOT; (snagel,Tejas的帕蒂尔,丹尼尔·库格尔)
- Nutch的-1796确保戈拉对象建设者被用作反对空构造函数(通过lewismc snagel)
- Nutch的-1590 [安全]帧注射公布的Javadoc漏洞(jnioche)
- Nutch的-1736无法抓取页面,如果HTTP响应报头包含传输编码:分块(YSC通过jnioche)
- Nutch的-1782 NodeWalker返回当前节点(马库斯)
- Nutch的-1781更新山 - * - mapping.xml和gora.proeprties反映戈拉0.4(lewismc)
- Nutch的-1768升级到ElasticSearch 1.1.0(jnioche)
- Nutch的-1634 readdb -stats显示结果的两倍(kaveh通过jnioche minooie)
- Nutch的-1780 TTL和gc_grace_seconds属性从山 - 卡桑德拉-mapping.xml文件丢失(kaveh minooie通过lewismc)
- Nutch的-1676加入基本的SSL支持协议HTTP(jnioche,马库斯)
- Nutch的-1674使用batchId过滤器,使扫描(GORA-119),用于获取,分析,更新,索引(田阮孟和Alparslan Avci的通过jnioche)
- Nutch的-1714升级到戈拉0.4(Alparslan通过jnioche Avci的)
- Nutch的-1752高速缓存的robots.txt规则,每个协议:主机:端口(snagel)
- Nutch的-1613超时的协议HttpClient的爬满了&GT相同的主机时,2个线程(brian44通过jnioche)
- Nutch的-1182读取器登录挂起线程(snagel)
- Nutch的-1618转推测执行关闭用于读取(塔拉特)
- Nutch的-1657 ORIGINAL_CHAR_ENCODING和CHAR_ENCODING_FOR_CONVERSION中的HTMLParser(塔拉特)从未设置
- Nutch的-1725 CleaningJob的减速不承诺删除的文档。 (通过塔拉特ilhamikalkan)
- Nutch的-1728索引,Solr的插件不删除Solr的文档(ilhamikalkan通过塔拉特)
- 的2.X的Nutch-1753,使用Eclipse的关系是不问题(塔拉特)
- 在HttpBase.java(通过jnioche沃尔特肋软骨炎)Nutch的-1720重复的行
- Nutch的-797的网址不正确构造时,链接目标始于"?" (道格·库克,罗伯特Hohman,Stondet,通过snagel AB)
- Nutch的-1759升级到履带下议院0.4(jnioche)
- Nutch的-1700删除弃用的src /插件代码/项目Creativecommons / build.xml文件(lewismc)
- Nutch的-1761抓取脚本未能找到工作的文件如果不从bin目录内开始(大卫·霍斯金,jnioche)
- Nutch的-1603 ZIP解析器抱怨截断PDF文件(通过lewismc snagel)
- Nutch的-1743 parsechecker显示outlinks(snagel)
- Nutch的-1732更好的CMD线(通过lewismc Fjodor Vershinin)解析为NutchServer
- Nutch的-1751空锚不应指数(经lewismc Sertac·巴)
- Nutch的-1733解析HTML的支持HTML5的字符集定义(snagel)
- Nutch的-1727可配置的长度顶级域名(Sertac通过lewismc·巴)
- Nutch的-1738暴露每批在GeneratorJob(通过ewismc塔拉特UYARER)生成的URL数量
- Nutch的-1671 indexchecker添加信息摘要(snagel,陆丰)
- Nutch的-1645 JUnit测试用例的自适应取附表类(亚辛Kilinc,陆丰,通过snagel Sertac URKEL)
- Nutch的-1478解析,元标签和索引,元数据插件Nutch的2.X系列(吉兰,阮无水田,塔拉特UYARER,通过lewismc范吉利斯Karvounis)
- Nutch的1729升级到提卡1.5(jnioche)
- Nutch的-1721升级到履带式通用0.3(tejasp)
- Nutch的-1719 DomainStatistics失败2.x的,因为URL不unreversed(格哈德通过lewismc戈森)
- Nutch的-1253 Incompatableネ和Xerces版本(snagel,lewismc,塔拉特UYARER)
- Nutch的-1715 RobotRulesParser增加了额外的“*”的机器人的名字(tejasp)
- Nutch的-356插件库高速缓存可能会导致内存泄漏(恩里科Triolo,Dogacan居内伊通过马库斯)
- Nutch的-1164写的JUnit测试协议HTTP(Sertac通过tejasp·巴)
- Nutch的-1710加山包记录到log4j.properties(lewismc)
- Nutch的-1655索引器插件弹性搜索(塔拉特UYARER通过lewismc)
- Nutch的-1699提卡分析器 - 图像解析错误(穆罕默德·扎希德Yuzuguldu,通过lewismc snagel)
- Nutch的-1568端口可插入索引架构2.X(通过lewismc塔拉特UYARER)
- Nutch的-1672反向链接是(通过lewismc田阮孟)加两次DbUpdateReducer
- Nutch的-1667数据库更新总是忽略batchId(通过lewismc田阮孟)
- Nutch的-1695 NutchDocument.toString()(马库斯通过lewismc)
- Nutch的-1696能够使用的(强罗)快照依赖(lewismc)
- Nutch的-1681在URLUtil.java,toUNICODE方法不能正常工作(A
评论没有发现