废材是用Python编写的100%,可用于简单的数据挖掘,以网页监控,网络搜索引擎,甚至进行代码测试。
Scrapy不在字的真谛一个搜索引擎,但是它的作用就像一(不带索引的一部分)。不过Scrapy可以是一个伟大的工具来建立你的搜索引擎的逻辑上。
这个框架的真正威力取决于在其核心的多功能性,Scrapy是在其上建立在通用或专用的搜索蜘蛛(抓取工具)的系统。
虽然这听起来非常复杂的非技术用户,快速查看过的文件和可用的教程,这是很简单的,看看如何Scrapy设法采取了所有的辛勤工作了这一点,并降低整个过程只几行代码(更容易,更小爬虫)
是什么在此版本中是新的:
- 在引文结束请求路径传递给FtpClient的面前,它已经逃脱路径。
- 包含测试/以源代码发布在MANIFEST.in。
什么是1.0.1版新:
- 在引文结束请求路径传递给FtpClient的面前,它已经逃生路径。
- 包含测试/以源代码发布在MANIFEST.in。
什么的0.24.6版本是新的:
- 在加入UTF8编码头模板
- 在远程控制台现在默认绑定到127.0.0.1
- 在更新的Debian / Ubuntu的安装说明
- 禁用智能串LXML XPath计算
- 恢复基于文件的缓存默认HTTP缓存中间件
- 在当前暴露在履带式外壳Scrapy
- 在提高比较CSV和XML出口商测试套件
- 新的异地/过滤和异地/域统计
- 支持process_links作为发电机CrawlSpider
什么的0.24.5版本是新的:
- 在加入UTF8编码头模板
- 在远程控制台现在默认绑定到127.0.0.1
- 在更新的Debian / Ubuntu的安装说明
- 禁用智能串LXML XPath计算
- 恢复基于文件的缓存默认HTTP缓存中间件
- 在当前暴露在履带式外壳Scrapy
- 在提高比较CSV和XML出口商测试套件
- 新的异地/过滤和异地/域统计
- 支持process_links作为发电机CrawlSpider
什么是0.22.0版本,新的:
- 重命名scrapy.spider.BaseSpider到scrapy.spider .Spider
- 在推广上的设置和中间件INFO级别的启动信息
- 支持谐音
- 在允许通过TOX 运行indiviual测试
- 将链接提取忽略更新扩展
- 选择器注册EXSLT名称空间默认
- 统一产品装载机相似,选择重命名
- 请RFPDupeFilter类易子类化
- 在提高测试覆盖率和未来的Python 3支持
在get_func_args UTIL
什么版本0.20.1为新的:
- 要建立从公布的资料来源车轮include_package_data是必需的。
什么的0.18.4版本是新的:
- 在固定AlreadyCalledError替换在shell命令的请求
- 固定start_requests lazyness和早期挂起。
什么的0.18.1版本是新的:
- 在删除多余的进口由樱桃采摘添加修改
- 修正下扭曲的预11.0.0爬行测试。
- 在py26无法格式化零长度字段{}
- 在未绑定的响应测试PotentiaDataLoss错误。
- 在未经治疗的Content-Length或传输编码作为良好的反应的反应。
- 难道不包括,如果http11处理程序未启用ResponseFailed。
要求:
- 在Python的2.7或更高版本
- 扭曲2.5.0或更高版本
- 在libxml2的2.6.28或更高
- pyOpenSSL
评论没有发现