该Methabot软件是一个速度优化,编写脚本和高度可配置的Web,FTP和本地文件系统的抓取工具。它支持文件类型脚本解析,各种各样的自定义选项,很容易配置,以适应任何人的特殊需要。
通过使用该模块系统和脚本语言,用户都能够采取全部或部分控制抓取过程,并决定然而Methabot应存储网络数据,统计等等。
刚刚通过运行命令行Methabot您可以配置自定义文件类型,过滤表情,行为,等等,所以你不必成为一个编剧
功能!
- 在它速度快,从底层设计了速度优化的考虑。
- 在编写脚本通过JavaScript使用E4X
- 在自定义文件类型过滤(根据MIME类型,文件扩展名或UMEX表达式)
- 在多线程
- 从命令行高度可配置的
- 在可扩展的模块系统,支持自定义数据分析器和过滤器。
- 的URL通过UMEX简单而强大的过滤功能。
- 自动下载
- 在HTTP上运行时,支持自动cookie处理
- 可靠,容错网络
- 便携式,与32位/ 64位Linux 2.6测试成功,32位/ 64位的FreeBSD的6.x / 7.0,Windows XP和Mac OS X的工作应该在几乎所有的类Unix操作系统。
什么在此版本中是新的:
- 修正,当外部偷看使用了深度限制是搞砸了。
- 内存使用情况的清理修复
- 在动态URL选项不再默认设置为查找,因为它会减慢显著爬行
- 在构建系统现在连接的时候创建并安装一些模块可以使用头文件
- 甲基-配置工具添加
- lmm_mysql这个包的外面移动
在什么版本1.5.0是新的:
- 在变化和新的特点:
- 支持读取intial缓冲从标准输入
- - 类型和--base-url命令行选项加入,以及在配置文件中的initial_filetype选项
- 饼干和DNS信息是正确的,现在工人之间运行多线程 共享时,
- 在增加了一些例如使用命令--examples
- 要线程间通信大的改进,现在更快,更举办
- 新增的“初始化”功能的脚本支持。了解更多关于初始化函数在http://bithack.se/projects/methabot/docs/e4x/init_functions.html
- libmetha没有做多个并发的HTTP HEAD请求时冻结了。究其原因,是冻结这是现在固定在libcurl的一个bug。一些解决方法已经被添加到libmetha使用藏汉缺陷的libcurl版本时,以防止冻结从发生的历史。
- 支持较老版本的libcurl和7.17.x 7.16.x
- 在新的信息中可用的"这" JavaScript的解析器,内容类型和传输状态代码对象。更多详情http://bithack.se/projects/methabot/docs/e4x/this.html
- - 详细选项与--silent更换,因为详细模式现在默认
- 为FTP抓取和初步支持ftp_dir_url履带选项
- 在深度限制现在是履带式专用
- 添加命令行选项--crawler和--filetype
- 支持扩大和压倒一切已经定义爬虫和文件类型
- 支持在配置文件中的副本关键字
- 支持动态切换活动履带,这可以让你抓取不同的网站完全不同的方式在一个爬行会话。了解更多关于履带式的开关在http://bithack.se/projects/methabot/docs/crawler_switching.html
- libev版本升级到3.51
- include指令在配置文件中,现在可以确保包括配置文件尚未加载,以防止包括-环和多文件类型/履带式定义。
- 各种SpiderMonkey的垃圾收集修复,libmetha不会崩溃了多线程会议结束后清洗时可达
- 添加了一些额外的信息到--info选项
- 在“外部”选项现在固定,并再次启用
- 在新选项--spread工
- 新libmetha API函数lmetha_global_setopt()允许更改全局错误/消息/警告记者
- 在一个测试套件为开发人员的新增初步实施
- 更好的错误报告加载配置文件时
- 修正时,HTTP服务器HEAD请求后未返回Content-Type头
- 修正时,多个HTTP HEAD请求后分类网址
- 修正的HTML到XML转换器当HTML页面没有一个< HTML>标签
- 修正的extless-url选项没有工作
- 修正,HTML到XML转换器不再字节顺序标记或实际的HTML之前,其他文字扼流圈
- 修正,防止libmetha尝试访问协议的URL不支持
- 修正错误后关闭的时候。
- 修正,无法解决的网址没有经过三次试打出来的重试循环
- 非常实验和不稳定的Win32的支持,主要用于开发
- 新的配置文件:
- google.conf,进行谷歌搜索
- youtube.conf,YouTube的搜索
- meta.conf,版画元信息,如关键字和描述的HTML页面
- title.conf,打印HTML页面的标题
- ftp.conf,爬行FTP服务器
什么是1.4.1版本的新:
- 在配置找不到jsapi.h在某些系统,这应该是现在固定的。
- 配置文件是现在能够修改和履带文件类型的标志,增加了选项'外部'和'external_peek“
- 修正,Methabot有时会清理空的URL时崩溃多个HTTP头之后
- 修正了同步运行时发生崩溃。
- 在构建系统包括修复时jsconfig.h找不到。
要求:
- 在SpiderMonkey的标题
- 卷曲
评论没有发现