Methabot

软件截图:
Methabot
软件详细信息:
版本: 1.6.0.1
上传日期: 3 Jun 15
开发: Emil Romanus
许可: 免费
人气: 9

Rating: nan/5 (Total Votes: 0)

该Methabot软件是一个速度优化,编写脚本和高度可配置的Web,FTP和本地文件系统的抓取工具。它支持文件类型脚本解析,各种各样的自定义选项,很容易配置,以适应任何人的特殊需要。
通过使用该模块系统和脚本语言,用户都能够采取全部或部分控制抓取过程,并决定然而Methabot应存储网络数据,统计等等。
刚刚通过运行命令行Methabot您可以配置自定义文件类型,过滤表情,行为,等等,所以你不必成为一个编剧

功能

  • 在它速度快,从底层设计了速度优化的考虑。
  • 在编写脚本通过JavaScript使用E4X
  • 在自定义文件类型过滤(根据MIME类型,文件扩展名或UMEX表达式)
  • 在多线程
  • 从命令行高度可配置的
  • 在可扩展的模块系统,支持自定义数据分析器和过滤器。
  • 的URL通过UMEX简单而强大的过滤功能。
  • 自动下载
  • 在HTTP上运行时,支持自动cookie处理
  • 可靠,容错网络
  • 便携式,与32位/ 64位Linux 2.6测试成功,32位/ 64位的FreeBSD的6.x / 7.0,Windows XP和Mac OS X的工作应该在几乎所有的类Unix操作系统。

什么在此版本中是新的

  • 修正,当外部偷看使用了深度限制是搞砸了。
  • 内存使用情况的清理修复
  • 在动态URL选项不再默认设置为查找,因为它会减慢显著爬行
  • 在构建系统现在连接的时候创建并安装一些模块可以使用头文件
  • 甲基-配置工具添加
  • lmm_mysql这个包的外面移动

在什么版本1.5.0是新的

  • 在变化和新的特点:
  • 支持读取intial缓冲从标准输入
  • - 类型和--base-url命令行选项加入,以及在配置文件中的initial_filetype选项
  • 饼干和DNS信息是正确的,现在工人之间运行多线程
  • 共享时,
  • 在增加了一些例如使用命令--examples
  • 要线程间通信大的改进,现在更快,更举办
  • 新增的“初始化”功能的脚本支持。了解更多关于初始化函数在http://bithack.se/projects/methabot/docs/e4x/init_functions.html
  • libmetha没有做多个并发的HTTP HEAD请求时冻结了。究其原因,是冻结这是现在固定在libcurl的一个bug。一些解决方法已经被添加到libmetha使用藏汉缺陷的libcurl版本时,以防止冻结从发生的历史。
  • 支持较老版本的libcurl和7.17.x 7.16.x
  • 在新的信息中可用的"这&Q​​UOT; JavaScript的解析器,内容类型和传输状态代码对象。更多详情http://bithack.se/projects/methabot/docs/e4x/this.html
  • - 详细选项与--silent更换,因为详细模式现在默认
  • 为FTP抓取和初步支持ftp_dir_url履带选项
  • 在深度限制现在是履带式专用
  • 添加命令行选项--crawler和--filetype
  • 支持扩大和压倒一切已经定义爬虫和文件类型
  • 支持在配置文件中的副本关键字
  • 支持动态切换活动履带,这可以让你抓取不同的网站完全不同的方式在一个爬行会话。了解更多关于履带式的开关在http://bithack.se/projects/methabot/docs/crawler_switching.html
  • libev版本升级到3.51
  • include指令在配置文件中,现在可以确保包括配置文件尚未加载,以防止包括-环和多文件类型/履带式定义。
  • 各种SpiderMonkey的垃圾收集修复,libmetha不会崩溃了多线程会议结束后清洗时可达
  • 添加了一些额外的信息到--info选项
  • 在“外部”选项现在固定,并再次启用
  • 在新选项--spread工
  • 新libmetha API函数lmetha_global_setopt()允许更改全局错误/消息/警告记者
  • 在一个测试套件为开发人员的新增初步实施
  • 更好的错误报告加载配置文件时
  • 修正时,HTTP服务器HEAD请求后未返回Content-Type头
  • 修正时,多个HTTP HEAD请求后分类网址
  • 修正的HTML到XML转换器当HTML页面没有一个< HTML>标签
  • 修正的extless-url选项没有工作
  • 修正,HTML到XML转换器不再字节顺序标记或实际的HTML之前,其他文字扼流圈
  • 修正,防止libmetha尝试访问协议的URL不支持
  • 修正错误后关闭的时候。
  • 修正,无法解决的网址没有经过三次试打出来的重试循环
  • 非常实验和不稳定的Win32的支持,主要用于开发
  • 新的配置文件:
  • google.conf,进行谷歌搜索
  • youtube.conf,YouTube的搜索
  • meta.conf,版画元信息,如关键字和描述的HTML页面
  • title.conf,打印HTML页面的标题
  • ftp.conf,爬行FTP服务器

什么是1.4.1版本的新

  • 在配置找不到jsapi.h在某些系统,这应该是现在固定的。
  • 配置文件是现在能够修改和履带文件类型的标志,增加了选项'外部'和'external_peek“
  • 修正,Methabot有时会清理空的URL时崩溃多个HTTP头之后
  • 修正了同步运行时发生崩溃。
  • 在构建系统包括修复时jsconfig.h找不到。

要求

  • 在SpiderMonkey的标题
  • 卷曲

类似的软件

ftputil
ftputil

20 Feb 15

sysfunc
sysfunc

17 Feb 15

AxY FTP
AxY FTP

3 Jun 15

意见 Methabot

评论没有发现
添加评论
打开图片!