该脚本可以在一个页面,网站,多个域甚至不停上运行。
SPIDR的设计是快速和易于使用
功能:
- 从以前的会话恢复抓取队列和历史。
- 在自定义用户代理字符串。
- 在自定义代理服务器设置。
- HTTPS支持。
- 标记一个
- iframe标记。
- 帧标签。
- 在Cookie的保护环节。
- 在HTTP 300,301,302,303和307重定向。
- 在元刷新重定向。
- 在HTTP基本认证保护的链接。
- URL方案。
- 主机名
- 端口号
- 全部链接
- URL扩展
- 在访问的每一个页面。
- 在每一个访问过的URL。
- 在一个特定的模式相匹配的所有访问过的URL。
- 在每个出发地和目的地的链接的URI。
- 在失败每个URL来访问。
- 暂停蜘蛛。
- 在跳转页面处理。
- 跳转链接处理。
<李班=“bbli”>如下:
根据<李班=“bbli”>黑名单或白名单网址:
<李班=“bbli”>提供回调为:
<李班=“bbli”>提供操作方法:
什么在此版本中是新的:
- 在抓住OpenSSL的SSL :: :: SSLError异常时启动HTTPS会话。
评论没有发现