可以以书面的搜索爬虫(蜘蛛),地雷网页的各种信息进行使用。
PHPCrawl收购它被配置来获取信息,并通过它进行进一步处理,以更强大的应用
特点:
- 在过滤器URL和内容类型的数据
- 定义的方式来处理cookie
- 定义的方式来处理的robots.txt文件
- 在限制它的活动以各种方式
- 在多处理模式
什么在此版本中是新的:
- 在修正错误:
- 在链接被部分进行了urlencoded和部分没有得到重建/。
- 在删除一个不必要的调试的var_dump()
- 在服务器名称指示在TLS / SSL现在可以正常工作。
- "基HREF"标签都有效的网站得到正确的解释,现在又
现在,正确编码
从PHPCrawlerRobotsTxtParser.class.php
什么版本0.80公测新:
- 在代码完全被重构,移植到PHP5,OO-的那些代码和大量的代码被改写。
- 添加到使用使用多个进程蜘蛛网站的能力。方法" goMultiProcessed()"补充说。
- 在新覆盖的方法和QUOT; initChildProcess()"在多进程模式使用履带式启动时,子流程补充说。
- Implementet一个替代方案中,内部SQlite的缓存-机制的URL使得能够蜘蛛非常大的网站。
- 在法" setUrlCacheType()"补充说。
- 新方法setWorkingDirectory()增加了临时工作目录手工定义爬虫的位置。为此方法" setTmpFile()"被标记为废弃(有没有功能了)。
- 在新的方法和QUOT; addContentTypeReceiveRule()"取代了旧的方法和QUOT; addReceiveContentType()"
- 在功能" addReceiveContentType()"仍然存在,但被标记为过时。
要求:
- 在PHP 5或更高
- 在与OpenSSL的支持PHP
评论没有发现