美丽的汤项目是一个Python HTML / XML解析器专门为喜欢屏幕抓取快速周转项目。三个特点使其功能强大:
如果你给它坏标记美丽的汤不会呛。这产生了一个解析树,使大约多大意义的原始文档。这通常是不够好,收集你需要的数据和逃跑。
美丽的汤提供了一些简单的方法和Python化成语的导航,搜索和修改分析树:一个工具包解剖文档和提取你所需要的。您不必创建一个自定义的解析器为每个应用程序。
美丽的汤会自动收到的文件为Unicode和传出的文件,以UTF-8的转换。你不必去想编码,除非该文件没有指定编码和美丽的汤不能自动检测之一。那么你只需要指定原始编码。
美丽的汤解析什么,你给它,并且做树的遍历的东西给你。你可以告诉它“查找所有链接”,或“查找类externalLink的所有链接”,或“查找其URL匹配所有的链接”foo.com“或”查找表的标题即是有大胆的文字,然后给我的文字。“
一度被关在设计拙劣的网站有价值的数据,现在唾手可得。 。将采取时间项目采取与美丽的汤唯分钟
要求:
- 在Python中
评论没有发现