它可以编辑服务器端和客户端的标签,而逐字复制任何无法识别或无效的HTML。
它还提供了高层次的HTML表单操作函数
功能:
- 的存在真实世界QUOT;错误格式的HTML不与文档的其余部分,这使得图书馆使用的理想与&QUOT的分析干扰; HTML的扼流圈其他解析器。
- 在ASP,JSP,PSP,PHP和梅森服务器标签明确由解析器认可。这意味着,普通的HTML仍然被正确分析,即使有它们内部服务器标签,这是常见的,例如当动态设置元素的属性
- 使用StreamedSource类,它允许使用事件迭代器的大文件存储有效地处理新的基于流解析选项。这实质上是一种StAX的替代与处理HTML和非验证XML,以及其他一些功能在其他流解析器不可用的能力。
- 在它的标准形式,它既不是事件,也不基于树的解析器,而是用简单的文本搜索,高效的识别标签和标签位置缓存的组合。整个源文件的案文被第一次加载到内存中,然后只有相关的部分搜索每个搜索操作的相关文字。
- 相比于基于树的解析器,如DOM,内存和资源需求可能要好得多,如果需要该文件的一小部分来解析或修改。不正确或不正确格式的HTML很容易被忽略,与基于树的解析器,必须确定每个节点的文件中从上到下。
- 相比,基于事件的解析器如SAX,界面上一个更高的水平,更直观,并且文档元素层次结构的树表示,如果需要可轻松创建。
- 的开始和所有的分析部分的源文档中的结束位置都可以访问,使文件的选定部分的修改,而不必从树上重构整个文档。
- 在源文档中的每个位置的行数和列数都很方便。
- 提供为HTML表单控件的分析和操作,包括初始值的提取和人口一个简单而全面的接口,并转化成只读或数据显示模式。的形式控制也允许从形式接收的数据的分析,以进行存储和以适当的方式呈现。
- 内置功能来提取HTML标记的所有文本,适用于输送到一个文本搜索引擎,例如Apache Lucene的。
- 内置功能,使简单的文本格式的HTML标记。
- 内置功能来格式化HTML源代码,根据他们在文档元素层次深度缩进元素。 (点击此处查看在线演示)
- 内置功能,紧凑的HTML源代码通过删除所有不必要的空白。
- 在自定义标签类型可以很容易地定义和注册为认可解析器。
是什么在此版本中是新的:
- 在添加的源(文件)构造
- 新增OutputDocument.getSegment()方法。
- 新增OutputDocument.remove(INT开始,INT端)的方法。
- 新增Renderer.setHRLineLength()方法。
- 新增RenderToText.jsp web应用程序的样本。
- 新增Segment.getRowColumnVector()方法。
- 编码检测现在忽略了有一个代码单元的大小与初步编码不兼容的meta标签中指定常见的编码。
什么3.1版本是新的:
- 修正项目:
- 在Segment.getAllStartTags无限循环()
- 在Segment.getAllElements无限循环()
- Segment.getFirst *方法边界外段返回段。
- Segment.getAllElements方法没有返回在某些情况下,所有封闭的元素。
- 修正文档错误。
- 新增StreamedSource类。
- 在变化,将影响现有程序的行为:
- 从类改为ParseText接口。
- Segment.getNodeIterator()现在返回作为单独的节点字符引用。
- 基于属性值的正则表达式添加标签的搜索方法。
- 在基于HTML class属性添加标签的搜索方法。
- 添加静态Source.LegacyNodeIteratorCompatabilityMode属性暂时恢复Segment.getNodeIterator()功能,以前的版本。
- 删除字符[]的搜索方法ParseText。
- 新增CharacterReference.appendCharTo(可追加)的方法。
- 新增OutputDocument(段)构造函数。
- 新增StreamedSourceCopy示例程序。
在Segment.getAllElements方法
评论没有发现