Jerich HTML解析器是一个开源的,简单的,但功能强大的库完全用Java编写。
它允许程序员处理和分析HTML文档的一部分。
Jerich HTML解析器还采用了高层次的HTML表单操作函数
什么是此版本中的新:
- 在错误修正:
- [3581664] CharacterReference.decode()不解码包含数字实体 - ½ ¼ ¾ ¹ ² &sup3时; ∴
- [3311286] SourceCompactor不尊重TEXTAREA
- [3519131]渲染输出时,与Element对象构造不正确。
- [3538829]字体装饰对块边界渲染输出不正确。
- 在Segment.getAllStartTags(名称)和Segment.getFirstElement(名称)不起作用。
- 在一个转义服务器标签中常见的服务器标签的结束符被错误地认为是逃脱标签的结束符。
- 在变化,将影响现有项目的行为:
- [3427073] Segment.getStyleURISegments()现在包含风格元素的含量,以及风格的属性值。
- [3427927] Segment.getURIAttributes()现在包括对象和小程序元素的存档属性。
- 在评论里面的脚本元素在全序列解析不再承认。此前,他们的兼容性与认可的主流浏览器,但最新的浏览器的行为发生了变化。
- 在改变了所有解析错误日志级别从信息到错误,并且从Source.fullSequentialParse()咨询信息的日志级别WARN到INFO。在以前的水平了咨询邮件更高的严重性要比解析错误,防止日志系统从藏身的咨询信息,同时显示分析错误。字符编码警告维持不变,WARN水平。
- 在改变了Renderer.renderHyperlinkURL(开始标记)方法的行为,以便在相对URL不渲染。
- 在改变了渲染器的行为,以超链接的元素内容不渲染,如果是一样的超级链接URL,忽略任何HTTP://前缀或/后缀
- 在EndTag.tidy()现在的右括号之前删除空格。
- 添加源(文件)的构造。
- 添加OutputDocument.getSegment()方法。
- 添加OutputDocument.remove(INT开始,诠释完)方法。
- 添加Renderer.setHRLineLength()方法。
- 添加RenderToText.jsp web应用示例。
- 添加Segment.getRowColumnVector()方法。
- 在编码检测现在忽略了有一个代码单元大小的初步编码兼容的meta标签中指定常见的编码。
- 在升级到以下记录的API:SLF4J-API-1.7.2,log4j的-1.2.17
如果该参数包含大写字母
什么3.1版本是新的:
- 在错误修正:
- [2793556]在Segment.getAllStartTags无限循环()
- 在Segment.getAllElements无限循环()
- 在Segment.getFirst *方法边界外段返回段。
- 在Segment.getAllElements方法没有返回在某些情况下,全封闭式的元素。
- 在固定文档错误。
- 添加StreamedSource类。
- 在变化,将影响现有项目的行为:
- 从类改为ParseText接口。
- 在Segment.getNodeIterator()现在返回作为单独的节点字符引用。
- 在基于属性值的正则表达式添加标签的搜索方法。
- 在基于HTML类属性添加标签的搜索方法。
- 添加静态Source.LegacyNodeIteratorCompatabilityMode物业暂时恢复Segment.getNodeIterator()功能,以前的版本。
- 在删除的char []的搜索方法ParseText。
- 添加CharacterReference.appendCharTo(可追加)方法。
- 添加OutputDocument(段)构造函数。
- 添加StreamedSourceCopy示例程序。
在Segment.getAllElements方法
什么版本3.0是新的:
- 在错误修正:
- 在字符引用不正确解码UTF-16编码单元对。
- [2188446] Element.getDepth()和Element.getParentElement()返回不正确的结果,如果叫解析点播模式。
- 在评论现在公认的内部<脚本>元素。
- 在API的变化:
- 在变更包名net.htmlparser.jericho
- 在属性值现在必须是字符串,而不是为CharSequence。
- 在删除了所有废弃方法/从以前的版本类。
- 在所有发现废弃赞成获得*方法,以应用一致的命名约定在所有标签的搜索方法*方法。
- 标签,元素和HTML元素的类不再执行HTMLElementName接口。 (使用静态进口代替)
- 在所有的藏品,现在stongly使用泛型类型。
- 在改变FormControlOutputStyle类枚举。
- 在改变FormControlType类枚举。
- 添加CharStreamSource.appendTo(可追加)方法。
- 添加Source.iterator()方法。
- 在源代码现在实现了Iterable。
- 在内部使用的StringBuilder获得更好的性能。
- 添加Source.getNextStartTag(StartTagType)方法。
- 添加Source.getNextEndTag(EndTagType)方法。
- 添加Source.getPreviousStartTag(StartTagType)方法。
- 添加Source.getPreviousEndTag(EndTagType)方法。
- 添加Segment.getAllStartTags(StartTagType)方法。
- 在添加完所有Segment.getFirst *方法。
- 添加Renderer.renderHyperlinkURL(开始标记)的方法。
- 添加HTMLSanitiser示例程序。
- 在升级到SLF4J-API-1.5.6
代表的Unicode增补字符
未向下兼容
要求:
- 在Java 2标准版运行环境
评论没有发现