Jericho HTML Parser

软件截图:
Jericho HTML Parser
软件详细信息:
版本: 3.3
上传日期: 20 Feb 15
许可: 免费
人气: 56

Rating: 1.0/5 (Total Votes: 1)

Jerich HTML解析器是一个开源的,简单的,但功能强大的库完全用Java编写。
它允许程序员处理和分析HTML文档的一部分。
Jerich HTML解析器还采用了高层次的HTML表单操作函数

什么是此版本中的新

  • 在错误修正:
  • [3581664] CharacterReference.decode()不解码包含数字实体 - ½ ¼ ¾ ¹ ² &sup3时; ∴
  • [3311286] SourceCompactor不尊重TEXTAREA
  • [3519131]渲染输出时,与Element对象构造不正确。
  • [3538829]字体装饰对块边界渲染输出不正确。

  • 如果该参数包含大写字母
  • 在Segment.getAllStartTags(名称)和Segment.getFirstElement(名称)不起作用。
  • 在一个转义服务器标签中常见的服务器标签的结束符被错误地认为是逃脱标签的结束符。
  • 在变化,将影响现有项目的行为:
  • [3427073] Segment.getStyleURISegments()现在包含风格元素的含量,以及风格的属性值。
  • [3427927] Segment.getURIAttributes()现在包括对象和小程序元素的存档属性。
  • 在评论里面的脚本元素在全序列解析不再承认。此前,他们的兼容性与认可的主流浏览器,但最新的浏览器的行为发生了变化。
  • 在改变了所有解析错误日志级别从信息到错误,并且从Source.fullSequentialParse()咨询信息的日志级别WARN到INFO。在以前的水平了咨询邮件更高的严重性要比解析错误,防止日志系统从藏身的咨询信息,同时显示分析错误。字符编码警告维持不变,WARN水平。
  • 在改变了Renderer.renderHyperlinkURL(开始标记)方法的行为,以便在相对URL不渲染。
  • 在改变了渲染器的行为,以超链接的元素内容不渲染,如果是一样的超级链接URL,忽略任何HTTP://前缀或/后缀
  • 在EndTag.tidy()现在的右括号之前删除空格。
  • 添加源(文件)的构造。
  • 添加OutputDocument.getSegment()方法。
  • 添加OutputDocument.remove(INT开始,诠释完)方法。
  • 添加Renderer.setHRLineLength()方法。
  • 添加RenderToText.jsp web应用示例。
  • 添加Segment.getRowColumnVector()方法。
  • 在编码检测现在忽略了有一个代码单元大小的初步编码兼容的meta标签中指定常见的编码。
  • 在升级到以下记录的API:SLF4J-API-1.7.2,log4j的-1.2.17

什么3.1版本是新的

  • 在错误修正:
  • [2793556]在Segment.getAllStartTags无限循环()
  • 在Segment.getAllElements无限循环()
  • 在Segment.getFirst *方法边界外段返回段。
  • 在Segment.getAllElements方法没有返回在某些情况下,全封闭式的元素。

  • 在Segment.getAllElements方法
  • 在固定文档错误。
  • 添加StreamedSource类。
  • 在变化,将影响现有项目的行为:
  • 从类改为ParseText接口。
  • 在Segment.getNodeIterator()现在返回作为单独的节点字符引用。
  • 在基于属性值的正则表达式添加标签的搜索方法。
  • 在基于HTML类属性添加标签的搜索方法。
  • 添加静态Source.LegacyNodeIteratorCompatabilityMode物业暂时恢复Segment.getNodeIterator()功能,以前的版本。
  • 在删除的char []的搜索方法ParseText。
  • 添加CharacterReference.appendCharTo(可追加)方法。
  • 添加OutputDocument(段)构造函数。
  • 添加StreamedSourceCopy示例程序。

什么版本3.0是新的

  • 在错误修正:

  • 代表的Unicode增补字符
  • 在字符引用不正确解码UTF-16编码单元对。
  • [2188446] Element.getDepth()和Element.getParentElement()返回不正确的结果,如果叫解析点播模式。
  • 在评论现在公认的内部<脚本>元素。

  • 未向下兼容
  • 在API的变化:
  • 在变更包名net.htmlparser.jericho
  • 在属性值现在必须是字符串,而不是为CharSequence。
  • 在删除了所有废弃方法/从以前的版本类。
  • 在所有发现废弃赞成获得*方法,以应用一致的命名约定在所有标签的​​搜索方法*方法。
  • 标签,元素和HTML元素的类不再执行HTMLElementName接口。 (使用静态进口代替)
  • 在所有的藏品,现在stongly使用泛型类型。
  • 在改变FormControlOutputStyle类枚举。
  • 在改变FormControlType类枚举。
  • 添加CharStreamSource.appendTo(可追加)方法。
  • 添加Source.iterator()方法。
  • 在源代码现在实现了Iterable。
  • 在内部使用的StringBuilder获得更好的性能。
  • 添加Source.getNextStartTag(StartTagType)方法。
  • 添加Source.getNextEndTag(EndTagType)方法。
  • 添加Source.getPreviousStartTag(StartTagType)方法。
  • 添加Source.getPreviousEndTag(EndTagType)方法。
  • 添加Segment.getAllStartTags(StartTagType)方法。
  • 在添加完所有Segment.getFirst *方法。
  • 添加Renderer.renderHyperlinkURL(开始标记)的方法。
  • 添加HTMLSanitiser示例程序。
  • 在升级到SLF4J-API-1.5.6

要求

  • 在Java 2标准版运行环境

类似的软件

html-tree-diff
html-tree-diff

11 May 15

Docvert
Docvert

11 May 15

oXygen XML Author
oXygen XML Author

17 Jul 15

Atomsphere
Atomsphere

14 Apr 15

显影剂的其他软件 Martin Jericho

意见 Jericho HTML Parser

评论没有发现
添加评论
打开图片!