DataCleaner

软件截图:
DataCleaner
软件详细信息:
版本: 4.0.9
上传日期: 11 Apr 16
开发: -
许可: 免费
人气: 17

Rating: nan/5 (Total Votes: 0)

DataCleaner是一个开源并且完全免费的解决方案的组织和企业希望增加和衡量其数据的质量。

通过DataCleaner,用户将能够来分析,比较,验证对业务规则的数据,并监控这些测量的发展随着时间的推移。

在它的特点,我们可以提到数据监测,数据分析和DQ分析,数据清理和充实,检测并合并重复的,客户数据质量,以及超高速ETLightweight(提取 - 转换 - 加载)。

要了解更多有关DataCleaner的功能和性能,以及如何使用它,请参阅http://eobjects.dk/docs

What是新的在此版本中:

  • 改进和新功能:
  • 我们做了它可以创建并通过DataCleaner的桌面UI删除表。注意,术语;表"这里实际上涵盖的不仅仅是关系数据库表的更多。它还包括CouchDB中和ElasticSearch在MS Excel数据存储表,在MongoDB中集合,文件类型等等...基本上支持写入操作,除了单表数据存储,如CSV数据存储所有数据存储类型,支持此功能!该功能是通过暴露:
  • "创建表"通过在应用程序的左侧的树的模式的右键菜单中启用。
  • "创建表"也使通过在组件表中,选择输入,比如插入到表,表查找和更新表。
  • " DROP TABLE"通过在应用程序的左侧的树表的右键菜单中启用。
  • 我们已经添加指定您的Salesforce.com Web服务端点的URL(可选)功能。这允许您使用DataCleaner连接到Salesforce.com的沙箱环境中,同时以自己的定制终端。
  • 的ElasticSearch支持已得到改进,允许自定义映射以及现在重用ElasticSearch数据存储的定义也为搜索和索引。
  • 的记录,并在重复检测功能可能重复选择采样进行了改进,从而更快地配置,因为在训练中所做的决定是比较有代表性的。
  • 重复检测模型文件格式已经更新已经取消了单独的“参考”文件的需要,为了节省过去训练的决定。与旧格式的兼容性得到了保留,但使用新的格式能够为用户体验增加了许多好处。
  • 错误修正:
  • 系统线程匮乏问题已修复DataCleaner监视器。这个问题的影响是伟大的,但它发生只在罕见的,非常个性的案件。如果自定义监听器DataCleaner监视器对象应该抛出一个错误,它会导致资源一直没有释放,并从服务器上的石英调度池占用一个线程。如果这会发生​​很多次服务器最终可能耗尽该池中的线程。
  • 结果屏幕上的垂直菜单现在做显示具有效果的成分的标签的正确的工作。这使得更容易识别哪个菜单项指向什么结果项目。

在什么版本3.5.5新是

  • 在'同义词查找“转型现在有一个选项查找输入的每一个令牌。如果你是一个长文本字段的值范围内做更换的同义词,这非常有用。
  • 通过这个显示器的Web服务阻断DataCleaner作业的执行,有时可能会失败,造成阻塞线程的错误。此问题已得到解决。
  • 的改进的方式的作业作出和组件的序列被关闭/执行后清理。
  • DataCleaner的JNLP / Java的Webstart的版本在Java运行时造成在某些情况下某些JAR文件不被Webstart的发射被认可,错误暴露出来。此问题已得到修复通过稍微修改这些JAR文件。
  • 在文档中的一些死链接是固定的。

什么是新的在3.5.4版本:

  • 现在可以隐藏转换的输出列。隐藏,不会影响处理的流程在所有的,而是简单地隐藏来自用户接口,并从而潜在地使得体验更干净,与其他组件进行交互时。
  • 新的Web服务已经被添加到监控Web应用程序,它提供了一种轮询特定作业的执行状态。
  • 修正了,引起HTML报告时,没有记录已被处理,无法对某些分析类型。
  • 和6个其他的小bug已经被不客气。

什么3.5.1版本是新的

  • 捕获更改的记录:
  • 添加了新的过滤器,以使那些以前没有处理的记录增量处理,例如为分析或仅复制修改的记录。新的过滤器的名字是捕获更改的记录,指的变更数据捕获的概念。
  • 作业队列执行:
  • 的DataCleaner显示器现在排队同一作业的执行,如果是多次触发。这可以确保你不小心碰到同样的工作,同时这可能导致各种问题,根据不同的工作做什么。
  • 小错误修正:
  • 若干bug修正开始实施。

什么在3.5版本中新是

  • 现在,有几个向导可用于数据存储登记;包括文件上传到服务器的CSV文件,数据库连接项,Salesforce.com凭证引导注册等等。
  • 作业的建筑奇才也扩展了一些增强功能;价值分配的选择和模式发现在快速分析向导的字段,用于创建基于EasyDQ客户清洁工作,进行实弹射击Pentaho的数据集成工作(阅读更多下文)一份新的工作向导,一个全新的向导。
  • 您现在可以即席直接在Web用户界面查询任何数据存储。这使得它容易得到快速的或零星分析上市公司数据,而无需设置工作或处理数据的其他管理方法。
  • 一旦创建工作或数据存储,用户被引导到采取行动,新建的对象。例如,您可以非常快速地运行作业它的建成之后,或查询数据存储在注册后。
  • 管理员,如果你想手工编辑的作业文件的XML内容现在可以直接上传作业存储库中,这是特别方便。
  • 有很多的技术的克鲁夫特现在隐藏在赞成显示简单的对话框。例如,工作时触发了大量负荷指标显示,完成后,结果将显示。以前有仍然可以在点击一个链接,了解更多详细信息中显示的高级日志屏幕。

什么是新的在3.1.2版本:

  • 我们已经添加在监控Web服务申请获取度量标准值(列表)。这使得监控更加有用的一个关键基础结构组件,以此来监控数据(质量),结果暴露给第三方应用程序。
  • 在“查表”组件已通过增加加入语义作为配置属性提升。使用JOIN语义,如果你想查找像左语义工作JOIN或INNER JOIN你可以调整。
  • 的EasyDQ组件升级后,进一步增加配置选项和更丰富的重复数据删除结果界面。
  • 性能改进已经此版本的具体重点。改进在DataCleaner的发动机,以进一步利用以前没有包括在某个角落情况下,流处理办法作出的。

什么是新的在3.1.1版本:

  • 的日期和时间相关的分析选项已经扩大,增加分布分析仪周数,月,年。有关日期和时间,所有的分析仪现在被称为&QUOT子菜单中进行分组;日期和时间"根据"分析"
  • 可选的"描述统计和QUOT;选项​​已被添加到数分析器和日期/时间分析器。这个选项增加了额外的指标,这些分析仪,如中位数,偏度,百分度和峰度的结果。这些指标都是可选的,因为其内存占用比现有的指标略大。
  • 在监视Web应用程序的时间线图表中的线,现在在他们小点。这是用于它们与几个(或者甚至只是一个)观测图表特别有用。 - 指出确切位置观察点是
  • 查询分析器调用时,即席查询,也得到了显着提高。现在,查询可以包含不同的条款,* -wildcards,子查询和是容错对文本的情况下的问题。
  • 两个新的变压器已添加用于生成的UUID和产生时间戳。

什么是新的在3.1版本:

  • 公制公式 - 阐述了数据质量的KPI:
  • 现在可以建立更在DataCleaner的监控Web应用程序详细数据质量的KPI。用户界面允许您打造一个类似电子表格的公式式的复杂的公式;利用DataCleaner工作收集的变量。
  • 度量公式可以结合任意数量的指标,常数和操作,只要它可以在一个数学方程式来表达。
  • - 例如,衡量的总记录数百分比的重复记录的速度。或测量的产品代码符合一组多个字符串模式的量。
  • 广告-hoc查询 - 任何数据存储:
  • 随着DataCleaner 3.1,你现在可以执行即席查询到任何数据存储!查询可以在纯SQL中表达,将被应用到数据库以及文件,NoSQL数据库,并能提供一个真正有用的查询机制延伸到你的发现和数据分析经验。
  • 查询选项也可以通过网络服务来监视用户与管理员角色。查询被提供为HTTP参数或POST体,其结果被提供作为一个XHTML表
  • 值匹配 - 一个新的分析选项:
  • 很多时候,你有哪些值应该被允许和预期特定领域的坚定理念。在DataCleaner还有的一直是价值分配的分析选项,它会帮助你坚持你的假设。在DataCleaner 3.1虽然,你有一个更精确的产品 - 价值匹配。该分析选项使您可以指定一组预期值,然后进行分析一样的值分布,特别是验证和确定意外的值。
  • 复制,删除和作业管理:
  • 在DataCleaner监控应用程序的工作和成果管理有了很大的提高。现在,您可以单击作业在显示器的计划页面,并找到可用于诸如重命名,复制,删除等操作管理选项。每个操作方面与显示器等文物,如分析结果,时间表和更多的联系。这意味着监控仓库的管理变得轻松了许多,成熟。
  • 管理数据质量历史:
  • 有时候你面对,你真正想要做的监控与历史数据的情况下!这可能是你有历史性的转储或数据库,您希望展示和讲述的故事备份。现在你可以做到这一点的历史数据的分析,将其上传到DataCleaner显示器,并采用新的Web服务,设置特定的分析结果的历史数据。这意味着你的时间表将使用他们的预期日期合理分配的结果,但与你在稍后的时间点可能收集到的结果。
  • 集群调度支持(仅EE):
  • DataCleaner显示器的调度器已被外部化,以便它可以通过简单的结构的装置来代替。在DataCleaner的企业版(EE),我们提供集群调度,提供跨设备的集群负载均衡和分发执行的能力。
  • 单点登录使用CAS(SSO)(EE只):
  • 在企业版(EE)DataCleaner,我们现在提供的监视器应用程序的单点登录选项。现在DataCleaner可以成为你的IT基础设施,也有安全明智的一个组成部分。
  • ...还有很多很多:
  • 上面的只是一个汇总。三十多个问题已在此版本中得到解决。我们已经解决了几个请求从论坛和社区的未来,我们鼓励大家使用这种媒介作为变革的工具。我们很乐意让DataCleaner的发展由社区流的严重影响。

什么是新的在3.0.3版本:

  • 将在监控存储库重命名工作服务
  • 您可以在UI访问此作为一个RESTful Web服务或交互。
  • 改变分析结果的历史日期在监控存储库中添加Web服务。
  • Web应用程序已经取得了与传统的JSF容器兼容。
  • 在Web应用程序配置缓存大大提高,从而导致更快的页面加载和初始化工作时间。

在什么版本3.0.2新是

  • 在当前触发在监控web应用程序的工作,面板自动刷新每一秒得到执行的最新状态。
  • 基于文件的数据存储(如CSV或Excel电子表格)使用绝对路径,现在正确地解析在监控Web应用程序。
  • 的"从键/值映射&QUOT选择;现在,Transformer支持像&QUOT嵌套查询表达式; Address.Street"或QUOT; orderlines [0] .product.name"
  • 表查找机制已针对性能进行优化,对JDBC数据库运行时,使用预处理语句。

  • 数据存储"
  • 管理员现在可以直接从&QUOT下载基于文件的数据存储;页。
  • 在监视Web应用程序异常处理进行了改进了一下,使得错误信息更精确和直观。

什么是新的在3.0.1版本:

  • 在此版本主要修正错误的是关于恢复列和具体枚举分类已映射。例如在新的完整性分析,我们发现,重装保存的作业之后,映射并不总是正确的。
  • 另外一些内部方面做了改进,使其更容易使用Spring Framework部署环境中DataCleaner监视Web应用程序。
  • 最后但并非最不重要的,在桌面应用程序的可视化设置已经通过自动考虑看看在工作得以改善可视化,并根据所需很好地表现出来的细节,屏幕大小和数量来回切换显示的文物。

什么版本3.0是新的

  • 时间表的显示和数据质量指标的趋势
  • 管理和含作业,结果,时限等集中存储库。

  • DataCleaner工作
  • 计划和审计
  • 提供的Web服务来调用DataCleaner转换
  • 安全性和多租户
  • 警报和当数据质量指标超出其预计的舒适区的通知。
  • 有一个新的完整性分析这是非常有用的只是标识有不完整的字段的记录。
  • 您现在可以导出DataCleaner结果非常漂亮的HTML报告,你可以给你的经理,或发送到你的XML解析器!
  • 新的监测环境也与桌面应用程序集成。因此,桌面应用程序现在必须发布作业和结果到显示器库中,并且被用作对于已经在存储库中的内容的交互式编辑的能力。
  • 新的面向日期转换现已:日期范围过滤器,它允许您根据日期范围为子集的数据集,日期格式,它允许使用日期掩码格式的日期
  • 正则表达式解析器(这在以前只能通过ExtensionSwap)已被列入DataCleaner。这使得分析和使用正则表达式规范的富文本字段非常方便。
  • 有可用的新文本的情况下变压器。这种转变可以大/小写和句子和单词的正确资本之间轻松转换。
  • 两个新的查找/替换变革已添加:普通查找/替换和正则表达式查找/替换
  • 桌面应用程序的用户体验得到了提高。我们已经增加了一些在应用程序的帮助信息,发色显得更加明亮清晰,提高了字体的处理。

在什么版本2.5.2新是

  • 的Apache CouchDB的支持:
  • 我们已经添加了对NoSQL的数据库的Apache CouchDB的支持。 DataCleaner支持从阅读,分析和写作到您的CouchDB实例。
  • 更新表作家:
  • 继我们之前的努力,使ETLightweight风格的功能集成到DataCleaner,我们增加了一个作家的更新表中的记录。您可以使用此例如基于特定条件插入或更新记录。
  • 就像插入到表的作家,新DataCleaner更新表的作家并不局限于基于SQL的数据库,但它支持写入任何数据存储类型(目前关系型数据库,CSV文件,Excel电子表格的MongoDB数据库和MongoDB数据库)但语义相同,在SQL传统UPDATE TABLE语句。
  • 钻取到细节保存在结果文件的信息:
  • 当使用DataCleaner 2.5的保存结果的功能,一些用户遇到他们深入到详细信息丢失。在DataCleaner 2.5.2我们现在还坚持这个信息,使您的DQ档案更有价值的调查历史数据事件时。
  • 改进EasyDQ错误处理:
  • 的EasyDQ组件已经在错误处理方面的改善。如果出现短暂的网络问题或其他类似的问题会导致一些记录失败,EasyDQ组件将现在正常恢复,最重要的 - 你的批处理工作将占上风,甚至不顾错误
  • 对于NoSQL的数据存储表映射:
  • 由于CouchDB的和MongoDB不表为主,但我们提供了两种方法来与他们合作更加动态的结构:默认,这就是让DataCleaner自动检测表结构,它允许你手动指定高级您所需的表结构。此前,高级选项是只能通过XML配置,但现在的用户界面,包含直接在应用程序这样做适当的对话框。

什么2.4.1版本是新的

  • 功能增强:
  • 批量加载功能写入数据时到数据库表我们很大的提高。希望在这里看到的改进幅度许多订单。
  • 写入数据已经更方便地通过添加选项窗口菜单提供。
  • 您现在可以轻松地通过双击其标签重命名工作的组成部分。
  • JavaScript的变压器现在有语法着色,让你的Javascript更容易检查和修改。
  • 错误修正:
  • 当读取和写入同一个数据存储(例如,在DataCleaner临时区域),我们已经确信,该数据存储的表缓存被刷新。此前某些情况下允许您查看表格的一个彻头彻尾的最新看法。
  • 启动应用程序时,一个潜在的僵局得到解决。这种僵局在JVM的一个问题的结果,但我们的工作围绕它通过同步Java中的特定API的所有呼叫。

什么2.4版本是新的:(又名重复数据删除或记录模糊匹配)

  • 重复检测,这是免费使用高达50万的值。
  • 地址数据验证和清洗。这允许你检查是否存在地址,如果他们正确的格式,甚至建议如果你有失误的更正。
  • 姓名数据验证和清洗。随着名称的服务,EasyDQ不仅一贯格式化你的名字,但还检查拼写错误和解释的名称部分。
  • 电子邮件和电话验证和清洗。这些服务提供检查电子邮件和电话的数据,确保存在的邮件域,即国家代码是否正确等等。

什么是新的在2.3版本:

  • 国际数据支持:
  • 如果您正在使用国际数据的工作,那么你可能在你的数据中国或希伯来语不同的字符集,例如。我们添加的字符集分布分析,这是一个可以让你找出哪些是在你的数据中使用的字符集分析选项。
  • 与含有不同的字符集数据的工作可能会产生问题。使用新的音译变压器现在可以从音译不同的书写系统,以拉丁字符的字符串。
  • 还有一个新的网络直播演示,重点文档部分的DataCleaner 2.3国际数据功能。
  • 由二次柱分析结果分组:
  • 的模式分析仪现在能够基于二级栏目组模式。这是非常有用的分析,如:
  • 获取电话号码,按国家分类的模式。
  • 获取基于电子邮件域的电子邮件的用户名的方式。
  • 同样已经为值分布分析仪做了什么;这使得分析,例如:
  • 是不是所有的城市名称不同,当按邮政编码划分?
  • 什么是性别的特定客户类型中的分布?
  • 改进图表:
  • 的模式取景效果现在可以在图表中显示。这使得分布可见,并显示多少&QUOT的;长尾"模式是有的。
  • 值分布分析仪的输出已经在几个领域进行了改进:
  • 图表的可读性得到了提高。
  • 它显示的行的总数和重复计数超过这些行:存在于行的不同值的数目。这有助于找出重复的值多久存在。
  • 如果有空字符串,我们使用它的关键字,因此,这是更容易识别。
  • 输出:
  • 接下来到已经存在的输出格式(CSV文件和数据存储H2),我们增加了写输出到Excel电子表格。
  • 写入数据存储之后,现在可以预览输出,这样就可以输出是否按照您的期望检查。
  • 现在是也可以将输出添加为新的数据存储,因此,它可以被用作一个新的工作输入。
  • 其他改进:
  • 文档已普遍提高。具体地,记录和命令行接口描述已被添加。
  • 的扩展机制已经被模块化几件申请,并引入谷歌吉斯为扩展开发人员通常可依赖注入框架的改善。
  • 当然,我们做了二十多个小的改进和bug修复。

什么2.2版本是新的

  • 对于此版本的主要驱动力是一个关于可扩展性的故事。同时释放的应用中,我们同时放释放一个新的DataCleaner网站设有一个重要的新领域:本ExtensionSwap。该ExtensionSwap的想法是允许扩展DataCleaner和安装的共享简单地通过点击在浏览器中的一个按钮<!/ LI>
  • 的DataCleaner扩展API已经提高了很多在这个版本中,从而能够创建自己的变压器,分析仪和过滤器。如果你觉得你的扩展可能感兴趣的其他用户,请在ExtensionSwap分享它,我们提供一个渠道,让您轻易​​地分发给成千上万的用户。扩展API和ExtensionSwap在我们新的网络广播演示了开发人员和其他技术人员有兴趣的进一步说明。
  • 我们还发布了一组关于ExtensionSwap初始​​扩展:该HIquality联系人为DataCleaner扩展,它提供了先进的姓名,电话和电子邮件清洗的基础上,人类的推论自然语言处理DQ Web服务。我们也运送样本的扩展,这将作为想尝试扩展开发自己开发的例子。在未来的几个月,我们将确保从后我们内部的,我们在人类推理的知识收集团队使用工具组合发起更扩展。
  • 在除了可扩展性,我们也注重嵌入性。我们希望能够轻松地嵌入DataCleaner到其他应用程序进行分析和数据分析可能的任何地方!我们已经创建了一个新的引导API,它允许应用程序捆绑DataCleaner和动态配置引导,或在A&QUOT运行;单个数据存储模式&QUOT ;,凡申请是向刚检查单个数据存储调谐(通常由应用程序定义嵌入DataCleaner)。我们已经有了在作品中嵌入DataCleaner的一些非常有趣的情况 - 无论是在其他开源应用以及商业应用
  • 我们已经增加了分析的SAS数据集的支持。这是值得我们颇为自豪,因为我们是,据我们所知,第一个主要的开源应用程序来提供这样的功能,最终释放出大量的SAS用户。在SAS互通性部分被创造了作为一个单独的项目,SassyReader,所以我们希望看到收养DataCleaner的免费开源社区很快呢!
  • 我们还增加了另一种类型的数据存储支持:固定宽度的文件。固定宽度的文件是文本文件,其中每列都有固定的宽度。没有分离器或引号字符,如CSV文件,而不是每行的长度相等和每个线将被标记化根据一组值的长度。
  • 一个选项,以&QUOT;失败的不一致&QUOT;加入到CSV文件和固定宽度的文件数据存储。这些标志使用这些文本文件的数据存储基础时添加格式完整性检查。
  • 修正了,这引起了CSV分离器设置不保留在用户界面,编辑CSV数据存储时。
  • 日文和其他字符不会在用户界面支持。这家&QUOT;错误&QUOT;是在系统上调查可用字体和选择,可以使该特定字符的字体的问题。在大多数现代系统将有能力提供的字体,但在一些Unix / Linux的分支可能仍有局限性。
  • 的文档部分已更新!自从最初的2.0版本的文档已经远远落后,但我们终于设法得到它最新的。目前还有部分在文档丢失,但它应该肯定是基本用法以及大多数主题的参考价值。
  • 应用的启动时间是由并行化的配置负载和通过延迟不需要的初始窗口显示的结构的那些部分的初始化改善。
  • 的拼音相似取景器分析仪已经从主要发行版本中删除,因为这是相当实验,大多作为一个概念证明和开胃给社会创造更多先进的匹配分析仪。现在,您可以找到并在ExtensionSwap安装拼音相似取景器。
  • 取消或errornous工作的处理进行了改进,用户界面​​通过禁用按钮和进度指示器,如果作业已经停止更正确响应。
  • 修正了有关表格大小和使用滚动条的一些小的UI问题。

什么在2.1.1版是新的

  • 增强:
  • 增加了数据存储列表上的搜索/过滤文本字段。这使您可以快速找到您的数据存储,如果你已经超过可在屏幕上登记的数据存储。
  • 国家代码参考的数据添加到标准发行,由于去格雷厄姆莱因德提供这些。
  • 添加水平滚动条的数据预览窗口中有超过10列。
  • 能够与新的功能在选项对话框在运行时添加一个扩展包。更加注重扩展将遵循即将发布。
  • 我们已经通过允许您调用与应用暴露了我们在命令行界面(CLI)的早期预览&QUOT; -usage&QUOT;参数,该参数将显示CLI选项。
  • 新增数字格式选项的&QUOT;转换为数字&QUOT;变压器。
  • 错误修正:
  • 与列(150 +)的大量查询表时,固定的内存外的一个问题。
  • 修正了导致问题&QUOT;极限分析&QUOT;复选框不正确检查时,工作重开后保存
  • 不是一个真正的bug修正,因为它从来没有一个正式的功能,但现在我们支持还原从DataCleaner以前版本的用户优先级(userpreferences.dat文件)。

什么2.1版本是新的

  • 有很多的用户界面上所做的工作(看到媒体页):
  • 我们决定以除去含有环境配置选项的左手侧窗口。
  • 不过,所有这些选项现在已经移动到工作大楼窗口,使用户只需专注于建立一个工作所需的所有交互的单一窗口。
  • 欢迎/登录对话框也赞成,可以在被拉扯或从主窗口隐藏在多个离散的面板中删除。











截图

datacleaner-315902_1_315902.png
datacleaner-315902_2_315902.png
datacleaner-315902_3_315902.png

类似的软件

chartio
chartio

20 Feb 15

Preppi
Preppi

3 Jun 15

ffmigration
ffmigration

11 May 15

显影剂的其他软件 -

StressLinux
StressLinux

19 Jun 16

SWFTools
SWFTools

12 Apr 16

GolfS
GolfS

29 Oct 15

Mako Framework
Mako Framework

10 Dec 15

意见 DataCleaner

评论没有发现
添加评论
打开图片!