阿帕奇星火旨在提高数据分析和处理程序处理速度。
这是写在Java和Scala和提供其它系统所没有的功能,主要是因为他们不是主流,也不是无数据处理的应用程序非常有用。
星火先在加州大学伯克利分校AMP实验室创建,后来捐献给Apache软件基金会
本发行版是新的:
- 统一内存管理 - 执行和缓存,而不是地区独家师共享内存
- 木地板性能 - 使用平板模式时,改善平面扫描性能 。
- 改进查询规划具有不同的聚合查询 - 不同的聚合的查询计划时,不同的列具有较高的基数更强大的
- 自适应查询执行 - 自动选择减速器连接和聚合的数量初步支持
- 在数据源API避免双重过滤器 - 当执行带过滤器下推一个数据源,开发人员现在可以告诉星火SQL避免双重评估下推过滤
- 快速空安全的连接 - 加入使用空安全的平等(&#X3C =>)现在将使用SortMergeJoin执行计算cartisian产品,而不是 。
- 在内存中的柱状缓存性能 - 显着(可达14倍),缓存包含在DataFrames或复杂的SQL数据类型时加速 。
- SQL执行使用关机堆内存 - 出现支持配置查询执行使用了堆内存,以避免GC开销
什么是新的在1.5.2版本:
- 核心API现在支持多级汇聚树有助于加快降低成本的操作。
- 改进的错误报告已添加了某些疑难杂症的操作。
- 星火的码头依赖现在遮蔽,以避免与用户程序发生冲突。
- 星火现在支持SSL加密,一些通信端点。
- 实时GC指标和记录计数已被添加到用户界面。
什么是新的在1.4.0版本:
- 核心API现在支持多级汇聚树有助于加快降低成本的操作。
- 改进的错误报告已添加了某些疑难杂症的操作。
- 星火的码头依赖现在遮蔽,以避免与用户程序发生冲突。
- 星火现在支持SSL加密,一些通信端点。
- 实时GC指标和记录计数已被添加到用户界面。
什么是新的在1.2.0版本:
- PySpark的排序运营商现在支持大型数据集的外部溢出
- PySpark现在支持大于2GB广播变量和各种期间进行的外部溢出。
- 星火增加星火UI作业级进度页,报告进度稳定的API和输出指标的动态更新的作业完成。
- 星火现在能够读取二进制文件的图像和其他二进制格式的支持。
什么是新的在1.0.0版本:
- 此版本扩展了星火的标准库,引入一个新的SQL包(火花SQL),允许用户整合SQL查询到现有的工作流程星火
- MLlib,星火的学习机库,扩大与稀疏向量的支持和一些新的算法。
什么是新的在0.9.1版本:
- 在外部溢出固定哈希冲突的错误
- 与星火的log4j的用户依靠其他日志记录的后端固定冲突
- 固定Graphx从星火组装罐子缺少的Maven构建
- 修正了沉默由于映射输出状态超过阿卡帧大小故障
- 在ASM删除星火的不必要的直接依赖关系
- 删除指标 - 神经节从默认的编译由于LGPL许可证冲突
- 在发行压缩包修正了不含有火花组装罐
什么是新的在0.8.0版本:
- 开发已经转移到了Apache基金会Sowftware作为孵化器项目。
什么是在0.7.3版中的新:
- Python的性能:星火的产卵Python的虚拟机机制有经过改进,这样做的更快,当JVM具有较大的堆大小,加快了Python API。
- Mesos修复:在Mesos反序列化任务结果时添加到您的工作的JAR现在将在类路径中 。
- 错误报告:非序列化的异常和过大的任务结果更好的错误报告
- 例子:增加状态流处理的例子有updateStateByKey
- 编译:星火流不再依赖于Twitter4J回购,这应该允许它在中国建立
- 在foldByKey Bug修复,流计数,统计方法,文档和Web UI。
什么是0.7.2版本,新的:
- 斯卡拉版更新到2.9.3
- 几点改进百吉饼,包括性能修复和可配置的存储级别。
- 新的API方法:subtractByKey,foldByKey,mapWith,filterWith,foreachPartition,和其他人
- 一个新的度量报告界面,SparkListener,收集有关每个运算阶段的信息:任务长度字节洗牌等
- 使用Java API,包括K-手段和计算圆周率的几个新的例子。
在什么版本0.7.0新是:
- 星火0.7增加了一个Python API叫做PySpark <。 / LI>
- 星火作业现在推出一个网络信息中心监测程序中的每个分布式数据集(RDD)的内存使用情况。
- 星火现在可以除SBT使用Maven构建的。
在什么版本0.6.1新是:
- 修正了过于激进的消息超时,可能导致工人从集群断开连接。
- 修正了独立部署方式的错误,没有暴露的主机名来调度,影响当地HDFS
- 在洗牌改进连接复用,可以大大加快小洗牌。
- 固定块管理一些潜在的死锁。
- 修正得到失败的主机标识从Mesos的错误。
- 若干EC2脚本的改进,比如更好的操控现货实例。
- 提出,星火结合定制的本地IP地址。
- Hadoop的2分布支持。
- 有关Debian发行版定位Scala的支持。
在什么版本0.6.0新是:
- 简单部署
- 星火的文档已扩大一个新的快速入门指南,更多的部署说明,配置指南,指导调整和改进Scaladoc API文档。
- 使用异步的Java NIO一个新的通信管理器可以重排操作运行速度更快,尤其是发送大量数据或工作时,有很多任务时。
- 新的存储管理器支持每个数据集存储级别设置(例如是否保留数据在内存中,反序列化,磁盘等,甚至跨节点复制)。
- 增强的调试。
评论没有发现