- 免费报名
- 会议通知
- 会议日程
- 会议嘉宾
- 参会指南
Apache CarbonData+Spark Meetup已过期 |
会议日程
(最终日程以会议现场为准)会议嘉宾
(最终出席嘉宾以会议现场为准)Apache CarbonData是一种新的高性能数据存储,针对当前大数据领域分析场景需求各异而导致的存储冗余问题,CarbonData提供了一种新的融合数据存储方案,以一份数据同时支持大数据分析的多种应用场景(如:“任意维度组合的数据查询分析、快速扫描、详单查询、数据更新删除等”),并通过多级索引、字典编码、列存等特性提升了IO扫描和计算性能,实现百亿数据级秒级响应。`CarbonData开源后,受到全球大数据技术爱好者高度关注;截止到目前为止,全球已有100+开发者参与了代码贡献,有10+家企业上线生产系统。
在Spark SQL的Catalyst优化器中,许多基于规则的优化技术已经实现,但优化器本身仍然有很大的改进空间。例如,没有关于数据分布的详细列统计信息,因此难以精确地估计过滤(filter)、连接(join)等数据库操作符的输出大小和基数 (cardinality)。由于不准确的估计,它经常导致优化器产生次优的查询执行计划。在Spark 2.2中,在Spark SQL引擎内添加了一个基于成本的优化器框架,此框架计算每个数据库操作符的基数和输出大小。通过可靠的统计和精确的估算,能够在这些领域做出好的决定:选择散列连接(hash join)操作的正确构建端(build side),选择正确的连接算法(如broadcast hash join与 shuffled hash join),调整连接的顺序等等。在这次演讲中,我们将展示Spark SQL的新的基于成本的优化器框架及其对TPC-DS查询的性能影响。
温馨提示酒店与住宿:为防止极端情况下活动延期或取消,建议“异地客户”与manbext客户端下载客服确认参会信息后,再安排出行与住宿。退款规则:活动各项资源需提前采购,购票后不支持退款,可以换人参加。