Apache CarbonData+Spark Meetup已过期

会议通知

Apache Spark

华为

InfoQ中国

会议日程
（最终日程以会议现场为准）

会议嘉宾
（最终出席嘉宾以会议现场为准）

Apache CarbonData是一种新的高性能数据存储，针对当前大数据领域分析场景需求各异而导致的存储冗余问题，CarbonData提供了一种新的融合数据存储方案，以一份数据同时支持大数据分析的多种应用场景(如：“任意维度组合的数据查询分析、快速扫描、详单查询、数据更新删除等”)，并通过多级索引、字典编码、列存等特性提升了IO扫描和计算性能，实现百亿数据级秒级响应。`CarbonData开源后，受到全球大数据技术爱好者高度关注；截止到目前为止，全球已有100+开发者参与了代码贡献，有10+家企业上线生产系统。

在Spark SQL的Catalyst优化器中，许多基于规则的优化技术已经实现，但优化器本身仍然有很大的改进空间。例如，没有关于数据分布的详细列统计信息，因此难以精确地估计过滤（filter）、连接（join）等数据库操作符的输出大小和基数 (cardinality)。由于不准确的估计，它经常导致优化器产生次优的查询执行计划。在Spark 2.2中，在Spark SQL引擎内添加了一个基于成本的优化器框架，此框架计算每个数据库操作符的基数和输出大小。通过可靠的统计和精确的估算，能够在这些领域做出好的决定：选择散列连接（hash join）操作的正确构建端（build side），选择正确的连接算法（如broadcast hash join与 shuffled hash join），调整连接的顺序等等。在这次演讲中，我们将展示Spark SQL的新的基于成本的优化器框架及其对TPC-DS查询的性能影响。