2019Spark及Hadoop开发员培训（5月上海班）已过期
推荐参加： 2024上海国际大数据安全与存储大会

会议时间： 08:00至 2019-05-26 18:00结束

发票类型：增值税普通发票增值税专用发票

会议介绍

培训内容：通过讲师在课堂上的讲解以及实操练习，学员将学习Apache Spark及如何将其集成到整个Hadoop 生态系统中去，包括以下内容：> 数据是如何在Hadoop 机群里进行分布式存储及处理的。> 如何使用Sqoop 和Flume 导入数据。> 如何使用Apache Spark 处理分布式数据。> 如何使用Impala 及Hive 将结构化数据建模成表并进行分析查询。> 如何根据数据使用场景来确定最佳存储格式。> 数据存储最佳实践。

培训对象及学员基础：本课程适合准备报考CCA Spark 及Hadoop开发员认证考试的技术人员。虽然通过该认证考试，考生仍然需要做进一步的学习和准备，但是本课程涵盖了在该认证考试中考核的主题和知识点。在参加完本培训后，我们建议学员参加此课程的一个后继课程：设计和创建大数据应用。

“通过Cloudera的培训，让我们在使用大数据核心平台Hadoop方面信心百倍地面对未来和赢得更多的挑战。”—— Persado

上海碧茂信息科技有限公司

会议日程
（最终日程以会议现场为准）

课程介绍

Hadoop及生态系统介绍·Apache Hadoop概述·数据存储和摄取·数据处理·数据分析和探索·其他生态系统工具练习环境及分析应用场景介绍	编写和运行ApacheSpark应用·Spark 应用对比Spark Shell·创建 SparkContext·创建 Spark应用（Scala和Java)·运行Spark应用·Spark应用WebUl	Apache Kafka·什么是Apache Kafka·Apache Kafka概述·如何扩展 Apache Kafka·Apache Kafka机群架构·Apache Kafka命令行工具
Apache Hadoop文件存储·传统大规模系统的问题·HDFS体系结构·使用HDFS·Apache Hadoop文件格式	配置Apache Spark应用·配置Spark属性·运行日志	使用Apache Flume采集实时数据·什么是Apache Flume·Flume基本体系结构·Flume源·Flume槽·Flume通道·Flume配置
Apache Hadoop机群上的数据处理·YARN体系结构·使用YARN	Apache Spark的并行处理·回顾：机群环境里的Spark·RDD分区·基于文件RDD的分区·HDFS和本地化数据·执行并行操作·执行阶段及任务	集成Apache Flume和Apache Kafka·概要·应用案例·配置
使用Apache Sqoop导入关系数据·Sqoop简介·数据导入·导入的文件选项·数据导出	Spark持久化·RDD演变族谱·RDD持久化简介·分布式持久化	Apache Spark Streaming:DStreams介绍·Apache Spark Streaming 概述·例子：Streaming访问计数·DStreams·开发Streaming应用
Apache Spark基础·什么是Apache Spark·使用Spark Shell·RDDs（可恢复的分布式数据集）·Spark里的函数式编程	Apache Spark数据处理的常见模式·常见Spark应用案例·迭代式算法·机器学习·例子：K-Means	Apache Spark Streaming:批处理·批处理操作·时间分片·状态操作·滑动窗口操作
Spark RDD·创建RDD·其他一般性RDD操作	DataFrames和Spark SQL·Apache Spark SQL 和SQL Context·创建 DataFrames·变更及查询DataFrames·保存DataFrames·DataFrames和RDD·Spark sQL 对比Impala和Hive-on-Spark·Spark 2.x版本上的Apache Spark SQL	Apache Spark Streaming:数据源·Streaming 数据源概述·Apache Flume 和Apache Kafka 数据源·例子：使用Direct模式连接Kafka数据源结论
使用键值对RDD·键值对RDD·MapReduce·其他键值对RDD操作