• 参会报名
  • 会议介绍
  • 会议
  • 会议嘉宾
  • 参会指南
  • 邀请函下载

大会站点分布:
(点击可切换)
2020大数据平台搭建与高性能计算最佳实战培训班(4月海口)
收藏人
分享到

2020大数据平台搭建与高性能计算最佳实战培训班(4月海口)已过期

会议时间: 08:00至 2020-04-30 18:00结束

发票类型:增值税普通发票 增值税专用发票

        会议介绍


        2020大数据平台搭建与高性能计算最佳实战培训班(4月海口)

        • 培训收益

        • 培训特色

        会议

        (最终以会议现场为准)


        1. 大数据的产生背景与发展历程
        2. 大数据的4V特征,以及与云计算的关系
        3. 大数据应用需求以及潜在价值分析
        4. 业界最新的大数据技术发展态势与应用趋势
        5. 大数据思维的转变
        6. 大数据项目的系统与技术选型,及落地实施的挑战
        7. “互联网+”时代下的电子商务、制造业、交通行业、
        8. 电信运营商、银行金融业、电子政务、移动互联网、
        9. 教育信息化等行业应用实践与应用案例介绍

        1. 大数据软硬件系统全栈与关键技术介绍
        2. 大数据生态系统全景图
        3. 主流的大数据解决方案介绍
        4. Apache大数据平台方案剖析
        5. CDH大数据平台方案剖析
        6. HDP大数据平台方案剖析
        7. 基于云的大数据平台方案剖析
        8. 大数据解决方案与传统数据库方案比较
        9. 国内外大数据平台方案与厂商对比

        1. MapReduce产生背景与适用场景
        2. MapReduce计算模型的基本原理
        3. MapReduce作业执行流程
        4. MapReduce编程模型: Map处理和Reduce处理
        5. MapReduce处理流程:数据读取collect、中间数据sort、
        6. 中间数据spill、中间数据shuffle、聚合分析reduce
        7. MapReduce开发高级应用:Combiner技术与应用场景、
        8. Partitioner技术与应用场景、多Reducers应用
        9. MapReduce开发与应用实战:Hadoop平台搭建与运行;
        10. MapReduce安装与部署;
        11. 应用案例:基于HDFS+MapReduce集成的服务器日志分析采集、
        12. 存储与分析MapReduce程序实例开发与运行
        13. MapReduce参数调优与性能优化技巧

        1. 分布式文件系统HDFS产生背景与适用场景
        2. HDFS master-slave系统架构与读写工作原理
        3. HDFS核心组件技术讲解,NameNode与fsimage、editslog,
        4. DataNode与数据块
        5. HDFS Federation机制,viewfs机制,使用场景讲解
        6. HDFS高可用保证机制,SecondaryNameNode,NFS冷备份,
        7. 基于zookeeper的HA方案
        8. HDFS参数调优与性能优化

        1. Hadoop的发展历程
        2. Hadoop 1.0的核心组件JobTracker,TaskTracker,以及适用范围
        3. Hadoop 3.0的核心组件YARN工作原理,以及与Hadoop 1.0的联系与区别
        4. Hadoop关键机制:任务推测执行,任务容错,任务选择执行,心跳机制
        5. Hadoop YARN的资源管理与作业调度机制:FIFO调度,Capacity调度器,Fair调度器
        6. Hadoop 常用参数调优与性能优化技术

        1. MapReduce计算模型的瓶颈
        2. Spark产生动机、基本概念与适用场景
        3. Spark编程模型与RDD弹性分布式数据集的工作原理与机制
        4. Spark实时处理平台运行架构与核心组件
        5. Spark RDD主要Transformation:map, flatMap, filter, union, sample, join, reduceByKey, groupByKey
        6. Spark RDD主要action:count,collect,reduce,saveAsTextFile
        7. Spark宽、窄依赖关系与DAG图分析
        8. Spark容错机制
        9. Spark作业调度机制
        10. Spark缓存机制:Cache操作,Persist操作与存储级别
        11. Spark作业执行机制:执行DAG图、任务集、executor执行模型、 BlockManager管理
        12. Spark standardalone,Spark on YARN运行模式
        13. Scala开发介绍与Spark常用Transformation函数介绍
        14. Spark调优:序列化机制、RDD复用、Broadcast机制、高性能算子、资源参数调优

        1. 基于MapReduce的大型分布式数据仓库Hive基础知识与应用场景
        2. Hive数据仓库的平台架构与核心技术剖析
        3. Hive metastore的工作机制与应用
        4. Hive内部表和外部表
        5. Hive 分区、分桶机制
        6. Hive行、列存储格式
        7. 基于Spark的大型分布式数据仓库SparkSQL基础知识与应用场景
        8. Spark SQL实时数据仓库的实现原理与工作机制
        9. SparkSQL数据模型DataFrame
        10. SparkSQL程序开发与
        11. SparkSQL数据读取与结果保存:json,Hive table,Parquet file,RDD
        12. SparkSQL和Hive的区别与联系
        13. SparkSQL操作实战
        14. 基于MPP的大型分布式数据仓库Presto基础知识与应用场景
        15. Presto实时查询系统平台架构、关键技术介绍,以及与Hive,SparkSQL的对比

        1. 基于 Hadoop平台搭建、部署与配置Spark集群,Spark shell环境实践操作,Spark案例程序分析
        2. 基于sbt的Spark程序编译、开发与提交运行
        3. 应用案例一:基于Spark的服务器运行日志TopN分析、程序实例开发
        4. 应用案例二: 基于Spark的搜索引擎日志热词与用户分析、程序实例开发
        5. 基于MapReduce的Hive数据仓库实践,Hive集群安装部署,基于文件的Hive数据仓库表导入导出与分区操作,Hive SQL操作,Hive客户端操作
        6. SparkSQL shell实践操作:数据表读取、查询与结果保存

        1. 流数据处理应用场景与流数据处理的特点
        2. 流数据处理工具Storm的平台架构与集群工作原理
        3. Storm关键技术与并发机制
        4. Storm编程模型与基本开发模式
        5. Storm数据流分组
        6. Storm可靠性保证与Acker机制
        7. Storm应用案例分析
        8. 流数据处理工具Spark Streaming基本概念与数据模型
        9. SparkStreaming工作机制
        10. SparkStreaming程序开发介绍
        11. SparkStreaming的全局统计和窗口函数
        12. Storm与SparkStreaming的对比
        13. SparkStreaming开发案例:基于文件流的SparkStreaming程序开发;基于socket消息的SparkStreaming程序开发

        1. 机器学习发展历程
        2. 机器学习与大数据关联与区别
        3. 数据挖掘经典算法
        4. 预测算法:线性回归与应用场景,非线性回归与应用场景
        5. 分类算法:逻辑回归与应用场景,决策树与应用场景,朴素贝叶斯算法与应用场景,支持向量机算法与应用场景
        6. 聚类算法; k-means与应用场景
        7. 基于Hadoop的大数据机器学习技术
        8. 基于MapReduce的机器学习库Mahout
        9. Mahout支持的数据挖掘算法
        10. Mahout编程模型与发
        11. 基于Spark的机器学习库Spark MLlib
        12. Spark MLlib支持的数据挖掘算法
        13. Spark MLlib编程模型与开发:基于Spark MLlib的文本分类,基于Spark MLlib的聚类

        1. Hadoop与DBMS之间数据交互工具的应用
        2. Sqoop导入导出数据的工作原理
        3. Flume-NG数据采集系统的数据流模型与系统架构
        4. Kafka分布式消息订阅系统的应用介绍与平台架构,及其使用模式

        1. 关系型数据库瓶颈,以及NoSQL数据库的发展,概念,分类,及其在半结构化和非结构化数据场景下的适用范围
        2. 列存储NoSQL数据库HBase简介与数据模型剖析
        3. HBase分布式集群系统架构与读写机制,ZooKeeper分布式协调服务系统的工作原理与应用
        4. HBase表设计模式与primary key设计规范
        5. 文档NoSQL数据库MongoDB简介与数据模型剖析
        6. MongoDB集群模式、读写机制与常用API操作

        会议嘉宾

        (最终出席嘉宾以会议现场为准)


        参会指南


        manbext客户端下载为本会议官方合作
        报名平台,您可在线购票

        • 会员折扣
          该会议支持会员折扣
          具体折扣标准请参见plus会员页面
        • 会员返积分
          每消费1元累积1个会员积分。
          仅PC站支持。
        • 会员积分抵现
          根据会员等级的不同,每抵用1元可使用的积分也不一样,具体可参见PLUS会员页面。 仅PC站支持。

        主办方没有公开参会单位

        录入信息

        Baidu
        map