1、课程定位
腾讯云平台上开通、部署和使用Hadoop大数据系统的进阶培训
2、课程对象
适用于需要从事大数据开发的工程师;
期望了解和使用腾讯云EMR产品的个人。
3、课程规划
10天
4、课程概述
腾讯云大数据开发工程师培训将通过理论精讲与上机实验相结合的方式,系统性地介绍如何使用大数据技术进行大数据程序开发,以及如何基于腾讯云EMR产品在腾讯云平台上开通、部署和使用Hadoop大数据系统。
1. 大数据概述
2. 大数据技术生态圈概述
3. EMR产品介绍与使用
4. EMR上机实验
大数据概述
腾讯大数据应用案例
大数据行业现状
Hadoop概述
Hadoop设计思想
Hadoop生态圈
Spark生态圈
腾讯云EMR产品介绍
EMR入门操作
EMR客户案例
上机实验1-实验环境准备
5. HDFS使用与COS介绍
6. HDFS的上机实验
COS的上机实验
7. MapReduce编程与YARN运行
8. MapReduce实验
HDFS概述
HDFS架构与组成
HDFS操作
HDFS高可靠保证
HDFS API
上机实验2- HDFS分布式文件系统
上机实验3- COS存储系统
MapReduce框架介绍
MapReduce编程模型
MapReduce工作原理
资源管理框架YARN
MapReduce典型案例
实验4-MapReduce分布式计算框架介绍
9. Hive基础与操作
10. Hive数据库上机实验
11. Hive函数
Hive概述与基本架构
Hive环境与基础操作
DDL操作
DML操作
实验5-Hive数据库表创建和数据加载及案例练习
Sqoop工具
Hive函数
Hive自定义函数
12. HBase架构与使用
13. Hbase上机实验
14. Presto架构与使用
15. Presto上机实验
Hbase简介
HBase架构
Hbase数据结构
Hbase内置表与读写流程
Hbase使用与API
实验6-分布式列式数据库Hbase
Presto概述
Presto整体架构与运行原理
Presto Connector
Presto常用函数
实验7-Presto数据库表创建和数据加载及案例练习
16. 电商离线日志分析项目
17. 电商离线日志分析项目上机实验
18. SparkCore入门
项目背景
需求分析
应用技术
开发环境及流程
实验8-离线日志分析
Spark概述
Spark程序与RDD
Spark架构与运行
Tez、Spark与MR对比
19. 深入理解SparkCore
20. Spark上机操作
21. SparkSQL开发
RDD操作基础
普通型RDD Transformation操作
键值型RDD Transformation操作
RDD Action操作
RDD共享变量、持久化与依赖
WordCount演示
实验9-Spark内存计算框架讲解
SparkSQL概述与架构
DataFrame与DataSet
SparkSQL数据源操作
SparkSQL自定义函数
22. SparkSQL上机实验
23. Storm与SparkStreaming基础
24. SparkStreaming开发
实验10-Spark实战
Storm基础与关键机制
SparkStreaming概述
SparkStreaming运行流程
SparkStreaming算子基础
SparkStreaming高级算子
SparkStreaming案例
25. KafKa介绍
26. Kafka上机实验
27. EMR运维
28. EMR运维上机实验
Kafka概述
Kafka架构与关键机制
Ckafka API与实战
SparkStreaming与Kafka整合
实验11-Ckafka生产者消费者实践
EMR使用说明
EMR权限控制
EMR监控
EMR扩容
EMR硬件管理
EMR参数配置
EMR数据迁移
实验12-关于EMR集群的运维
29. 互联网用户行为分布式实时分析
30. 互联网用户行为分布式实时分析上机实验
31. 大数据分析挖掘与机器学习
项目背景概述
项目需求分析
方案设计
实验13-互联网电商日志分析系统实战
大数据分析介绍
机器学习概念
机器学习的分类
常见分析模型与算法
32. 用户画像理论
33. 用户画像上机实验
用户画像概述
用户画像构建
用户画像应用场景
实验14-基于用户画像的推荐实战