TCP 腾讯云大数据开发工程师课程

1、课程定位

腾讯云平台上开通、部署和使用Hadoop大数据系统的进阶培训

 

2、课程对象

适用于需要从事大数据开发的工程师;

期望了解和使用腾讯云EMR产品的个人。

 

3、课程规划

10天

 

4、课程概述

腾讯云大数据开发工程师培训将通过理论精讲与上机实验相结合的方式,系统性地介绍如何使用大数据技术进行大数据程序开发,以及如何基于腾讯云EMR产品在腾讯云平台上开通、部署和使用Hadoop大数据系统。

TCP 腾讯云大数据开发工程师课程
时间
课程模块
课程内容
Day 1

1. 大数据概述

 

 

 

2. 大数据技术生态圈概述

 

 

 

 

3. EMR产品介绍与使用

 

 

 

4. EMR上机实验

 

 

 

 

大数据概述

腾讯大数据应用案例

大数据行业现状

 

Hadoop概述

Hadoop设计思想

Hadoop生态圈

Spark生态圈

 

腾讯云EMR产品介绍

EMR入门操作

EMR客户案例

 

上机实验1-实验环境准备

Day 2

5. HDFS使用与COS介绍

 

 

 

 

 

6. HDFS的上机实验

    COS的上机实验

 

7. MapReduce编程与YARN运行

 

 

 

 

 

8. MapReduce实验

 

 

HDFS概述

HDFS架构与组成

HDFS操作

HDFS高可靠保证

HDFS API

 

上机实验2- HDFS分布式文件系统

上机实验3- COS存储系统

 

MapReduce框架介绍

MapReduce编程模型

MapReduce工作原理

资源管理框架YARN

MapReduce典型案例

 

 

实验4-MapReduce分布式计算框架介绍

Day 3

9. Hive基础与操作

 

 

 

 

10. Hive数据库上机实验

 

 

11. Hive函数

Hive概述与基本架构

Hive环境与基础操作

DDL操作

DML操作

 

实验5-Hive数据库表创建和数据加载及案例练习

 

Sqoop工具

Hive函数

Hive自定义函数

Day 4

12. HBase架构与使用

 

 

 

 

 

13. Hbase上机实验

 

14. Presto架构与使用

 

 

 

 

15. Presto上机实验

 

Hbase简介

HBase架构

Hbase数据结构

Hbase内置表与读写流程

Hbase使用与API

 

实验6-分布式列式数据库Hbase

 

Presto概述

Presto整体架构与运行原理

Presto Connector

Presto常用函数

 

实验7-Presto数据库表创建和数据加载及案例练习

Day 5

16. 电商离线日志分析项目

 

 

 

 

17. 电商离线日志分析项目上机实验

 

18. SparkCore入门

 

 

 

项目背景

需求分析

应用技术

开发环境及流程

 

实验8-离线日志分析

 

Spark概述

Spark程序与RDD

Spark架构与运行

Tez、Spark与MR对比

Day 6

19. 深入理解SparkCore

 

 

 

 

 

 

20. Spark上机操作

 

21. SparkSQL开发

 

 

 

RDD操作基础

普通型RDD Transformation操作

键值型RDD Transformation操作

RDD Action操作

RDD共享变量、持久化与依赖

WordCount演示

 

实验9-Spark内存计算框架讲解

 

SparkSQL概述与架构

DataFrame与DataSet

SparkSQL数据源操作

SparkSQL自定义函数

Day 7

22. SparkSQL上机实验

 

23. Storm与SparkStreaming基础

 

 

 

24. SparkStreaming开发

实验10-Spark实战

 

Storm基础与关键机制

SparkStreaming概述

SparkStreaming运行流程

 

SparkStreaming算子基础

SparkStreaming高级算子

SparkStreaming案例

Day 8

25. KafKa介绍

 

 

 

 

26. Kafka上机实验

 

27. EMR运维

 

 

 

 

 

 

 

28. EMR运维上机实验

 

 

 

 

 

Kafka概述

Kafka架构与关键机制

Ckafka API与实战

SparkStreaming与Kafka整合

 

实验11-Ckafka生产者消费者实践

 

EMR使用说明

EMR权限控制

EMR监控

EMR扩容

EMR硬件管理

EMR参数配置

EMR数据迁移

 

实验12-关于EMR集群的运维

Day 9

29. 互联网用户行为分布式实时分析

 

 

30. 互联网用户行为分布式实时分析上机实验

 

31. 大数据分析挖掘与机器学习

 

 

 

项目背景概述

项目需求分析

方案设计

 

实验13-互联网电商日志分析系统实战

 

大数据分析介绍

机器学习概念

机器学习的分类

常见分析模型与算法

Day 10

32. 用户画像理论

 

 

 

33. 用户画像上机实验

用户画像概述

用户画像构建

用户画像应用场景

 

实验14-基于用户画像的推荐实战