课程定位

定位于大数据技术的开发,意味着掌握了大数据技术基础原理与架构等相关知识,具备 大数据研发能力,具备大数据处理和分析的能力,为大数据应用开发业务奠定了坚实的 基础。

课程内容

大数据行业与技术趋势介绍;HDFS 分布式文件系统、MapReduce 分布式离线批处理 计算引擎和 Yarn 资源协调、Spark2x 基于内存的分布式计算引擎、HBase 分布式 NoSQL 数据库、Hive 分布式数据仓库、Streaming 分布式流计算引擎、Loader 数据转 换、Flume 海量日志聚合、Kafka 分布式消息订阅系统、ZooKeeper 集群分布式协调服 务等 11 个常用且重要的大数据组件技术原理与架构,基于独立大数据组件的实战演练 以及大数据综合应用实战。

课程目标

将证明您已经系统掌握常用且重要的大数据组件技术原理与架构,能够运用 hadoop 进 行海量数据的导入和导出、分布式文件系统 HDFS 的基础操作、分布式数据库 HBase 客户端及表操作、分布式数据仓库 Hive 的常用 HQL 语句查询,以及了解典型场景的综 合应用等。使您具备大数据售前、大数据售后技术支持、大数据项目管理、大数据运维 管理、大数据开发、大数据分析等岗位所必备的知识和技能。

课程周期和费用

周期:总 3 个月,全日制班,上午 9:00~12:00,下午 14:00~17:00
学费:17800 元 RMB/人

课程大纲

Part1:Hadoop 大数据

一、Hadoop 起源与安装
  • 大数据概论
  • Hadoop 模块
  • Hadoop 生态系统
  • Hadoop 常用项目
  • Hadoop 环境安装配置
  • Hadoop 安装模式
  • Hadoop 配置文件
二、HDFS分布式文件系统
  • HDFS 架构
  • Hadoop RPC 机制
  • HDFS HA 机制
  • Hadoop 文件系统的访问
  • JavaAPI 接口与维护 HDFS
  • HDFS 权限管理
  • hadoop 伪分布式
三、hBase分布式数据库
  • HBase 的特点
  • HBase 访问接口
  • HBase 存储结构
  • HBase 设计
  • 关键算法和流程
  • HBase 安装
  • HBase SHELL 操作
  • HBase 集群搭建
四、MapReduce工作原理
  • MapReduce 函数式编程概念
  • MapReduce框架
  • MapReduce 原理
  • Shuffle 阶段和 Sort 阶段
  • 任务的执行与作业调度器
五、YARN 架构及其 工作流
  • Yarn 产生原因
  • Yarn 架构
  • Yarn Application 流程和生命周期
  • MapReduce 向 Yarn提交执行的流程
  • 资源请求
  • Yarn 任务调度
六、Zookeeper 详解
  • Zookeeper 简介
  • Zookeeper的下载和部署
  • Zookeeper的配置与运行
  • Zookeeper的数据模型
  • Zookeeper命令行操作范例
七、Hadoop HA
  • HA 必要性分析
  • HA 集群机制
  • HA 集群部署
  • 集群搭建测试
八、MapReduce编程开发
  • WoldCount 案例分析
  • 输入与输出格式
  • MapReduce 二次排序
  • MapReduce 中的Join算法
  • MapReduce 开发案列
九、Hive 数据仓库工具
  • Hive 工作原理
  • Hive 架构及其文件格式
  • Hive 操作及 Hive 复合类型
  • Hive 内置操作符与函数
  • Hive 的数据倾斜
十、Sqoop
  • 安装部署 Sqoop
  • Sqoop 数据迁移
  • Sqoop 使用案例
  • 深入了解数据库导入
  • 导出与事务
十一、大数据综合项目实战
  • 网站用户行为分析,涉及数据预处理、存 储、查询和可视化分析等数据处理全流 程所涉及的各种典型操作,涵盖 Linux、 MySQL、Hadoop、HBase、Hive、Sqoop 等系统和软件的安装、使用方法

Part2:Storm 实时开发和 Spark 生态体系

一、storm 基本知识
  • storm 流式计算
  • storm 优势与应用
  • storm 基本概念
  • 与 Hadoop 比较
  • storm 环境搭建
  • storm 集群部署
二、storm 组件
  • Nimbus Supervisor
  • worker/Executor
  • Topologies
  • Spout/Bolt
  • Tuple/streams
三、storm 架构
  • storm运行机制
  • spout 详解
  • bolt 详解
  • Storm 架构
四、Flume 数据收集
  • Flume介绍和安装
  • Flume 源讲解
  • Flume 通道讲解
  • Flume 沉槽讲解
  • Flume 选择器配置
  • Flume 拦截器
五、Kafka 消息订阅
  • Kafka介绍
  • Kafka集群安装
  • Kafka架构
  • 生产者和消费者
  • 与Flume集成
六、Redis
  • Redis安装、配置
  • Redis数据类型
  • Redis 键、字符串、 哈希、列表与集合事务和脚本
  • Redis的SHELL操作
七、实战项目
  • 实时统计开发项目
  • 网站访问来源实时统计
  • Flume 实时监控目录
  • Flume 跃点实现
一、Spark 生态圈
  • Spark 优势
  • 与 Hadoop 差异
  • 使用场景
  • Spark 生态
二、Spark 环境搭建
  • Spark基础环境
  • Scala
  • Kafka
  • Spark
  • Spark 基础操作
三、Scala 编程开发
  • Scala语法基础
  • idea工具安装
  • 条件结构、循环、高 级for循环
  • 数组、映射、元组
  • 类型参数
四、Spark
  • 什么是RDD
  • Spark架构
  • Spark集群搭建/HA
  • 集群搭建
  • Spark任务提交
  • Transformation 和 Action
五、Spark Core 内核
  • MapReduce缺点
  • 弹性分布数据集
  • DAG/Stage
  • 生成任务
  • RDD 缓存与容错
  • 任务部署
六、Spark综合实战项目
  • 淘宝双11数据分析与预测,案例涉及数据 预处理、存储、查询和可视化分析等数据处 理全流程所涉及的各种典型操作,涵盖 Linux、MySQL、Hadoop、Hive、Sqoop、 Eclipse、ECharts、Spark 等系统和软件的安 装和使用方法

我们的优势

  • 12年品质

    十余年来专注于CCIE培训,考过CCIE 近千个学员,就职于国内外知名企业。
  • 10条师资筛选标准

    严格筛选师资资源,从资历、背景、课程内容等多角度考核,保证课程质量。
  • 课程系统实战

    总揽培训全局,实用、实战、实效,打造一站式在线学习基地。
  • 100%过关保证

    总揽培训全局,实用、实战、实效,打造一站式在线学习基地。