本课程是整套大数据课程的基石:其一,分布式文件系统HDFS用于存储海量数据,无论是Hive、HBase或者Spark数据存储在其上面;其二是分布式资源管理框架YARN,是Hadoop
云操作系统(也称数据系统),管理集群资源和分布式数据处理框架MapReduce、Spark应用的资源调度与监控;分布式并行计算框架MapReduce目前是海量数据并行处理的一个最常用的框架。
Hadoop 2.x的编译、环境搭建、HDFS Shell使用,YARN 集群资源管理与任务监控,
MapReduce编程,分布式集群的部署管理(包括高可用性HA)必须要掌握的。