課程亮點
師資:*講師團隊,豐富行業(yè)經(jīng)驗和企業(yè)培訓經(jīng)驗
特色:小班培訓,精品課程,面授+直播+錄播,上課方式多樣
培訓:免費重聽
適用對象
不限
課程內(nèi)容
*天
主題1:大數(shù)據(jù)平臺方案與實施
大數(shù)據(jù)基礎(chǔ)與發(fā)展過程
傳統(tǒng)大規(guī)模數(shù)據(jù)處理與分析存在的問題
大數(shù)據(jù)計算框架
離線計算框架;流式計算框架;內(nèi)存計算框架;
大數(shù)據(jù)平臺方案
CDH 、Hortonworks、MapR;傳統(tǒng)IT公司方案:Oracle Exadata,SAP HANA;核心組件;Hadoop 1.0與2.0版本關(guān)聯(lián)與區(qū)別;Hadoop生態(tài)系統(tǒng);Apache Hadoop方案;國外主流大數(shù)據(jù)平臺方案;國內(nèi)主流大數(shù)據(jù)平臺方案與廠商;大數(shù)據(jù)平臺方案比較;
大數(shù)據(jù)的行業(yè)應(yīng)用
大數(shù)據(jù)的落地實施挑戰(zhàn)
主題2:大數(shù)據(jù)計算模型(一)–批處理MapReduce
MapReduce編程模型
Map處理;Reduce處理;MapReduce主程序設(shè)置;
MapReduce處理流程
數(shù)據(jù)讀取collect;中間數(shù)據(jù)sort;中間數(shù)據(jù)spill;中間數(shù)據(jù)shuffle;聚合分析reduce;
MapReduce開發(fā)高級應(yīng)用
Combiner技術(shù)與應(yīng)用場景;Partitioner技術(shù)與應(yīng)用場景;多Reducers應(yīng)用;
MapReduce開發(fā)與應(yīng)用實踐
Hadoop平臺搭建與運行;MapReduce安裝與部署;應(yīng)用案例:基于HDFS+MapReduce集成的服務(wù)器日志分析采集、存儲與分析MapReduce程序?qū)嵗_發(fā)與運行;
主題3:大數(shù)據(jù)存儲系統(tǒng)
HDFS分布式文件系統(tǒng)
NameNode單點故障解決方案;NFS冷備份;block的備份策略;fsimage和editslog;HDFS系統(tǒng)架構(gòu)與原理;NameNode功能詳解;DataNode功能詳解;HDFS讀寫機制;HDFS高可用方案;
第二天
主題4:Hadoop軟件框架與優(yōu)化
Hadoop1.0框架
Hadoop JobTracker;Hadoop TaskTracker;
Hadoop 2.0 框架
ResourceManager組件;NodeManager組件;ApplicationMaster組件;YARN組件;
Hadoop 2.0 資源調(diào)度優(yōu)化
YARN調(diào)度原理;CapacityScheduler;FairScheduler;
Hadoop框架組件調(diào)優(yōu)
慢啟動優(yōu)化;心跳優(yōu)化;容錯優(yōu)化;MR計算框架參數(shù)調(diào)優(yōu);
HDFS調(diào)優(yōu)
RPC線程調(diào)優(yōu);本地文件系統(tǒng)調(diào)優(yōu);RAID與卷管理調(diào)優(yōu);小文件優(yōu)化;
主題5:大數(shù)據(jù)計算模型(二)實時交互計算– Spark
Spark編程模型
Scala:面向函數(shù)的編程;Scala常見函數(shù)與開發(fā);Scala編譯和運行;
Spark RDD開發(fā)模型
寬依賴;窄依賴;count;collect;saveAsTextFile;map;flatmap;filter;union;reduceByKey;groupByKey;Spark RDD運行機制;Spark RDD主要Transformation;Spark RDD主要Action;Spark RDD依賴關(guān)系;
Spark集群架構(gòu)與關(guān)鍵組件
Spark作業(yè)運行機制
執(zhí)行DAG圖;任務(wù)集;executor執(zhí)行模型;
Spark開發(fā)與應(yīng)用實踐
基于HDFS+Flume+Spark的服務(wù)器運行日志實時分析Spark程序?qū)嵗_發(fā)與運行;Spark運行環(huán)境搭建與部署;應(yīng)用案例;
主題6:SQL on Hadoop大數(shù)據(jù)查詢
基于MapReduce的大數(shù)據(jù)查詢Hive
列存儲和行存儲;Hive架構(gòu)與工作原理;Hive數(shù)據(jù)加載;Hive內(nèi)部表和外部表;Hive分區(qū)表和分通表;Hive的存儲方式;Hive SQL基本操作;
基于Spark的大數(shù)據(jù)查詢SparkSQL
數(shù)據(jù)表讀取、查詢與結(jié)果保存;json;Hive table;Parquet file;RDD;SparkSQL工作原理與執(zhí)行機制;SparkSQL數(shù)據(jù)模型Dataframe;SparkSQL數(shù)據(jù)讀取與結(jié)果保存;SparkSQL和Hive的區(qū)別與聯(lián)系;實踐SparkSQL操作;
第三天
主題7:大數(shù)據(jù)計算模型(三) 流計算
流數(shù)據(jù)處理應(yīng)用場景
流數(shù)據(jù)處理特點;流計算系統(tǒng):SparkStreaming,Storm對比;
流數(shù)據(jù)計算框架:Spark Streaming
基于文件流的SparkStraeming程序;基于socket流的SparkStraeming程序;Spark Streaming基本概念;Spark Streaming數(shù)據(jù)模型DStream;Spark Streaming架構(gòu)與工作機制;Spark Streaming數(shù)據(jù)源操作;Spark Streaming開發(fā)示例;
流數(shù)據(jù)計算框架:Storm
Spout,Bolt, Topology;Storm基本概念;Storm編程模型;數(shù)據(jù)流分組;并發(fā)度設(shè)置;容錯機制;
主題8:NoSQL數(shù)據(jù)庫
NoSQL數(shù)據(jù)庫
Hbase,MongoDB,Redis;關(guān)系型數(shù)據(jù)庫瓶頸;NoSQL數(shù)據(jù)庫概念,分類與適用場景;
列存儲NoSQL數(shù)據(jù)庫Hbase
高表與寬表;rowkey設(shè)計;LSM結(jié)構(gòu)的數(shù)據(jù)組織與讀寫;Hmaster;RegionServer;Zookeeper;行、列簇、時間戳;Hbase原理與數(shù)據(jù)模型;Hbase系統(tǒng)架構(gòu);Hbase的讀寫機制;Hbase表的設(shè)計原則;Hbase適用場景;
主題9:大數(shù)據(jù)采集
RDBMS與Hadoop數(shù)據(jù)轉(zhuǎn)換工具Sqoop
Sqoop工作原理;
文件采集工具Flume
Flume組件與運行;Flume常用配置;
Kafka
Kafka基本概念: producer, broker, consumer;Kafka集群架構(gòu);Kafka運行機制;Kafka應(yīng)用場景;