通過Cloudera公司的ApacheHadoop培訓(xùn)將您的知識提升到一個新的水平。
Cloudera大學(xué)提供的為期4天的數(shù)據(jù)分析培訓(xùn)課程專注于ApachePig、Hive和ClouderaImpala,將教會您如何將傳統(tǒng)的數(shù)據(jù)分析和商業(yè)智能技術(shù)應(yīng)用到大數(shù)據(jù)領(lǐng)域。Cloudera為數(shù)據(jù)專業(yè)人員提供了基于SQL和其它熟悉的腳本編程語言的工具,用來訪問、操作、轉(zhuǎn)換和分析復(fù)雜數(shù)據(jù)集。 學(xué)習(xí)掌握現(xiàn)代大數(shù)據(jù)分析工具 學(xué)員在本課程中將學(xué)習(xí)掌握以下現(xiàn)代大數(shù)據(jù)分析工具: ● ApacheImpala(孵化項目)作為一個SQL運行環(huán)境提供對Hadoop里的數(shù)據(jù)進(jìn)行即時交互式分析的能力。 ● ApacheHive為數(shù)據(jù)分析師、數(shù)據(jù)庫管理員以及其他非Java編程人員提供了一個類-SQL的查詢語言HiveQL來分析處理Hadoop數(shù)據(jù)。 ● ApachePig提供腳本編程工具來分析處理Hadoop數(shù)據(jù)。 一.培訓(xùn)內(nèi)容 通過講師在課堂上的講解,以及實操練習(xí),學(xué)員將熟悉Hadoop生態(tài)系統(tǒng),學(xué)習(xí)主題包括: ● 使用Pig,Hive及Impala獲取、存儲及分析數(shù)據(jù)。 ● 使用Hadoop工具執(zhí)行基本的ETL工作(抽?。璭xtract,轉(zhuǎn)換-transform和加載-load)。 ● 使用Pig、Hive及Impala改善典型分析任務(wù)的效率。 ● 關(guān)聯(lián)不同及豐富的數(shù)據(jù)源以獲取全面和真實的商業(yè)價值。 ● 對數(shù)據(jù)集進(jìn)行交互式和復(fù)雜查詢。 二.培訓(xùn)對象及學(xué)員基礎(chǔ) 本課程是專為數(shù)據(jù)分析師、商業(yè)智能專家、開發(fā)人員、系統(tǒng)架構(gòu)師和數(shù)據(jù)庫管理員開發(fā)的。培訓(xùn)學(xué)員不需要具備ApacheHadoop知識。 ● 需具備一定的SQL知識水平。 ● 基本熟悉Linux命令行。 ● 培訓(xùn)學(xué)員至少熟悉一種腳本語言知識(例如,Bash腳本編程、Perl、Python和Ruby)將會更有幫助,但不是必需的。 三.認(rèn)證 結(jié)束本課程培訓(xùn)后,我們建議學(xué)員準(zhǔn)備并注冊參加ClouderaCCA數(shù)據(jù)分析師認(rèn)證考試。通過并獲得該證書是向公司及客戶證明個人在Hadoop數(shù)據(jù)分析領(lǐng)域的技術(shù)和專長的有力依據(jù)。 四.課程大綱 1. Hadoop基礎(chǔ)知識 ● Hadoop動機(jī) ● Hadoop概覽 ● 數(shù)據(jù)存儲:HDFS ● 分布式數(shù)據(jù)處理:YARN、MapReduce和Spark ● 數(shù)據(jù)處理與分析:Pig、Hive和Impala ● 數(shù)據(jù)集成:Sqoop ● 其它的Hadoop數(shù)據(jù)工具 ● 練習(xí)分析場景說明 2. Pig簡介 ● Pig是什么 ● Pig的特點 ● Pig使用案例 ● 與Pig的交互 3. Pig基本數(shù)據(jù)分析 ● PigLatin語法 ● 加載數(shù)據(jù) ● 簡單數(shù)據(jù)類型 ● 字段定義 ● 數(shù)據(jù)輸出 ● 架構(gòu)查看 ● 數(shù)據(jù)篩選和排序 ● 常用函數(shù) 4. 使用Pig處理復(fù)雜的數(shù)據(jù) ● 數(shù)據(jù)存儲格式 ● 復(fù)合/嵌套數(shù)據(jù)類型 ● 數(shù)據(jù)分組 ● 復(fù)雜數(shù)據(jù)內(nèi)置函數(shù) ● 遍歷分組數(shù)據(jù) 5. Pig多數(shù)據(jù)集操作 ● 數(shù)據(jù)集合并技術(shù) ● 在Pig中聯(lián)接數(shù)據(jù)集 ● 集合運算 ● 拆分?jǐn)?shù)據(jù)集 6. Pig故障診斷和性能優(yōu)化 ● Pig故障排除 ● 日志 ● 使用Hadoop的WebUI ● 數(shù)據(jù)采樣及調(diào)試 ● 性能概述 ● 了解執(zhí)行計劃 ● 提高Pig作業(yè)性能的技巧 7. Hive和Impala簡介 ● 什么是Hive ● 什么是Impala ● 為什么使用Hive和Impala ● 架構(gòu)和數(shù)據(jù)存儲 ● Hive及Impala與傳統(tǒng)數(shù)據(jù)庫的比較 ● Hive使用案例 8. 使用Hive和Impala進(jìn)行數(shù)據(jù)查詢 ● 數(shù)據(jù)庫和表 ● 基本的Hive和Impala查詢語言語法 ● 數(shù)據(jù)類型 ● 使用Hue來執(zhí)行查詢 ● 使用Beeline(HiveShell) ● 使用ImpalaShell 9. Hive及Impala數(shù)據(jù)管理 ● 數(shù)據(jù)存儲 ● 創(chuàng)建數(shù)據(jù)庫和表 ● 加載數(shù)據(jù) ● 修改數(shù)據(jù)庫和表 ● 使用視圖簡化查詢 ● 存儲查詢結(jié)果 10. 數(shù)據(jù)存儲和性能 ● 對表進(jìn)行分區(qū) ● 分區(qū)表的數(shù)據(jù)加載 ● 何時使用分區(qū) ● 文件格式的選取 ● 使用Avro及Parquet文件格式 11. 使用Hive和Impala進(jìn)行關(guān)系數(shù)據(jù)分析 ● 連接數(shù)據(jù)集 ● 常見的內(nèi)置函數(shù) ● 聚合和窗口函數(shù) 12. 復(fù)雜數(shù)據(jù)類型 ● 在Hive里使用復(fù)雜數(shù)據(jù) ● 在Impala里使用復(fù)雜數(shù)據(jù) 13. 使用Hive及Impala分析文本數(shù)據(jù) ● 在Hive及Impala里使用正則表達(dá)式 ● 在Hive里通過SerDe加載處理文本 ● 情感分析及n-gram 14. Hive優(yōu)化 ● 了解查詢性能 ● Bucketing(分桶) ● 索引數(shù)據(jù) ● HiveonSpark 15. Impala優(yōu)化 ● Impala如何執(zhí)行查詢 ● 改善Impala性能 16. 擴(kuò)展Hive及Impala ● 使用SerDe加載特殊格式文件 ● 通過定制腳本來轉(zhuǎn)換數(shù)據(jù) ● 用戶自定義函數(shù) ● 參數(shù)化查詢 17. 選擇好工具 ● 比較Pig、Hive、Impala和關(guān)系數(shù)據(jù)庫該選擇哪一個 18. 總結(jié)
Cloudera大數(shù)據(jù)課程體系