|
1、【Cloudera Apache Hadoop管理員課程】(管理員)
2、【Cloudera Apache Hadoop程序員課程】(開發者)
3、【Cloudera 數據分析課程】(數據分析)
4、【Cloudera Apache HBase課程】(HBase)
5、【Cloudera Apache Spark程序員課程】(Spark)
6、【Designing and BuildingBig Data Applications】(數據建模)
7、【Cloudera Introduction to Data Science】(數據科學家)
1、【Cloudera Apache Hadoop管理員課程】(通過考試可獲得CCAH全球認證證書)
課時:4天
學習系統管理的概念和Apache Hadoop的最佳實踐,
從安裝和配置到負載均衡和調優。
這個4天的的課程通過動手時間來賦予你部署的經驗,
以及更多的安全方面的經驗和故障排除。
課程結束后,學員被鼓勵去參加Cloudera和Apache Hadoop管理員(CCAH)考試。
【課程內容】
1、Hadoop分布式文件系統(HDFS)
2、YARN/MapReduce的工作原理
3、如何優化Hadoop機群所需要的硬件配置
4、搭建Hadoop機群所需要考慮的網絡因素
5、Hadoop機群維護和控制
6、如何利用Hadoop配置選項進行系統性能調優
7、如何利用FairScheduler為多用戶提供服務級別保障
8、Hadoop機群維護和監控
9、如何使用Flume從動態生成的文件加載到Hadoop
10、如何使用Sqoop從關系型數據加載數據
11、Hadoop生態系統工具(如Hive、Impala、Pig和Base)
【學員基礎】
具備基本Linux系統管理經驗。不需要事先掌握Hadoop相關知識。
2、 【Cloudera Apache Hadoop程序員課程】(通過考試可獲得CCDH全球認證證書)
課時:4天
學習Hadoop分布式文件系統(HDFS)基礎和MapReduce框架以及如何利用其API來編寫程序,
討論為更大型的工作流程而設計技術。
這門4天的課程涵蓋了為MapReduce程序修復漏洞和優化性能所需的高級技巧。
程序員課程也引入了Apache生態項目比如Hive、Pig、HBase、Flume和Oozie。
在完成課程后,學員被鼓勵參加Cloudera認證Apache Hadoop程序員(CCDH)考試。
【課程內容】
1、MapReduce與HDFS內核知識以及如何編寫MapReduce程序
2、Hadoop開發的最佳實踐,調試、實現工作流及通用算法
3、如何利用Hive、Pig、Sqoop、Flume、Oozie及其他Hadoop的組件
4、按需定制WritableComparables與InputFormats處理復雜的數據類型
5、利用MapReduce編寫、執行連接操作以整合不同數據集合
6、用于現實世界數據分析所需的高級HadoopAPI主題
7、用Java寫MapReduce程序,用Streaming寫MapReduce程序
8、調試MapReduce代碼的策略,利用localjobrunner在本地測試MapReduce代碼
9、Partitioners和Reducers如何一起工作,定制化Partitioners
10、定制Writable和WritableComparable
11、用SequenceFile和Avro數據文件存儲二進制數據
【學員基礎】
該課程適合具有一定編程經驗的程序開發人員。由于課程中需要完成Hadoop相關編程練習,熟悉Java者優先
3、【Cloudera 數據分析課程】
課時:4天
針對任何需要在Hadoop上實時地通過SQL和熟悉的腳本來管理、操縱和查詢大型復雜數據的人。
學習ApachePig、Apache Hive和Cloudera Impala如何通過過濾聯接和其他用戶自定義的功能
來支持數據的轉型和分析。
【課程內容】
1、Hadoop生態圈、實驗場景介紹、用Hadoop工具導入數據
2、pig的特性、使用案例、和pig交互、pig Latin語法、Field定義、用pig執行ETL流程
3、pig處理復雜數據,復雜/nested嵌套的數據類型、用pig分析廣告戰役的數據
4、pig的多數據組操作,pig鏈接多數據組、用pig分析離散的數據組
5、用流處理和UDFs擴展pig,Macros和Imports、contributed functions,用其他語言和pig一起處理數據
6、pig故障排查和優化,用web界面排查一個故障的任務、Data采樣和故障排查、理解執行計劃、提高pig任務性能
7、hive表結構和數據儲存、對比hive和傳統數據庫、hive vs.pig、hive使用案例
8、hive的關系數據分析、數據管理、文本處理、優化及擴展,在shell、腳本和hue上運行hive查詢
9、impala和hive、pig、關系數據庫的不同、使用impalashell
10、采樣impala分析數據,過濾、排序and limiting results,提升impala性能,impala的交互式分析
11、對比map reduce、pig、hive、impala和關系數據庫
【學員基礎】
該課程適合有SQL經驗和基本UNIX和Linux命令的數據分析師、業務分析師和管理員
事先無需Java和Apache Hadoop的經驗
4、 【Cloudera Apache HBase課程】(通過考試可獲得CCSHB全球認證證書)
課時:4天
學習如何將HBase作為一個分布式的數據儲存以實現低延遲的查詢和高擴展的吞吐。
這4天的課程涵蓋了HBase架構、數據模型、Java API及其他高級課題和最佳實踐。
完成該課程后,學員被鼓勵參加cloudera認證Apache HBase專家(CCSHB)考試來驗證和認證其Hadoop經驗。
【課程內容】
1、什么是HBase、為什么要用HBase,HBase和RDBMS,HBase的給予和索取
2、HBase系統管理API,HBase Shell、創建表、HBaseJava API、系統管理調用
3、通過HBaseAPI訪問數據,API的使用、數據檢索、在shell添加和更新數據、刪除數據
4、用API添加、更新數據,Scan API、高級API技術、使用Eclipse
5、集群組件、HBase如何擴展,HBase寫路徑、讀路徑,壓縮和拆分
6、HBase的安裝、配置及其安全性
7、HBasedaemnon、ZooKeeper、HBase系統管理
8、復制、備份、MapeRduce和HBase集群
9、HBase里RowKey設計,從關系數據庫到HBase表結構設計,以應用為中心的設計
10、列族、表結構設計的考慮點、熱點處理
11、HBase生態系統:OpenTSDB、Kiji、HBase和hive
【學員基礎】
該課程適合需要使用HBase的開發員和管理員。
預備的數據庫和數據建模的經驗有幫助,但不是必須的。
預備的Java知識有幫助,Hadoop經驗不是必須的,
但是cloudera的Apache Hadoop開發培訓課是個絕佳的基礎。
5、【Cloudera Apache Spark程序員課程】
課時:4天
采用ApacheSpark來創建集成了批處理,流計算和互動式分析的完整,統一的大數據應用。
學習編寫復雜的并行應用來履行更快的商業決策和更好的用戶產出,并將其應用到廣泛的應用場景,架構和行業。
這門4天的課程針對那些希望在應用的速度,易用性和高級分析方面進行優化的程序員和軟件工程師。
【課程內容】
1、用Sparkshell執行互動式數據分析
2、Spark的彈性分布式數據集(Resilient Distributed Datasets)的特性
3、Spark怎樣運行在一個集群上(一個獨立的Spark集群)
4、Spark的并行編程、編寫Spark應用、用Spark處理流數據
5、RDDPartitions和HDFS數據局部性、使用Partitions、并行操作
6、Spark應用對比Spark shell、創建Spark context、配置Spark shell屬性
7、SparkStreaming簡介、開發Spark Streaming應用
8、Streaming的Word Count、其他Streaming操作、滑動窗口操作
9、Spark、Hadoop和企業數據樞紐(EDH)
10、Spark和Hadoop生態圈、Spark和MapReduce
11、Caching and Persistence(RDD溯源、Caching緩存簡介、分布式持久化機制)
【學員基礎】
該課程適合具有一定編程經驗的程序開發人員,課程樣例和練習涉及到Python和Scala語言。
需要Linux的基本知識,事先無需Hadoop經驗。
6、【Designing and Building Big Data Applications】(數據建模)
課時:4天
學習運用ApacheHadoop和企業數據樞紐中的關聯工具來分析和解決實際問題,
你會遍歷其設計和創建的整個過程,包括數據導入,決定恰當的文件格式來存儲,
處理預存的數據,及用一個容易理解消化的形式向最終用戶呈現結果。
這門4天的課程面向那些需要研發高度業務相關的應用的數據家。
【課程內容】
1、定義使用DataSets,Metadata管理、Apache Avro、AvroSchemas演變
2、什么是theKite SDK ,Fundamental Data Module基礎概念Concepts,用Kite SDK創建新數據組
3、用ApacheSqoop輸入關系數據,基本輸入、限制結果、提升Sqoop性能、Sqoop 2
4、用ApacheFlume捕獲數據,Flume自定義組開發、使用Flume自定義攔截器寫Avro對象
5、采用ApacheOozie管理工作流,定義Oozie工作流,驗證、封包、部署,Oozie的Hue用戶界面
6、用ApacheCrunch處理數據管道,對比Crunch和Javamapreduce,應用Crunch projects,CrunchAPI的工具分級
7、使用ApacheHive里的表格,Basic Query Syntax,在Hive里采用RegexSerDe
8、開發用戶定義功能,實現一個用戶定義功能,用Impala執行互動式查詢,數據和元數據管理
9、理解ClouderaSearch,Search架構、支持的文件格式
10、用Cloudera Search創建索引,Collection and SchemaManagement,Morphlines
11、Solr Query Sybtax,采用Hue創建搜索UI,通過JDBC訪問Impala,用Impala和Search增強定制的web應用
【學員基礎】
該課程最適合需要使用Hadoop及其相關工具來解決現實問題的程序員、工程師和架構師。
學員應該預先參加過cloudera的Apache Hadoop程序員培訓或有相當的實踐經驗。
需要良好的Java知識,熟悉Linux。SQL經驗會有幫助。
7、 【Cloudera Introductionto Data Science】(數據科學家)
課時:4天
數據科學家創建信息平臺來提出和回答以前不敢想象的問題。
學習數據學如何幫助公司降低成本,提升利潤,改進產品,留住客戶和發現新機會。
這門4天的課程姜幫助學員理解數據科學家做什么,他們解決什么問題,
在不同的行業里他們解決實際問題的方法。
【課程內容】
1、使用案例:金融、零售、廣告業、電信和公用事業、醫療和藥品
2、項目周期里的步伐、實驗場景介紹
3、數據采集:數據源、采集技術
4、評估輸入數據:數據格式、數據質量、數據數量
5、數據轉型:匿名化、文件格式轉換、聯結數據組
6、數據分析和統計模式:統計與概率的關系、描述性統計、統計推斷
7、機械學習基礎:機械學習的3C、Naive Bayes分類器、數據和算法的重要性
8、推薦系統簡介:什么是決策系統、協同過濾的類型、推薦系統的局限
9、ApacheMahout是什么(不是什么),可用性和安裝、使用Mahout基于條目的推薦系統
10、用Apache Mahout實現推薦系統:二值、數值偏好的相似性度量,打分
11、實驗和評估、產品部署及更多
【學員基礎】
該課程適合有Apache Hadoop基本知識如HDFS、
MapReduce、Hadoop Streaming和Apache Hive的開發人員、數據分析師和統計師。
學員應熟練腳本語言:建議熟練Python,而Perl或ruby只需熟悉即可。
Cloudera Hadoop學員交流 475436950 |
|