你的位置: 首頁 > 公開課首頁 > 職業技能 > 課程詳情

details

Spark大數據處理與案例分析

暫無評價   
  • 開課時間:2019年01月16日 09:00 周三 已結束
  • 結束時間:2019年01月18日 17:00 周五
  • 開課地點:杭州市
  • 授課講師: 張老師
  • 課程編號:385660
  • 課程分類:職業技能
  •  
  • 收藏 人氣:81
你實際購買的價格
付款時最多可用0淘幣抵扣0元現金
購買成功后,系統會給用戶帳號返回的現金券
淘課價格
6800
可用淘幣
0
返現金券
待定

你還可以: 收藏

課程大綱:

課程詳情

模塊一Spark

2.1概述

1、Spark產生背景,包括mapreduce缺陷,多計算框架并存等

2、Spark 基本特點

3、Spark版本演化

4、Spark核心概念,包括RDD, transformation, action, cache等

5、Spark生態系統,包括Spark生態系統構成,以及與Hadoop生態系統關系

6、Spark在互聯網公司中的地位與應用

7、介紹當前互聯網公司的Spark應用案例

8、Spark集群搭建,包括測試集群搭建和生產環境中集群搭建方法,并親手演示整個過程

9、背景知識補充介紹

模塊二

Spark Core

Spark 程序設計與企業級應用案例

1、Spark運行模式介紹

Spark運行組件構成,spark運行模式(local、standalone、mesos/yarn等)

2、Spark開發環境構建

集成開發環境選擇,親手演示spark程序開發與調試,spark運行

3、常見transformation與action用法

介紹常見transformation與action使用方法,以及代碼片段剖析

4、常見控制函數介紹

包括cache、broadcast、accumulator等

5、Spark 應用案例:點擊流日志分析

包括:背景介紹,數據導入,數據分析,常見Spark transformation和action用法在線演示

模塊三 Spark

內部原理剖析與源碼閱讀 1、Spark運行模式剖析

深入分析spark運行模式,包括local,standalone以及spark on yarn

2、Spark運行流程剖析

包括spark邏輯查詢計劃,物理查詢計劃以及分布式執行

3、Spark shuffle剖析

深入介紹spark shuffle的實現,主要介紹hash-based和sort-based兩種實現

4、Spark 源碼閱讀

Spark源碼構成以及閱讀方法

模塊三

Spark

程序調優技巧

1、數據存儲格式調優數據存儲格式選擇,數據壓縮算法選擇等

2、資源調優

如何設置合理的executor、cpu和內存數目,YARN多租戶調度器合理設置,啟用YARN的標簽調度策略等

3、程序參數調優

介紹常見的調優參數,包括避免不必要的文件分發,調整任務并發度,提高數據本地性,JVM參數調優,序列化等

4、程序實現調優

如何選擇最合適的transformation與action函數

5、調優案例分享與演示

演示一個調優案例,如何將一個spark程序的性能逐步優化20倍以上。

模塊四Spark sql

2.1Spark SQL基本原理

1、Spark SQL是什么

2、Spark SQL基本原理

3、Spark Dataframe與DataSet

4、Spark SQL與Spark Core的關系

模塊五

Spark SQL

程序設計與企業級應用案例

1、Spark SQL程序設計

a. 如何訪問MySQL、HDFS等數據源,如何處理parquet格式數據

b. 常用的DSL語法有哪些,如何使用

c. Spark SQL調優技巧

d. 數據傾斜解決方案

模塊六 Spark Streaming程序設計及應用案例

1、Spark Streaming基本原理

a. Spark Streaming是什么

b. Spark Streaming基本原理

c. Structured Streaming

d. Spark Streaming 編程接口介紹

e. Spark Streaming應用案例

2、Spark Streaming程序設計與企業級應用案例

a. 常見流式數據處理模式

b. Spark Streaming與Kafka 交互

c. Spark Streaming與Redis交互

d. Spark Streaming部署與運行

e. Spark Streaming企業級案例:用戶行為實時分析系統

模塊七Spark Mllib

Spark MLlib

企業級案例

1. Spark MLlib簡介

2. 數據表示方式

3. MLlib中的聚類、分類和推薦算法

4. 如何使用MLlib的算法

5. Spark MLLib企業級案例:用戶畫像之性別預測

模塊八Spark綜合案例

信用評分實時分析系統

1. 背景介紹

2. 什么是Lambda architecture

3. 利用Spark Core+MLlib+構建離線處理

4. 利用flume+Spark Streaming+Redis構建實時處理線

5. 整合批處理和實時處理線

模塊八Spark綜合案例

信用評分實時分析系統

1. 背景介紹

2. 什么是Lambda architecture

3. 利用Spark Core+MLlib+構建離線處理

4. 利用flume+Spark Streaming+Redis構建實時處理線

5. 整合批處理和實時處理線

模塊九典型項目

案例實戰

■基于spark日志分析

■個性化推薦系統:帶你揭開其神秘面紗

■在線投放引擎

■揭開淘寶點擊推薦系統的神秘面紗

■淘寶數據服務架構實時計算平臺

講師介紹

張老師,( )資深講師。 阿里大數據高級專家,國內資深的Spark、Hadoop技術專家、虛擬化專家,對HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生態系統中的技術進行了多年的深入的研究,更主要的是這些技術在大量的實際項目中得到廣泛的應用,因此在Hadoop開發和運維方面積累了豐富的項目實施經驗。近年主要典型的項目有:某電信集團網絡優化、中國移動某省移動公司請賬單系統和某省移動詳單實時查詢系統、中國銀聯大數據數據票據詳單平臺、某大型銀行大數據記錄系統、某大型通信運營商全國用戶上網記錄、某省交通部門違章系統、某區域醫療大數據應用項目、互聯網公共數據大云(DAAS)和構建游戲云(Web Game Daas)平臺項目等。 


本課程名稱: Spark大數據處理與案例分析

查看更多:職業技能公開課

上市 相關的最新課程
講師動態評分 與同行相比

授課內容與課綱相符00%

講師授課水平00%

服務態度00%

陕西11选5开奖