目前位置: 首頁 > 公開課程 > 資訊管理 > 程式語言 > Spark分散式計算框架技術實務班

Spark分散式計算框架技術實務班

本課程透過上機實作方式,帶領學員們架設Apache .........

  Spark叢集系統是由 UC Berkeley AMPLab 研究團隊於 2009 年開發出來的分散式計算框架技術,旨在有效提升 Apache Hadoop 分散式系統的效能。其中,Spark Core (核心技術) 從早期的 RDD (彈性分散式資料集) 到 DataFrame 為基礎的運算模式,使得運算效能 (相較於 Hadoop 系統) 提升百倍。

加入收藏
收件人email:
寄件人姓名:
寄件人email:

Spark分散式計算框架技術實務班

上課地址:工研院產業學院 產業人才訓練一部(台北),實際地點依上課通知為準!!!!

時數:18

起迄日期:2021-01-13~2021-01-15

聯絡資訊:黃靖棻/02-2730 1111 #304

報名截止日:2021-01-11

課程類別:人才培訓(課程)

活動代碼:2320090030


課程介紹

課程緣起

Spark叢集系統是由 UC Berkeley AMPLab 研究團隊於 2009 年開發出來的分散式計算框架技術,旨在有效提升 Apache Hadoop 分散式系統的效能。其中,Spark Core (核心技術) 從早期的 RDD (彈性分散式資料集) 到 DataFrame 為基礎的運算模式,使得運算效能 (相較於 Hadoop 系統) 提升百倍。  
2013年,Spark 成為 Apache 所屬的頂級開發專案,透過不同的叢集管理 (cluster managers),例如:Standalone、YARN、Mesos、…,可與 HDFS 或 分散式資料庫系統等,進行高效能的叢集運算。同時,有效整合 Spark 上層的應用程式,例如:Spark SQL、Spark MLlib、Spark GraphX 以及 Spark Streaming等技術,為大數據分析提供資料處理、機器學習、圖論運算、資料串流等無縫接軌的運算功能。
~本課程歡迎企業包班,請來電洽詢 課程承辦人 黃小姐02-23701111#306 ~
更多軟體開發相關課程,請參主題館網址:https://college.itri.org.tw/edm/D1/008/04/edm.html

課程特色/目標

本課程透過上機實作方式,帶領學員們架設Apache Spark 叢集系統,並且學習 Spark 分散式計算框架的核心技術,進而使得學員們能夠熟悉並具備 Spark SQL資料處理與Spark MLlib機器學習運算的實務技能。 

課程對象

1.資料工程師、資料分析師、資料科學家
2.希望轉職成為資料科學領域研發的從業人員
3.IT經理人、企業決策人員、系統網路管理人員

先備知識

了解Scala與Hadoop技術,建議先上過「Scala語言技術實務」與「Big Data 分散式平台-Hadoop技術實務」。

課程大綱

課程主題 課程內容
Spark/Scala系統建置與介紹 

。Ubuntu/VMware 虛擬環境建置
。Spark/Hadoop 分散式系統建置
。Spark/Scala 運算環境建置
。Spark 框架介紹

Spark 框架操作 

。Spark Cluster 元件
。Spark Cluster 模式
。Spark Shell 互動式分析
。spark-submit 啟動應用程式

Spark MLlib Pipeline — 機器學習 (ML) 原理與應用

。MLlib Pipeline 元件
。MLlib Pipeline 架構
。ML persistence

WORKSHOP 1 : Spark數據處理技術

。Spark Core : DataFrame vs. RDD
。Spark SQL 技術

WORKSHOP 2 : Spark 特徵工程技術

。Feature Extraction
。Feature Transformation
。Feature Selection

WORKSHOP 3 : 監督學習 — 分類模型 

。Logistic Regression
。Decision-tree 分類演算法
。Random-forest分類演算法
。Gradient-boosted tree分類演算法
。Multilayer perceptron 分類演算法
。Linear Support Vector Machine
。Naïve Bayes分類演算法

WORKSHOP 4 : 監督學習 — 迴歸模型 

。Linear regression
。Generalized linear regression
。Decision-tree迴歸演算法
。 Random-forest 迴歸演算法
。Gradient-boosted tree 迴歸演算法

WORKSHOP 5 : 無監督學習 — 集群分析 

。K-means 演算法
。Gaussian Mixture Model (GMM) 演算法

WORKSHOP 6 : Case Study — 推薦系統 

。 Collaborative Filtering 演算法
。Movie recommendation with Spark MLlib

* 課程執行單位保留調整課程內容、日程與講師之權利

價格

  課程費用
課程原價 (每人)

$15,000元

10天前報名
優惠價(每人)

$12,000元

10天前報名+兩人揪團同行
優惠價(每人)

$11,400元

10天前報名+四人(含)以上揪團同行/工研人
優惠價(每人)

$10,800元

課程日期

110年1/13-1/15,週三四五白天9:30 ~12:00,13:00~16:30 ,共3天、計18小時。

上課地點:

主辦單位:財團法人工業技術研究院 產業人才訓練一部(台北)
舉辦地點:工研院產業學院 產業人才訓練一部(台北),實際地點依上課通知為準!!!!

報名方式

報名方式:
(1)紙本報名:請以正楷填妥報名表傳真至02-2381-1000 (02-2370-1111 分機306 黃小姐)
(2)線上報名:到工研院產業學院官網報名 課程洽詢:02-2370-1111 分機306黃小姐

報名確認與取消

1.已完成報名與繳費之學員,課程主辦單位將於開課三天前以E-mail方式寄發上課通知函;若課程因故取消或延期,亦將以E-mail方式通知,如未收到任何通知,敬請來電確認。
2.已完成繳費之學員如欲取消報名,請於實際上課日前以書面通知業務承辦人,主辦單位將退還80% 課程費用。
3.學員於培訓期間如因個人因素無法繼續參與課程,將依課程退費規定辦理之:上課未逾總時數三分之一,欲辦理退費,退還所有上課費用之二分之一,上課逾總時數三分之一,則不退費。
4.本單位保留是否接受報名之權利。
5.如遇不可抗拒之因素,課程主辦單位保留修訂課程日期及取消課程的權利。

繳費方式

1.ATM轉帳(線上報名):繳費方式選擇「ATM轉帳」者,系統將給您一組轉帳帳號「銀行代號、轉帳帳號」,但此帳號只提供本課程轉帳使用,各別學員轉帳請使用不同轉帳帳號!!轉帳後,寫上您的「公司全銜、課程名稱、姓名、聯絡電話」與「收據」傳真至02-2381-1000黃小姐 收。
2.信用卡(線上報名):繳費方式選「信用卡」,直到顯示「您已完成報名手續」為止,才確實完成繳費。
3.銀行匯款(公司逕行電匯付款):土地銀行 工研院分行,帳號156-005-00002-5(土銀代碼:005)。戶名「財團法人工業技術研究院」,請填具「報名表」與「收據」回傳真至02-2381-1000黃小姐 收。
4.即期支票:抬頭「財團法人工業技術研究院」,郵寄至: 100台北市中正區館前路65號7樓704室 黃小姐收。
5.計畫代號扣款(工研院同仁) :請從產業學院學習網直接登入工研人報名;俾利計畫代號扣款。

相關課程

更多軟體開發相關課程,請參主題館網址:https://college.itri.org.tw/edm/D1/008/04/edm.html



簡介


產業學院緣起
  依據行政院「挑戰2008:國家發展重點計畫」下之「國際創新研發基地」與「產業高值化」兩計畫,首重產業科技人才的效能。

•911216經科字第09103373120號函:經濟部將本院籌設工研院產業學院之工作,列為因應產業結構轉型,提 ... more

*請務必將下列資料填妥,資料送出後,開課單位將會主動與您聯繫。

我想知道本課程的企業包班內訓     


(重新產生)