AI動態及不確定性建模-風險管控與分佈式強化學習技-公開課程-亞太教育訓練網

AI動態及不確定性建模-風險管控與分佈式強化學習技

本課程聚焦於近年快速發展的「分佈式強化學習」（Distributional Re

　　AI動態及不確定性建模-風險管控與分佈式強化學習技術:從期望值到分佈建模 (Beyond Expectations)，系統性介紹當代頂尖演算法架構，從 C51、QR-DQN 到 IQN (Implicit Quantile Networks)。學員將理解如何透過這些框架捕捉環境的固有隨機性（Aleatoric Uncertainty）與認知不確定性（Epistemic Uncertainty）。

提供機構：

工業技術研究院(工研院產業學院)

加入收藏

轉寄

友善
列印

報名洽詢
機構資訊
授課講師
報名資訊
課程介紹

課程總覽
課程代號：2326010090
AI動態及不確定性建模-風險管控與分佈式強化學習技術
從期望值到分佈建模 (Beyond Expectations)，系統性介紹當代頂尖演算法架構，從 C51、QR-DQN 到 IQN (Implicit Quantile Networks)。學員將理解如何透過這些框架捕捉環境的固有隨機性（Aleatoric Uncertainty）與認知不確定性（Epistemic Uncertainty）。

課程型態/ 混成
上課地址/ 台北學習中心，實際地點依上課通知為準! 線上方案為Webex線上會議室
時數/ 12 小時
起迄日期/ 2026/09/02 ~ 2026/09/03
聯絡資訊/ 謝芷欣 02-23701111#312

報名截止日期：2026/08/26
---------------------------------------------------

課程介紹

在真實世界的工程與商業場景中，AI 決策面對的從來不是「平均情況」，而是高不確定性、極端風險與少數但致命的邊界事件。傳統強化學習（Reinforcement Learning, RL）以「期望回報最大化」為目標，雖在模擬環境中表現亮眼，卻常在實務部署時暴露出風險失控、行為不穩定等問題。「分佈式強化學習」（Distributional Reinforcement Learning）正是為了解決這些痛點而誕生。它不再只學一個「期望值」，而是學整個回報分佈，讓決策模型能清楚知道「好結果有多好、壞結果有多糟」。

本課程聚焦於近年快速發展的「分佈式強化學習」（Distributional Reinforcement Learning）與風險管控型決策設計，教導學員如何從「只看平均回報」進階到「理解整個回報分佈」，讓 AI 能感知極端損失、罕見事件與不確定性，進而做出更穩健的行動選擇。

課程將由淺入深的說明強化學習的核心概念，包括：C51、QR-DQN、IQN 等主流分佈式演算法與其適用場景。同時引入 CVaR (Conditional Value at Risk)、變形 Bellman 算子、分位數迴歸等風險量化方法，讓學員學會如何把「風險偏好」嵌入 AI 決策流程。

透過金融交易、資源調度、自動控制與高風險系統案例，本課程協助工程師與資料科學家打造「不只聰明、而且安全」的 AI 決策模型。

課程提供【數位同步學習】報名方案，歡迎學員報名參加。

課程目標

從期望值到分佈建模 (Beyond Expectations)，系統性介紹當代頂尖演算法架構，從 C51、QR-DQN 到 IQN (Implicit Quantile Networks)。學員將理解如何透過這些框架捕捉環境的固有隨機性（Aleatoric Uncertainty）與認知不確定性（Epistemic Uncertainty）。

課程特色

建立風險導向的強化學習思維，使學員能運用分佈式強化學習與風險量化方法，設計具備穩定性、可控性與安全性的 AI 決策模型，應用於動態且不確定性場景，例如：

1. 量化交易與金融管控：在波動市場中平衡獲利與下行風險。

2. 自動駕駛與機器人：確保在極端邊界案例（Edge Cases）下的決策安全性。

3. 電網調度與資源配置：處理高變異性需求下的穩定供應。

課程對象

1.建議學員具備基本的程式設計概念，例如C、Python、R、Java…等；學員不須非常熟悉撰寫電腦程式語言亦可，課堂中會提供案例程式碼，讓學員實際練習。

2.電機／電子／機械／資訊／生醫／工工／化工／土木／環工等相關工程師、資料分析師／科學家、程式設計師、醫師、教育人員、統計人員、公務機關人員。

課程大綱

單元

課程大綱

第一天

強化學習原理與決策方法

(6小時)

A.強化學習原理

A-1.循序決策相關名詞(狀態state、行動action、狀態轉移transition、報酬reward、政策policy、回報return、價值value等)

A-2.隨機過程、馬可夫鏈、馬可夫報酬過程、貝爾曼方程、馬可夫決策過程

A-3.動態規劃、策略迭代、價值迭代

B.強化學習的控制與決策方法

B-1.政策最佳化方法(政策梯度policy gradient)

B-2.價值最佳化方法(時間差法, SARSA, Q-learning, 高級技巧)

B-3.行動者-評論家方法(actor-critic method)

第二天

分佈式強化學習應用

與案例演練

(6小時)

C. 結合風險度量的強化學習

C-1. 分佈式貝爾曼方程

C-2. 分佈式Q學習

C-3. 變異數、左偏動差、半變異數、風險值等風險衡量

C-4. 連續控制與其他主題

D. 案例解說與演練：

D-1.量化交易與金融管控：在波動市場中平衡獲利與下行風險。

D-2.Atari遊戲代理人：強化學習的SOTA標竿。

D-3.電網調度與資源配置：處理高變異性需求下的穩定供應。

(視課程時間斟酌安排內容)

備註：大綱與各單元時間均為預估規劃，講師有權視參訓學員狀況進行調整

講師簡介-鄒講師

現任：國立臺北商業大學資訊與決策科學研究所暨智能控制與決策研究室教授、臺灣資料科學與商業應用協會理事長、中華R軟體學會(及將更名為中華智慧決策與控制學會)理事長、中華民國品質學會AI暨大數據品質應用委員會主任委員、中華品質評鑑協會常務監事

經歷：香港科技大學(廣州)工業信息與智能研究所訪問教授、臺北商業大學推廣教育部主任、臺北商業大學校務永續發展中心主任、明志科技大學機械工程系特聘教授兼人工智慧暨資料科學研究中心主任(借調)、美國辛辛那提大學工程與應用科學學院訪問教授、新加坡國立大學解析與作業學系訪問教授、西交利物浦大學計算機科學與軟件工程學系暨大數據解析研究院訪問教授、南京理工大學管理科學與工程學系訪問教授、世新大學資訊管理學系副教授、中華大學企業管理學系副教授

專長：機率與統計學習、進化式多目標最佳化、強化學習與控制、賽局與決策智能、時空資料與圖神經網路、貝氏建模與最佳化

課程資訊

1.舉辦地點：台北學習中心，實際地點依上課通知為準! 線上方案為Webex線上會議室

2.舉辦日期：115年9月2日（三）、9月3日（四），09:30am~16:30pm，共計12小時

3.報名方式：線上報名

4.課程洽詢：02-2370-1111 分機312 謝小姐

課程費用