PyTorch深度學習CNN與Transforme
生成模型領域,從早期的 GANs 到如今爆紅的 Stable Diffusion
PyTorch深度學習CNN與Transformer影像辨識與生成實作:本課程將深入探索剖析為何在圖片分類、語意分割、物件偵測、生成模型乃至自動駕駛等關鍵視覺任務中,模型架構正經歷著從 CNN 到 Transformer 的深刻變革。在圖片分類任務中,Transformer 透過捕捉全局上下文信息,進一步提升了分類的準確性;在語意分割和物件偵測等需要精細定位的任務中,Transformer 的注意力機制能更有效地建模物件間的長距離依賴關係,從而實現更精確的分割與偵測結果。
課程總覽
課程代號:2326010024
PyTorch深度學習CNN與Transformer影像辨識與生成模型實作
1. 熟悉Python此程式語言以及PyTorch此深度學習框架
2. 協助具影像處理專長之學員切入電腦視覺/深度學習領域
3. 學會在應用各種CNN與Transformer模型解決各種電腦視覺的工業應用
4. 未來可銜接各類進階深度學習課程
課程型態/ 數位課程
上課地址/ 線上直播會議室(使用Cisco Webex Meetings,將於課前提供會議室資訊)
時 數/ 12 小時
起迄日期/ 2026/07/04 ~ 2026/07/18
聯絡資訊/ 李小姐 02-2370-1111#316
報名截止日期:2026/06/27
---------------------------------------
深度學習在過去十年徹底革新了電腦視覺領域。這一切的起點可以追溯到卷積神經網絡 (CNN)的崛起,透過獨特的卷積核設計,層層堆疊,從邊緣、紋理到複雜的物件結構,構建出強大的視覺表示能力。從開創性的 AlexNet 誕生標誌著 CNN 時代的開啟,隨後 ResNet 等架構的提出更解決了深層網絡訓練的難題,將CNN 推向頂峰。
然而,隨著 Transformer 架構挾其強大的全局關聯捕捉能力 (Attention Mechanism) 開始引起視覺研究者的關注。Vision Transformer (ViT) 的誕生,證明了 Transformer 能直接處理圖像序列,並在多項任務中超越傳統 CNN,正式開啟了視覺領域從 CNN 到 Transformer 的典範轉移新篇章。
本課程將深入探索剖析為何在圖片分類、語意分割、物件偵測、生成模型乃至自動駕駛等關鍵視覺任務中,模型架構正經歷著從 CNN 到 Transformer 的深刻變革。在圖片分類任務中,Transformer 透過捕捉全局上下文信息,進一步提升了分類的準確性;在語意分割和物件偵測等需要精細定位的任務中,Transformer 的注意力機制能更有效地建模物件間的長距離依賴關係,從而實現更精確的分割與偵測結果。生成模型領域,從早期的 GANs 到如今爆紅的 Stable Diffusion 等 Diffusion Models,Transformer 的引入使得生成高品質、高解析度的圖像成為可能,並帶來了強大的可控性。
應用案例將分享將針對自動駕駛這個高度整合多種感測技術的應用場景中,Transformer 更展現出處理多模態數據(如相機、雷達)和時序信息的巨大潛力,為更安全、更智慧的自動駕駛系統奠定了基礎。本課程將帶領您深入理解這些技術背後的原理,掌握如何應用這些先進模型解決實際問題,為進入高階 AI 應用領域奠定堅實基礎。
- 熟悉Python此程式語言以及PyTorch此深度學習框架
- 協助具影像處理專長之學員切入電腦視覺/深度學習領域
- 學會在應用各種CNN與Transformer模型解決各種電腦視覺的工業應用
- 未來可銜接各類進階深度學習課程
- 學會在應用各種CNN與Transformer模型解決各種電腦視覺的工業應用
- 未來可銜接各類進階深度學習技術或想掌握深度學習視覺技術的工程與研究人員
- 影像處理、電腦視覺、自動駕駛相關從業者
- 欲了解 CNN 與 Transformer 於各項視覺任務應用的開發者
- 具程式基礎、希望進入 AI 領域的學生與轉職者
|
課程大綱 |
內容 |
| CNN與Transformer於圖片分類人臉辨識/瑕疵檢測之原理與實作 |
|
| 語義分割模型簡介 |
|
| 物件偵測模型簡介 |
|
| GAN生成模型簡介 |
|
| Diffusion生成模型 |
|
|
自駕車的影像辨識模型 |
|
★本課程所有程式都將在Colab此雲端平台上開發,會提供所有實作範例資料及程式碼
- 學歷:台灣大學應用力學研究所碩士/清華大學資訊工程研究所博士
- 現職:瑞典自駕車軟體開發公司Zenseact(Volvo Cars)深度學習工程師
-
經歷:
-
馬來西亞偉特科技公司(ViTrox)研發顧問
-
馬來西亞10 EPOCH科技公司研發顧問
-
工研院機械所副研究員/研究員/資深研究員
-
加州大學聖塔芭芭拉分校資工系訪問研究員
-
上奇資訊-計算機概論 共同譯者
-
2010 伽利略創新大賽 台灣區季軍
-
2011 伽利略創新大賽 特別獎(GNSS Living Lab)得主
-
2013 伽利略創新大賽 瑞士區冠軍
-
2016 日本立命館大學英文演講比賽 清華大學代表
-
2017 CVGIP 行人偵測競賽 亞軍
-
2017 MOST 生成式對抗網路競賽 佳作
-
2018第八屆兩岸清華研究生學術論壇 清華大學代表
-
2019 IEEE ICIP Three Minute Thesis Competition (3MT®): Finalist
-
2020 AI智慧應用新世代人才培育計畫-人才解題實證(倒車攝影機影像識別-障礙物與逼近偵測):佳作
-
2020 中華民國影像處理與圖形識別學會第十三屆博碩士論文獎博士論文佳作
-
-
專長:Computer Vision, Image Processing, Pattern Recognition, Machine Learning, Deep Learning, Python/C/C++ Programming
已於電腦視覺/深度學習/駕駛輔助/自駕車領域中發表過三十七篇國際論文,十五篇國內論文,以及十三篇專利。
- 主辦單位:工研院產業學院 台北學習中心
- 舉辦地點:線上直播會議室 (使用Cisco Webex Meeting)
- 上課時間:115/7/4、11、18 (週六) ,每日13:00~17:00,共3日(12小時)
- 招生人數:本班預計20人為原則,最低開課門檻為10人
- 課程費用:
|
報名方案 |
費用 |
|
課程原價 |
每人10,800元 |
|
早鳥價 (開課前21日) |
每人9,800元 |
|
團報價 (三人以上) |
每人9,200元 |
- 繳費方式:報名時可選擇信用卡線上繳費或匯款,主辦單位將於確認開班後通知您相關匯款資訊。
- 退費標準:若欲取消報名,請於開課前三日以傳真或email告知主辦單位,並電話確認退費事宜,逾期將郵寄講義,恕不退費。若您未於期限內申請退費,則不得於任何因素要求退費,惟可轉讓與其他人參訓。
- 課程洽詢:02-2370-1111 *316李小姐 *315 陳先生
- 注意事項:
- 為確保您的上課權益,報名後若未收到任何回覆,敬請來電洽詢方完成報名。
- 若原報名者因故不克參加,但欲更換他人參加,敬請於開課前三日通知。
- 配合講師時間或臨時突發事件,主辦單位有調整日期或更換講師之權利。
- 報名時請註明欲開立發票完整抬頭,以利開立收據;未註明者,一律開立個人抬頭,恕不接受更換發票之要求。
-
為尊重講師之智慧財產權,課程進行中請勿錄音及錄影。
報名截止日:2026/06/27
開課日:2026/07/04結束日:2026/07/18定價: $10,800
時數:12 (小時) 時段:13:00~17:00
地點:線上 | 線上同步學習 | 線上直播 [看地圖]
產業學院緣起
依據行政院「挑戰2008:國家發展重點計畫」下之「國際創新研發基地」與「產業高值化」兩計畫,首重產業科技人才的效能。
•911216經科字第09103373120號函:經濟部將本院籌設工研院產業學院之工作,列為因應產業結構轉型,提 ... more






