PyTorch深度學習CNN與Transforme-公開課程-亞太教育訓練網

PyTorch深度學習CNN與Transforme

生成模型領域，從早期的 GANs 到如今爆紅的 Stable Diffusion

　　PyTorch深度學習CNN與Transformer影像辨識與生成實作:本課程將深入探索剖析為何在圖片分類、語意分割、物件偵測、生成模型乃至自動駕駛等關鍵視覺任務中，模型架構正經歷著從 CNN 到 Transformer 的深刻變革。在圖片分類任務中，Transformer 透過捕捉全局上下文信息，進一步提升了分類的準確性；在語意分割和物件偵測等需要精細定位的任務中，Transformer 的注意力機制能更有效地建模物件間的長距離依賴關係，從而實現更精確的分割與偵測結果。

提供機構：

工業技術研究院(工研院產業學院)

加入收藏

轉寄

友善
列印

報名洽詢
機構資訊
授課講師
報名資訊
課程介紹

課程總覽
課程代號：2326010024
PyTorch深度學習CNN與Transformer影像辨識與生成模型實作

1. 熟悉Python此程式語言以及PyTorch此深度學習框架
2. 協助具影像處理專長之學員切入電腦視覺/深度學習領域
3. 學會在應用各種CNN與Transformer模型解決各種電腦視覺的工業應用
4. 未來可銜接各類進階深度學習課程

課程型態/ 數位課程
上課地址/ 線上直播會議室(使用Cisco Webex Meetings，將於課前提供會議室資訊)
時數/ 12 小時
起迄日期/ 2026/07/04 ~ 2026/07/18
聯絡資訊/ 李小姐 02-2370-1111#316

報名截止日期：2026/06/27
---------------------------------------

課程介紹

深度學習在過去十年徹底革新了電腦視覺領域。這一切的起點可以追溯到卷積神經網絡 (CNN)的崛起，透過獨特的卷積核設計，層層堆疊，從邊緣、紋理到複雜的物件結構，構建出強大的視覺表示能力。從開創性的 AlexNet 誕生標誌著 CNN 時代的開啟，隨後 ResNet 等架構的提出更解決了深層網絡訓練的難題，將CNN 推向頂峰。

然而，隨著 Transformer 架構挾其強大的全局關聯捕捉能力 (Attention Mechanism) 開始引起視覺研究者的關注。Vision Transformer (ViT) 的誕生，證明了 Transformer 能直接處理圖像序列，並在多項任務中超越傳統 CNN，正式開啟了視覺領域從 CNN 到 Transformer 的典範轉移新篇章。

本課程將深入探索剖析為何在圖片分類、語意分割、物件偵測、生成模型乃至自動駕駛等關鍵視覺任務中，模型架構正經歷著從 CNN 到 Transformer 的深刻變革。在圖片分類任務中，Transformer 透過捕捉全局上下文信息，進一步提升了分類的準確性；在語意分割和物件偵測等需要精細定位的任務中，Transformer 的注意力機制能更有效地建模物件間的長距離依賴關係，從而實現更精確的分割與偵測結果。生成模型領域，從早期的 GANs 到如今爆紅的 Stable Diffusion 等 Diffusion Models，Transformer 的引入使得生成高品質、高解析度的圖像成為可能，並帶來了強大的可控性。

應用案例將分享將針對自動駕駛這個高度整合多種感測技術的應用場景中，Transformer 更展現出處理多模態數據（如相機、雷達）和時序信息的巨大潛力，為更安全、更智慧的自動駕駛系統奠定了基礎。本課程將帶領您深入理解這些技術背後的原理，掌握如何應用這些先進模型解決實際問題，為進入高階 AI 應用領域奠定堅實基礎。

課程目標

熟悉Python此程式語言以及PyTorch此深度學習框架
協助具影像處理專長之學員切入電腦視覺/深度學習領域
學會在應用各種CNN與Transformer模型解決各種電腦視覺的工業應用
未來可銜接各類進階深度學習課程

課程對象

學會在應用各種CNN與Transformer模型解決各種電腦視覺的工業應用
未來可銜接各類進階深度學習技術或想掌握深度學習視覺技術的工程與研究人員
影像處理、電腦視覺、自動駕駛相關從業者
欲了解 CNN 與 Transformer 於各項視覺任務應用的開發者
具程式基礎、希望進入 AI 領域的學生與轉職者

課程大綱

課程大綱	內容
CNN與Transformer於圖片分類人臉辨識/瑕疵檢測之原理與實作	Alexnet VGG Googlenet ResNet Vision Transformer(ViT)
語義分割模型簡介	從FCN到DeepLabv3+，基於Transformer更為強大的SETR 可透過文字/UI介面實現的語義分割模型Segment Anything Model (SAM)
物件偵測模型簡介	基於CNN的2D物件偵測模型YOLOv1-v13, 3D物件偵測模型FCOS-3d Transformer-based的2D物件偵測模型DETR, Anchor DTR, RT-DETR以及3D物件偵測模型DETR-3D
GAN生成模型簡介	影像生成GAN，DCGAN, StyleGAN, BigGAN, VQ-GAN 影像轉換GAN，Pix2pix與CycleGAN; 超解析度模型:SRGAN 去模糊模型: DeblurGAN; 結合Transformer的GAN模型：VQ-GAN 基於Transformer與GAN的人臉模糊影像還原模型：CodeFormer。
Diffusion生成模型	影像生成DDPM, DDIM 與 Classifier-free guidance 影像轉換：Palette, Latent Diffusion Model 影像編輯：InstructPix2Pix; Stable Diffusion 及其微調：Controlnet, Dreambooth, LORA, Textual Inversion
自駕車的影像辨識模型	多攝影機之鳥瞰物件語意分割模型：SimpleBEV 多攝影機之3D物件偵測模型:DETR3D 基於Transformer，更為先進的3D物件偵測模型 PETR 多攝影機之車道線偵測模型：Lift, Splat, Shoot 骨幹網路共享之多任務模型：物件偵測+語意分割

★本課程所有程式都將在Colab此雲端平台上開發，會提供所有實作範例資料及程式碼

講師簡介

學歷：台灣大學應用力學研究所碩士/清華大學資訊工程研究所博士
現職：瑞典自駕車軟體開發公司Zenseact(Volvo Cars)深度學習工程師
經歷：
- 馬來西亞偉特科技公司(ViTrox)研發顧問
- 馬來西亞10 EPOCH科技公司研發顧問
- 工研院機械所副研究員/研究員/資深研究員
- 加州大學聖塔芭芭拉分校資工系訪問研究員
- 上奇資訊-計算機概論共同譯者
- 2010 伽利略創新大賽台灣區季軍
- 2011 伽利略創新大賽特別獎(GNSS Living Lab)得主
- 2013 伽利略創新大賽瑞士區冠軍
- 2016 日本立命館大學英文演講比賽清華大學代表
- 2017 CVGIP 行人偵測競賽亞軍
- 2017 MOST 生成式對抗網路競賽佳作
- 2018第八屆兩岸清華研究生學術論壇清華大學代表
- 2019 IEEE ICIP Three Minute Thesis Competition (3MT®): Finalist
- 2020 AI智慧應用新世代人才培育計畫-人才解題實證(倒車攝影機影像識別-障礙物與逼近偵測)：佳作
- 2020 中華民國影像處理與圖形識別學會第十三屆博碩士論文獎博士論文佳作
專長：Computer Vision, Image Processing, Pattern Recognition, Machine Learning, Deep Learning, Python/C/C++ Programming

已於電腦視覺/深度學習/駕駛輔助/自駕車領域中發表過三十七篇國際論文，十五篇國內論文，以及十三篇專利。

報名資訊與費用

主辦單位：工研院產業學院台北學習中心
舉辦地點：線上直播會議室 (使用Cisco Webex Meeting)
上課時間：115/7/4、11、18 (週六) ，每日13:00~17:00，共3日（12小時）
招生人數：本班預計20人為原則，最低開課門檻為10人
課程費用：

報名方案	費用
課程原價	每人10,800元
早鳥價 (開課前21日)	每人9,800元
團報價 (三人以上)	每人9,200元

繳費方式：報名時可選擇信用卡線上繳費或匯款，主辦單位將於確認開班後通知您相關匯款資訊。
退費標準：若欲取消報名，請於開課前三日以傳真或email告知主辦單位，並電話確認退費事宜，逾期將郵寄講義，恕不退費。若您未於期限內申請退費，則不得於任何因素要求退費，惟可轉讓與其他人參訓。
課程洽詢：02-2370-1111 *316李小姐 *315 陳先生
注意事項：