Home Page Product 課程介紹 專業教育訓練課程 【課程九】深度強化學習
Search By Category
Search By Keyword
專業教育訓練課程
Product Name
【課程九】深度強化學習
Model
T005

人類的行為總是在盤算,找到最佳的決策後就開始行動,但是每當遇到困難挫折時,就會修正自己的決策,並且之後再遇到類似的狀況時就會記取教訓,避免重蹈覆轍,就這樣從零開始學起直到擁有豐富的經驗後可順利的達到目標。


強化學習(Reinforcement Learning)的技術不但涵蓋以上人類的決策要素,並且也實現了人類學習的摸索過程;其中包括最佳策略(Policy)的衡量、利弊得失(Reward)的分析、記取教訓、累積經驗、沙盤推演等行為要素。因此強化學習的技術可以讓我們所設計的產品更具有人工智慧的特質。近年來,強化學習結合使用深度學習(Deep Learning)來加強最佳決策的推演,使得深度強化學習(Deep Reinforcement Learning)成為目前開發人工智慧產品不可或缺的關鍵技術。


本課程細說強化學習求解最佳策略(Policy)及酬勞(Reward)的方法,結合深度學習技術,以AlphaGo設計理念、問答學習系統、汽車避撞系統、自駕車強化學習、Game Player等實例說明其原理及應用方法,使學員能夠快速上手深度強化學習的應用。


※上課時間 :歡迎機關團體或個人隨時來電洽詢。

基礎 :具備有 Python 程式語言及 TensorFlow 的設計基礎者均可參加此課程。

  

【課程內容表】

 

授課講師
兌全有限公司 專任講師
第一天  議 程 內     容
8:30~9:00 報     到
9:00~10:50
1. 人工智慧環境 (Environment) 與 智慧代理人 (Agent)
2. 策略 與 規劃 (Policy and Planning)
3. 價值函數 (Value Function) 與 運作模型 (Model)
10:50~11:00 休息時間
11:00~12:00
4. 酬勞與懲罰 (Reward) 與 最優價值函數 (Optimal Value Function)
12:00~13:00 午餐時間
13:00~14:20
5. 馬可夫決策問題(MDP) 與 有限馬可夫決策處理 (FMDP)
6. 動態規劃 (Dynamic Programming) 與 蒙地卡羅方法
14:20~14:30 休息時間
14:30~16:00
7. 時間差分學習 (Time-Difference Learning) 與 Q學習 (Q-Learning)
16:00~16:10 休息時間
16:10~17:00
8. 策略梯度法 (Policy Gradient Method)
  賦    歸

 

 

授課講師
兌全有限公司 專任講師
第二天  議 程內     容
8:30~9:00報     到
9:00~10:5
1.NVIDIA DGX-1 Deep Learning Supercomputer 簡介
2.NVLink High Speed Interconnect 簡介
3.平行 streams及操控Multiple GPUs的使用方法
4.程式追蹤(六): 使用 multiple streams 設計平行程
10:50~11:00休息時間
11:00~12:005.程式追蹤(七): Multiple GPUs 平行程式開發
12:00~13:00午餐時間
13:00~14:206. Asynchronous Advantage Actor-Critic (A3C)
7. Distributed Proximal Policy Optimization (DPPO)
8. AlphaGo 設計理念與方法
9. 問答系統強化學習
14:20~14:30休息時間
14:30~16:0010. 汽車避撞系統模擬
11. 自駕車強化學習
16:00~16:10休息時間
16:10~17:0012. Q-learning Gridworld Player
13. Atari Ping Pong Player
 賦    歸

 

【資訊內容】

 

 




 

 

GPU123 Technology Co., Ltd.
Tel : +886 3301 9583  Fax : +886 3 301 9045
地址:
4F. -1, No. 67, Sec. 2, Daxing W. Rd. Taoyuan City, Taoyuan County  33046, Taiwan (R. 0. C. )    
    

 

Designed by ezb2b2c