目錄
章節說明:第 1 章 吃角子老虎機問題
第 2 章 馬可夫決策過程
第 3 章 貝爾曼方程式
第 4 章 動態規劃法
第 5 章 蒙地卡羅法
第 6 章 TD 法
第 7 章 類神經網路與 Q 學習
第 8 章 DQN
第 9 章 策略梯度法
第 10 章 進階內容
附錄 A 離線策略蒙地卡羅法
附錄 B n 步 TD 法
附錄 C 理解 Double DQN
附錄 D 驗證策略梯度法
章節說明:第 1 章 吃角子老虎機問題
第 2 章 馬可夫決策過程
第 3 章 貝爾曼方程式
第 4 章 動態規劃法
第 5 章 蒙地卡羅法
第 6 章 TD 法
第 7 章 類神經網路與 Q 學習
第 8 章 DQN
第 9 章 策略梯度法
第 10 章 進階內容
附錄 A 離線策略蒙地卡羅法
附錄 B n 步 TD 法
附錄 C 理解 Double DQN
附錄 D 驗證策略梯度法
購物須知
退換貨說明:
會員均享有10天的商品猶豫期(含例假日)。若您欲辦理退換貨,請於取得該商品10日內寄回。
辦理退換貨時,請保持商品全新狀態與完整包裝(商品本身、贈品、贈票、附件、內外包裝、保證書、隨貨文件等)一併寄回。若退回商品無法回復原狀者,可能影響退換貨權利之行使或須負擔部分費用。
訂購本商品前請務必詳閱退換貨原則。