強化學入門 基于Pytho
鏈接:https://pan.baidu.com/s/17jukU1FJpy0FpJnsmRDi9Q?pwd=kd5p?
提取碼:kd5p

強化學是機器學的重要組成分。本書采用理論與實踐相結(jié)合的寫法,從強化學的基本概念開始,詳細介紹了強化學的算法理論和實踐作,配有Python代碼實現(xiàn),完整呈現(xiàn)強化學算法的實踐細節(jié)。通過這本書你將會:
(1)理解強化學關(guān)鍵方面的問題。
(2)探索馬爾可夫決策過程及動態(tài)規(guī)劃的過程。
(3)深入理解強化學的各種方法,括MC方法,TD方法,深度學Q方法,SARSA方法等。
(4)通過大量的現(xiàn)實例子及Python實現(xiàn)程序,不斷地實踐,成為強化學的高手。

第分 強化學基礎(chǔ)與實踐
第1章引 言
1.1 從迷宮問題談起
1.1.1 人類和動物所面對的迷宮問題
1.1.2 迷宮的說明性例子
1.1.3 例1.1: 獎勵矩陣
1.1.4 例1.1: 訓練以得到關(guān)于狀態(tài)和行動的獎勵: Q矩陣
1.1.5 例1.1: 使用Q矩陣來得到行動(路徑)
1.1.6 例1.1: 把代碼組合成 class
1.2 熱身: 井字游戲*
1.2.1 兩個的簡單井字游戲
1.2.2 人和機器的井字游戲的強化學實踐
1.2.3 井字游戲的強化學代碼解釋
1.2.4 整個訓練過程
1.2.5 使用訓練后的模型做人機游戲
1.2.6 1.2.1節(jié)代碼
1.2.7 附錄: 1.2.3節(jié)人和機器的井字游戲代碼
1.3 強化學的基本概念
1.4 馬爾可夫決策過程的要素
1.5 作為目標的獎勵
1.6 探索與開發(fā)的權(quán)衡
1.6.1 探索與開發(fā)
1.6.2 強化學中的化和其他學科的區(qū)別
1.7 本書將會討論和運算的些例子
1.7.1 例1.3格子路徑問題
1.7.2 例1.4出租車問題
1.7.3 例1.5推車桿問題
1.7.4 例1.6倒立擺問題
1.7.5 例1.7多臂老虎機問題
1.7.6 例1.7和其他例子(例1.3、例1.5及例1.6)的區(qū)別
第2章馬爾可夫決策過程和動態(tài)規(guī)劃
2.1 馬爾可夫決策過程簡介
2.1.1 馬爾可夫性
2.1.2 策略
2.1.3 作為回報期望的值函數(shù)
2.1.4 通過例 1.3 格子路徑問題理解本節(jié)概念
2.2 動態(tài)規(guī)劃
2.2.1 動態(tài)規(guī)劃簡介
2.2.2 Bellman方程
2.2.3 策略和值函數(shù)
2.3 強化學基本方法概述
2.3.1 代理與環(huán)境的互動
2.3.2 策略迭代: 策略評估和策略改進
2.3.3 值迭代
2.3.4 策略迭代與值迭代比較
2.3.5 異步動態(tài)規(guī)劃
2.3.6 廣義策略迭代
2.3.7 策略梯度
2.3.8 off-policy, on-policy和offline RL
2.4 蒙卡羅抽樣
2.4.1 MC策略評估
2.4.2 MC狀態(tài)-行動值的估計
2.4.3 on-policy: Q值的MC估計
2.4.4 off-policy: MC預(yù)測
2.4.5 MC的策略梯度
2.5 和本章概念相關(guān)的例子
2.5.1 例1.3格子路徑問題使用Bellman方程做值迭代
2.5.2 例1.3格子路徑問題的TD函數(shù)
第3章各種機器學算法及實例
3.1 暫時差(TD)簡介
3.1.1 TD、DP和MC算法的比較
3.1.2 TD方法的點
3.1.3 TD(0)方法的延伸
3.2 TD評估及策略改進
3.2.1 SARSA (on-policy)
3.2.2 Q學 (off-policy)
3.2.3 加倍Q學 (off-policy)
3.3 函數(shù)逼近及深度學算法
3.3.1 基于值和策略的函數(shù)逼近
3.3.2 深度Q學
3.3.3 TD: 演員-批評者(AC)架構(gòu)
3.3.4 A2C算法步驟
3.3.5 A3C 算法
3.3.6 DDPG 算法
3.3.7 ES 算法
3.3.8 PPO 算法
3.3.9 SAC 算法
3.4 用第1章的例子理解本章算法
3.4.1 例1.3格子路徑問題: SARSA
3.4.2 例1.4出租車問題: SARSA
3.4.3 例1.3格子路徑問題: 加倍Q學
3.4.4 例1.5推車桿問題: 深度Q學
3.4.5 例1.5推車桿問題: A3C
3.4.6 例1.6倒立擺問題: DDPG
3.4.7 例1.5推車桿問題: ES
3.4.8 例1.5推車桿問題: PPO-Clip
3.4.9 例1.6 倒立擺問題: SAC
第二分: 軟件及些數(shù)學知識
第4章 Python基礎(chǔ)
4.1 引言
4.2 安裝
4.2.1 安裝及開始體驗
4.2.2 運行Notebook
4.3 基本模塊的編程
4.4 Numpy模塊
4.5 Pandas模塊
4.6 Matplotlib模塊
4.7 Python 的類――面向?qū)ο缶幊毯喗?br>4.7.1 類的基本結(jié)構(gòu)
4.7.2 計算小二乘回歸的例子
4.7.3 子類
第5章 PyTorch與深度學
5.1 作為機器學分的深度學
5.2 PyTorch 簡介
5.3 經(jīng)網(wǎng)絡(luò)簡介
5.3.1 經(jīng)網(wǎng)絡(luò)概述
5.3.2 梯度下降法
5.3.3 深度經(jīng)網(wǎng)絡(luò)的PyTorch表示
5.4 深度學的步驟
5.4.1 定義經(jīng)網(wǎng)絡(luò)
5.4.2 轉(zhuǎn)換數(shù)據(jù)成訓練需要的格式
5.4.3 訓練并評估結(jié)果
第6章 回顧些數(shù)學知識*
6.1 條件概率和條件期望
6.2 范數(shù)和收縮
6.3 線性代數(shù)
6.3.1 征值和征向量
6.3.2 隨機矩陣
6.4 馬爾可夫決策過程
6.4.1 馬爾可夫鏈和馬爾可夫決策過程
6.4.2 策略
6.4.3 關(guān)于時間視界的化
6.5 Bellman 方程
6.5.1 有折扣無限視界問題的Bellman問題
6.5.2 無折扣無限視界問題的Bellman問題
6.6 動態(tài)規(guī)劃
6.6.1 值迭代
6.6.2 策略迭代