国产第1页_91在线亚洲_中文字幕成人_99久久久久久_五月宗合网_久久久久国产一区二区三区四区

讀書月攻略拿走直接抄!
歡迎光臨中圖網 請 | 注冊
> >
強化學習入門——基于Python(基于Python的數據分析叢書)

包郵 強化學習入門——基于Python(基于Python的數據分析叢書)

出版社:中國人民大學出版社出版時間:2023-03-01
開本: 其他 頁數: 192
中 圖 價:¥31.9(6.5折) 定價  ¥49.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

強化學習入門——基于Python(基于Python的數據分析叢書) 版權信息

強化學習入門——基于Python(基于Python的數據分析叢書) 內容簡介

強化學習是機器學習的重要組成部分。本書采用理論與實踐相結合的寫法,從強化學習的基本概念開始,詳細介紹了強化學習的算法理論和實踐操作,配有Python代碼實現(xiàn),完整呈現(xiàn)強化學習算法的實踐細節(jié)。通過這本書你將會:
(1)理解強化學習*關鍵方面的問題。
(2)探索馬爾可夫決策過程及動態(tài)規(guī)劃的過程。
(3)深入理解強化學習的各種方法,包括MC方法,TD方法,深度學習Q方法,SARSA方法等。
(4)通過大量的現(xiàn)實例子及Python實現(xiàn)程序,不斷地實踐,成為強化學習的高手。

強化學習入門——基于Python(基于Python的數據分析叢書) 目錄

**部分 強化學習基礎與實踐
第1章引 言
1.1 從迷宮問題談起
1.1.1 人類和動物所面對的迷宮問題
1.1.2 迷宮的說明性例子
1.1.3 例1.1: 獎勵矩陣
1.1.4 例1.1: 訓練以得到關于狀態(tài)和行動的獎勵: Q矩陣
1.1.5 例1.1: 使用Q矩陣來得到*優(yōu)行動(路徑)
1.1.6 例1.1: 把代碼組合成 class
1.2 熱身: 井字游戲*
1.2.1 兩個真人的簡單井字游戲
1.2.2 人和機器的井字游戲的強化學習實踐
1.2.3 井字游戲的強化學習代碼解釋
1.2.4 整個訓練過程
1.2.5 使用訓練后的模型做人機游戲
1.2.6 1.2.1節(jié)代碼
1.2.7 附錄: 1.2.3節(jié)人和機器的井字游戲代碼
1.3 強化學習的基本概念
1.4 馬爾可夫決策過程的要素
1.5 作為目標的獎勵
1.6 探索與開發(fā)的權衡
1.6.1 探索與開發(fā)
1.6.2 強化學習中的優(yōu)化和其他學科的區(qū)別
1.7 本書將會討論和運算的一些例子
1.7.1 例1.3格子路徑問題
1.7.2 例1.4出租車問題
1.7.3 例1.5推車桿問題
1.7.4 例1.6倒立擺問題
1.7.5 例1.7多臂老虎機問題
1.7.6 例1.7和其他例子(例1.3、例1.5及例1.6)的區(qū)別
第2章馬爾可夫決策過程和動態(tài)規(guī)劃
2.1 馬爾可夫決策過程簡介
2.1.1 馬爾可夫性
2.1.2 策略
2.1.3 作為回報期望的價值函數
2.1.4 通過例 1.3 格子路徑問題理解本節(jié)概念
2.2 動態(tài)規(guī)劃
2.2.1 動態(tài)規(guī)劃簡介
2.2.2 Bellman方程
2.2.3 *優(yōu)策略和*優(yōu)價值函數
2.3 強化學習基本方法概述
2.3.1 代理與環(huán)境的互動
2.3.2 策略迭代: 策略評估和策略改進
2.3.3 價值迭代
2.3.4 策略迭代與價值迭代比較
2.3.5 異步動態(tài)規(guī)劃
2.3.6 廣義策略迭代
2.3.7 策略梯度
2.3.8 off-policy, on-policy和offline RL
2.4 蒙特卡羅抽樣
2.4.1 MC策略評估
2.4.2 MC狀態(tài)-行動值的估計
2.4.3 on-policy: Q價值的MC估計
2.4.4 off-policy: MC預測
2.4.5 MC的策略梯度
2.5 和本章概念相關的例子
2.5.1 例1.3格子路徑問題使用Bellman方程做價值迭代
2.5.2 例1.3格子路徑問題的TD函數
第3章各種機器學習算法及實例
3.1 暫時差(TD)簡介
3.1.1 TD、DP和MC算法的比較
3.1.2 TD方法的特點
3.1.3 TD(0)方法的延伸
3.2 TD評估及策略改進
3.2.1 SARSA (on-policy)
3.2.2 Q學習 (off-policy)
3.2.3 加倍Q學習 (off-policy)
3.3 函數逼近及深度學習算法
3.3.1 基于價值和策略的函數逼近
3.3.2 深度Q學習
3.3.3 TD: 演員-批評者(AC)架構
3.3.4 A2C算法步驟
3.3.5 A3C 算法
3.3.6 DDPG 算法
3.3.7 ES 算法
3.3.8 PPO 算法
3.3.9 SAC 算法
3.4 用第1章的例子理解本章算法
3.4.1 例1.3格子路徑問題: SARSA
3.4.2 例1.4出租車問題: SARSA
3.4.3 例1.3格子路徑問題: 加倍Q學
3.4.4 例1.5推車桿問題: 深度Q學習
3.4.5 例1.5推車桿問題: A3C
3.4.6 例1.6倒立擺問題: DDPG
3.4.7 例1.5推車桿問題: ES
3.4.8 例1.5推車桿問題: PPO-Clip
3.4.9 例1.6 倒立擺問題: SAC
第二部分: 軟件及一些數學知識

第4章 Python基礎
4.1 引言
4.2 安裝
4.2.1 安裝及開始體驗
4.2.2 運行Notebook
4.3 基本模塊的編程
4.4 Numpy模塊
4.5 Pandas模塊
4.6 Matplotlib模塊
4.7 Python 的類――面向對象編程簡介
4.7.1 類的基本結構
4.7.2 計算*小二乘回歸的例子
4.7.3 子類
第5章 PyTorch與深度學習
5.1 作為機器學習一部分的深度學習
5.2 PyTorch 簡介
5.3 神經網絡簡介
5.3.1 神經網絡概述
5.3.2 梯度下降法
5.3.3 深度神經網絡的PyTorch表示
5.4 深度學習的步驟
5.4.1 定義神經網絡
5.4.2 轉換數據成訓練需要的格式
5.4.3 訓練并評估結果
第6章 回顧一些數學知識*
6.1 條件概率和條件期望
6.2 范數和收縮
6.3 線性代數
6.3.1 特征值和特征向量
6.3.2 隨機矩陣
6.4 馬爾可夫決策過程
6.4.1 馬爾可夫鏈和馬爾可夫決策過程
6.4.2 策略
6.4.3 關于時間視界的優(yōu)化
6.5 Bellman 方程
6.5.1 有折扣無限視界問題的Bellman問題
6.5.2 無折扣無限視界問題的Bellman問題
6.6 動態(tài)規(guī)劃
6.6.1 價值迭代
6.6.2 策略迭代
展開全部
商品評論(0條)
暫無評論……
書友推薦
本類暢銷
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 免费啪视频在线观看视频日本 | 91一区二区午夜免费福利网站 | 四虎影院入口 | 欧美成人a级在线视频 | 四虎性| 成人国产精品视频 | 中国一级毛片aaa片 中国一级毛片国产高清 | 日韩在线视频二区 | 日韩免费a级毛片无码a∨ | 成年1314在线观看 | 永久精品免费影院在线观看网站 | 国产欧美日本 | 亚洲成在人线免费视频 | 在线观看免费精品国产 | 黄工厂精品视频在线观看 | 无码少妇a片一区二区三区 无码少妇精品一区二区免费 | 国产精品久久久久久久成人午夜 | md色视频在线观看免费 | 91在线欧美 | 亚洲mm色国产网站 | 老色99久久九九精品尤物 | 无码av波多野结衣久久 | 2020年国产高中毛片在线视频 | 欧美一级做 | 四虎国内精品一区二区 | 乱码人妻一区二区三区 | 亚洲国产精品综合久久2007 | 亚洲h视频在线观看 | 久久午夜无码鲁丝片直播午夜精品 | 中字幕人妻一区二区三区 | 第四色亚洲色图 | 在线免费黄 | 精品少妇一区二区三区免费观 | 蜜桃成人无码区免费视频网站 | 色婷婷五月综合亚洲小说 | 太粗太深了太紧太爽了动态图男男 | 业余 自由 性别 成熟偷窥 | 毛片的网站| 天天躁天天碰天天看 | 国产成人永久在线播放 | 在线91精品亚洲网站精品成人 |