国产第1页_91在线亚洲_中文字幕成人_99久久久久久_五月宗合网_久久久久国产一区二区三区四区

讀書月攻略拿走直接抄!
歡迎光臨中圖網 請 | 注冊
> >
強化學習的數學原理(英文版)

包郵 強化學習的數學原理(英文版)

作者:趙世鈺 著
出版社:清華大學出版社出版時間:2024-07-01
開本: 16開 頁數: 312
中 圖 價:¥87.3(7.4折) 定價  ¥118.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

強化學習的數學原理(英文版) 版權信息

  • ISBN:9787302658528
  • 條形碼:9787302658528 ; 978-7-302-65852-8
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

強化學習的數學原理(英文版) 本書特色

·從零開始到透徹理解,知其然并知其所以然; ·本書在GitHub收獲2000 星; ·課程視頻全網播放超過80萬; ·國內外讀者反饋口碑爆棚; ·教材、視頻、課件三位一體。

強化學習的數學原理(英文版) 內容簡介

本書從強化學習*基本的概念開始介紹, 將介紹基礎的分析工具, 包括貝爾曼公式和貝爾曼* 優公式, 然后推廣到基于模型的和無模型的強化學習算法, *后推廣到基于函數逼近的強化學習方 法。本書強調從數學的角度引入概念、分析問題、分析算法, 并不強調算法的編程實現。本書不要求 讀者具備任何關于強化學習的知識背景, 僅要求讀者具備一定的概率論和線性代數的知識。如果讀者 已經具備強化學習的學習基礎, 本書可以幫助讀者更深入地理解一些問題并提供新的視角。 本書面向對強化學習感興趣的本科生、研究生、研究人員和企業或研究所的從業者。 

強化學習的數學原理(英文版) 目錄

Overview of this BookChapter 1 Basic Concepts1.1 A grid world example1.2 State and action1.3 State transition1.4 Policy1.5 Reward1.6 Trajectories, returns, and episodes1.7 Markov decision processes1.8 Summary1.9 Q&AChapter 2 State Values and the Bellman Equation2.1 Motivating example 1: Why are returns important?2.2 Motivating example 2: How to calculate returns?2.3 State values2.4 The Bellman equation2.5 Examples for illustrating the Bellman equation2.6 Matrix-vector form of the Bellman equation2.7 Solving state values from the Bellman equation2.7.1 Closed-form solution2.7.2 Iterative solution2.7.3 Illustrative examples2.8 From state value to action value2.8.1 Illustrative examples2.8.2 The Bellman equation in terms of action values2.9 Summary2.10 Q&AChapter 3 Optimal State Values and the Bellman Optimality Equation3.1 Motivating example: How to improve policies?3.2 Optimal state values and optimal policies3.3 The Bellman optimality equation3.3.1 Maximization of the right-hand side of the BOE3.3.2 Matrix-vector form of the BOE3.3.3 Contraction mapping theorem3.3.4 Contraction property of the right-hand side of the BOE3.4 Solving an optimal policy from the BOE3.5 Factors that influence optimal policies3.6 Summary3.7 Q&AChapter 4 Value Iteration and Policy Iteration4.1 Value iteration4.1.1 Elementwise form and implementation4.1.2 Illustrative examples4.2 Policy iteration4.2.1 Algorithm analysis4.2.2 Elementwise form and implementation4.2.3 Illustrative examples4.3 Truncated policy iteration4.3.1 Comparing value iteration and policy iteration4.3.2 Truncated policy iteration algorithm4.4 Summary4.5 Q&AChapter 5 Monte Carlo Methods5.1 Motivating example: Mean estimation5.2 MC Basic: The simplest MC-based algorithm5.2.1 Converting policy iteration to be model-free5.2.2 The MC Basic algorithm5.2.3 Illustrative examples5.3 MC Exploring Starts5.3.1 Utilizing samples more efficiently5.3.2 Updating policies more efficiently5.3.3 Algorithm description5.4 MC ∈-Greedy: Learning without exploring starts5.4.1 ∈-greedy policies5.4.2 Algorithm description5.4.3 Illustrative examples5.5 Exploration and exploitation of ∈-greedy policies5.6 Summary5.7 Q&AChapter 6 Stochastic Approximation6.1 Motivating example: Mean estimation6.2 Robbins-Monro algorithm6.2.1 Convergence properties6.2.2 Application to mean estimation6.3 Dvoretzky's convergence theorem6.3.1 Proof of Dvoretzky's theorem6.3.2 Application to mean estimation6.3.3 Application to the Robbins-Monro theorem6.3.4 An extension of Dvoretzky's theorem6.4 Stochastic gradient descent6.4.1 Application to mean estimation6.4.2 Convergence pattern of SGD6.4.3 A deterministic formulation of SGD6.4.4 BGD, SGD, and mini-batch GD6.4.5 Convergence of SGD6.5 Summary6.6 Q&AChapter 7 Temporal-Difference Methods7.1 TD learning of state values7.1.1 Algorithm description7.1.2 Property analysis7.1.3 Convergence analysis7.2 TD learning of action values: Sarsa7.2.1 Algorithm description7.2.2 Optimal policy learning via Sarsa7.3 TD learning of action values: n-step Sarsa7.4 TD learning of optimal action values: Q-learning7.4.1 Algorithm description7.4.2 Off-policy vs. on-policy7.4.3 Implementation7.4.4 Illustrative examples7.5 A unifed viewpoint7.6 Summary7.7 Q&AChapter 8 Value Function Approximation8.1 Value representation: From table to function8.2 TD learning of state values with function approximation8.2.1 O
展開全部

強化學習的數學原理(英文版) 作者簡介

趙世鈺,西湖大學工學院AI分支特聘研究員,智能無人系統實驗室負責人,國家海外高層次人才引進計劃青年項目獲得者;本碩畢業于北京航空航天大學,博士畢業于新加坡國立大學,曾任英國謝菲爾德大學自動控制與系統工程系Lecturer;致力于研發有趣、有用、有挑戰性的下一代機器人系統,重點關注多機器人系統中的控制、決策與感知等問題。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 成人小视频在线免费观看 | 久久久久久人妻毛片a片 | 国产精品久久久久久久久久久威 | avav在线看 | www视频在线观看免费 | 99视频在线精品免费观看18 | av网站免费线看精品 | 亚洲一区小说 | 性久久久久久久 | 最近中文字幕无免费视频 | 国产私拍精品88福利视频 | 亚洲爆乳无码一区二区三区 | 狠狠躁夜夜躁人人爽天天69 | 亚洲综合一区二区精品久久 | 欧美国产高清欧美 | 国产精品亚洲精品 | 亚洲精品欧美精品中文字幕 | 在线观看免费福利 | 欧美色视频在线 | 日本一级一片免费 | 国产精品亚洲二线在线播放 | 9久爱午夜视频 | 国产精品无码av天天爽播放器 | 中文字幕av免费专区 | 成人a在线 | 久久电影网午夜鲁丝片免费 | 牲欲强的熟妇农村老妇女视频 | 久久精品大全 | 国产精品400部自产在线观看 | 久久综合香蕉 | 制服丝袜中文字幕在线 | 色狠狠一区二区三区香蕉 | 韩国免费高清一级毛片性色 | 91久久亚洲国产成人精品性色 | 国产麻豆媒一区一区二区三区 | 亚洲va国产va天堂va久久 | 91福利国产在线观看网站 | 国产精品无码专区在线播放 | 免费午夜爽爽爽www视频十八禁 | 红杏亚洲影院一区二区三区 | 免费黄色一级大片 |