🎮 从零开始的强化学习

从基础理论到高级应用，系统掌握强化学习算法与实践技巧。本系列涵盖 Q-Learning、DQN、Policy Gradient、Actor-Critic、AlphaZero 等核心算法。

已完成 4/10 篇 (40%)

📖 系列文章目录

01

强化学习笔记记录

📅 2024-06-09 ⏱️ 15 分钟阅读 ✅ 已完成

强化学习基础概念入门，介绍马尔可夫决策过程（MDP）、状态、动作、奖励、策略等核心要素，为后续深入学习打下理论基础。

基础理论 MDP 入门
02

深度Q网络案例实践

📅 2024-06-30 ⏱️ 25 分钟阅读 ✅ 已完成

深度 Q 网络（DQN）实战教程，结合 Atari 游戏案例，详解经验回放、目标网络等关键技术，手把手实现一个能玩游戏的 AI 智能体。

DQN 深度学习实战
03

AlphaZero 算法实现五子棋

📅 2024-06-30 ⏱️ 35 分钟阅读 ✅ 已完成

AlphaZero 算法深度解析与五子棋实战，学习蒙特卡洛树搜索（MCTS）、自对弈训练、神经网络架构设计，打造超越人类水平的博弈 AI。

AlphaZero MCTS 博弈论高级
04

应用 CFR 实现德州扑克对战

📅 2024-06-30 ⏱️ 30 分钟阅读 ✅ 已完成

反事实后悔最小化（CFR）算法实战，应用于德州扑克不完全信息博弈，学习纳什均衡求解、策略迭代优化等高级技巧。

CFR 不完全信息纳什均衡
05

策略梯度方法详解

📅 2024-07-05 ⏱️ 预计 20 分钟 � 占位

深入理解策略梯度算法（Policy Gradient），包括 REINFORCE、Actor-Critic 等方法，学习如何直接优化策略而非值函数。

Policy Gradient REINFORCE
06

Actor-Critic 算法家族

📅 2024-07-12 ⏱️ 预计 25 分钟 � 占位

探索 A2C、A3C、PPO、SAC 等先进算法，理解 Actor-Critic 架构的优势与应用场景。

Actor-Critic PPO SAC
07

多智能体强化学习

📅 2024-07-20 ⏱️ 预计 25 分钟 � 占位

多智能体环境下的强化学习挑战与解决方案，学习合作与竞争场景下的策略优化。

MARL 多智能体
08

模型基础强化学习

📅 2024-07-28 ⏱️ 预计 20 分钟 � 占位

Model-Based RL 方法探索，学习如何利用环境模型提升样本效率。

Model-Based 世界模型
09

强化学习调参技巧

📅 2024-08-05 ⏱️ 预计 18 分钟 � 占位

实战中的超参数调优经验分享，包括学习率、折扣因子、探索策略等关键参数的选择。

调参实战技巧
10

强化学习工业应用案例

📅 2024-08-12 ⏱️ 预计 30 分钟 � 占位

强化学习在推荐系统、机器人控制、资源调度等实际业务中的应用案例分析。

工业应用案例分析

从零开始的强化学习

🎮 从零开始的强化学习

📖 系列文章目录

💬 互动与反馈

AI 助手