从零开始的强化学习

系统学习强化学习理论与实践

🎮 从零开始的强化学习

从基础理论到高级应用,系统掌握强化学习算法与实践技巧。 本系列涵盖 Q-Learning、DQN、Policy Gradient、Actor-Critic、AlphaZero 等核心算法。

已完成 4/10 篇 (40%)

📖 系列文章目录

  • 01
    📅 2024-06-09 ⏱️ 15 分钟阅读 ✅ 已完成
    强化学习基础概念入门,介绍马尔可夫决策过程(MDP)、状态、动作、奖励、策略等核心要素, 为后续深入学习打下理论基础。
    基础理论 MDP 入门
  • 02
    📅 2024-06-30 ⏱️ 25 分钟阅读 ✅ 已完成
    深度 Q 网络(DQN)实战教程,结合 Atari 游戏案例,详解经验回放、目标网络等关键技术, 手把手实现一个能玩游戏的 AI 智能体。
    DQN 深度学习 实战
  • 03
    📅 2024-06-30 ⏱️ 35 分钟阅读 ✅ 已完成
    AlphaZero 算法深度解析与五子棋实战,学习蒙特卡洛树搜索(MCTS)、自对弈训练、 神经网络架构设计,打造超越人类水平的博弈 AI。
    AlphaZero MCTS 博弈论 高级
  • 04
    📅 2024-06-30 ⏱️ 30 分钟阅读 ✅ 已完成
    反事实后悔最小化(CFR)算法实战,应用于德州扑克不完全信息博弈, 学习纳什均衡求解、策略迭代优化等高级技巧。
    CFR 不完全信息 纳什均衡
  • 05
    📅 2024-07-05 ⏱️ 预计 20 分钟 � 占位
    深入理解策略梯度算法(Policy Gradient),包括 REINFORCE、Actor-Critic 等方法, 学习如何直接优化策略而非值函数。
    Policy Gradient REINFORCE
  • 06
    📅 2024-07-12 ⏱️ 预计 25 分钟 � 占位
    探索 A2C、A3C、PPO、SAC 等先进算法,理解 Actor-Critic 架构的优势与应用场景。
    Actor-Critic PPO SAC
  • 07
    📅 2024-07-20 ⏱️ 预计 25 分钟 � 占位
    多智能体环境下的强化学习挑战与解决方案,学习合作与竞争场景下的策略优化。
    MARL 多智能体
  • 08
    📅 2024-07-28 ⏱️ 预计 20 分钟 � 占位
    Model-Based RL 方法探索,学习如何利用环境模型提升样本效率。
    Model-Based 世界模型
  • 09
    📅 2024-08-05 ⏱️ 预计 18 分钟 � 占位
    实战中的超参数调优经验分享,包括学习率、折扣因子、探索策略等关键参数的选择。
    调参 实战技巧
  • 10
    📅 2024-08-12 ⏱️ 预计 30 分钟 � 占位
    强化学习在推荐系统、机器人控制、资源调度等实际业务中的应用案例分析。
    工业应用 案例分析