博客标签

按主题分类浏览学术文章

🌐 知识图谱

文章之间的关联关系可视化(点击节点查看相关文章)

不确定性建模

动态不确定性因果图模型理论

DUCG模型的理论基础与核心算法


CFR

应用CFR实现德州扑克对战


博弈论

多人博弈AI设计

三人以上博弈的策略与联盟


应用CFR实现德州扑克对战


不完全信息

应用CFR实现德州扑克对战


策略梯度

策略梯度方法详解

从REINFORCE到基线与方差降低


REINFORCE

策略梯度方法详解

从REINFORCE到基线与方差降低


Actor-Critic

Actor-Critic 算法家族

A2C/A3C、PPO、SAC 全面梳理


PPO

Actor-Critic 算法家族

A2C/A3C、PPO、SAC 全面梳理


SAC

Actor-Critic 算法家族

A2C/A3C、PPO、SAC 全面梳理


推理算法

DUCG推理算法详解

贝叶斯推理与近似算法


贝叶斯推理

DUCG推理算法详解

贝叶斯推理与近似算法


多智能体

多智能体强化学习

合作与竞争:MARL 的关键技术


统计学

统计学基础与假设检验

数据分析的统计学基石


假设检验

统计学基础与假设检验

数据分析的统计学基石


AB测试

统计学基础与假设检验

数据分析的统计学基石


算法

MCTS算法深度解析

蒙特卡洛树搜索的原理与变种


搜索

MCTS算法深度解析

蒙特卡洛树搜索的原理与变种


Transformer

Transformer架构详解

深入理解自注意力机制与位置编码


注意力机制

Transformer架构详解

深入理解自注意力机制与位置编码


多人博弈

多人博弈AI设计

三人以上博弈的策略与联盟


联盟

多人博弈AI设计

三人以上博弈的策略与联盟


预训练

LLM训练技术详解

预训练、SFT与RLHF全流程


RLHF

LLM训练技术详解

预训练、SFT与RLHF全流程


训练技术

LLM训练技术详解

预训练、SFT与RLHF全流程


LoRA

高效微调技术:LoRA与PEFT

参数高效微调方法实战


PEFT

高效微调技术:LoRA与PEFT

参数高效微调方法实战


微调

高效微调技术:LoRA与PEFT

参数高效微调方法实战


Prompt Engineering

提示工程最佳实践

掌握Prompt设计的艺术与科学


Chain-of-Thought

提示工程最佳实践

掌握Prompt设计的艺术与科学


提示工程

提示工程最佳实践

掌握Prompt设计的艺术与科学


RAG

RAG检索增强生成实战

构建企业级知识问答系统


向量检索

RAG检索增强生成实战

构建企业级知识问答系统


知识库

RAG检索增强生成实战

构建企业级知识问答系统


工具调用

LLM Agent开发指南

构建具有规划与工具调用能力的智能体


任务规划

LLM Agent开发指南

构建具有规划与工具调用能力的智能体


多模态

多模态大模型技术

从CLIP到GPT-4V的视觉语言理解


CLIP

多模态大模型技术

从CLIP到GPT-4V的视觉语言理解


视觉语言模型

多模态大模型技术

从CLIP到GPT-4V的视觉语言理解


推理优化

LLM推理优化与部署

量化、加速与生产环境部署


量化

LLM推理优化与部署

量化、加速与生产环境部署


模型部署

LLM推理优化与部署

量化、加速与生产环境部署


AI安全

LLM安全与对齐

构建可信赖的大语言模型应用


价值对齐

LLM安全与对齐

构建可信赖的大语言模型应用


可信AI

LLM安全与对齐

构建可信赖的大语言模型应用