Feng Yu's Academic Blog

数据科学与人工智能研究 | 探索智能算法的奥秘

Hi,我是冯宇,一名专注于数据科学人工智能领域的研究者。

📧 联系方式

  • 邮箱:19805189125@163.com
  • 电话:19805189125
  • 现居地:北京

🎓 教育经历

中国传媒大学 211 | 计算机科学与技术 硕士

时间:2022年9月 - 2025年7月 | 地点:北京

研究方向:动态因果推理、机器学习模型优化

南京邮电大学 双一流 | 信息管理与信息系统 本科

时间:2018年9月 - 2022年7月 | 地点:南京

💼 工作经历

模型驱动的动态本体引擎与可演进的工业智能系统架构设计

时间:2025年7月 - 至今

项目描述:为解决复杂工业流程(煤层气开采产气量预测)中数据孤岛与语义异构的问题,主导设计了一套模型驱动的动态本体引擎及支撑生态系统。本项目以动态本体作为统一知识表征的基础,集成了多范式AI(物理机理模型、机器学习、因果推理)、高级AI智能体(LLM, RL),旨在构建一个能够实现可演进的工业数字孪生基础设施。

核心职责:

  • 系统顶层架构设计与演进:独立负责动态本体引擎系统V1至V3的核心架构设计与迭代,确立了"内核与能力解耦"的插件化设计范式,显著提升了系统的可扩展性与鲁棒性。设计了涵盖煤层气数据管道、动态本体构建、地质建模、物理数值模拟及AI推理的全流程技术蓝图。构建了"知识表示、智能规划、自主执行、开放API"四层流水线模型,为上层智能应用提供了标准化的能力支撑。
  • AI智能体与物理数值模拟集成:基于ReAct (Reason + Act) 框架,将动态本体引擎封装为大型语言模型(LLM)Agent的核心工具集(Toolkit),赋能Agent通过自然语言理解,自主地进行开放式、多步骤的复杂任务规划与执行(如产量预测)。独立构建并实现了用于产气量预测等下游任务的物理数值模拟求解器,覆盖黑油模型与组分模型,为AI提供了高保真的物理约束。
  • 全景生态系统设计与混合数据集成模式构建:面向多用户角色(如地质工程师、数据科学家)设计了全景人机交互生态,明确并开发了本体工作台、计算注册台等核心功能模块的定位与职责。创新性地设计了"混合数据集成模式",清晰定义了批处理物化(ETL)、流式同步(CDC)和联邦查询三种架构与本体平台的协同工作流,有效解决大规模异构数据源的统一语义化与动态集成难题。

技术栈:Python、图论算法、MySQL、LLM

项目职责:动态本体设计与推理算法设计实现

🎓 研究方向

  • 概率图模型 - 动态不确定性因果图(DUCG)建模与推理
  • 机器学习 - 深度学习、强化学习算法研究与应用
  • 数据分析 - 因果推断、统计建模、业务分析
  • 智能算法 - 群体智能算法优化与博弈论应用

🔬 学术成果

  • 动态不确定性因果图模型理论研究及多领域应用
  • 深度强化学习在游戏AI中的创新应用
  • 机器学习可解释性方法研究
  • 因果推断框架在实际业务中的应用实践

💻 技术项目

  • Alpha Zero五子棋AI - 基于深度强化学习的游戏AI系统
  • 德州扑克对战系统 - 应用CFR算法实现的智能博弈系统
  • 数据分析实战平台 - 涵盖多个行业的数据分析案例集
  • SHAP可解释性工具 - 机器学习模型解释性分析框架

🛠️ 专业技能

专业软件:熟练使用Pytorch、Sklearn等机器学习框架

机器学习:熟悉LR、XGBoost、聚类等机器学习算法,熟悉Transformer等前沿技术

数据分析与可视化工具:熟悉A/B测试、回归分析与贝叶斯推理。熟练使用SPSS、R语言与Python语言,熟悉Numpy、Pandas等数据处理库,熟练掌握Gephi与PowerBI等工具

数据查询工具:熟练掌握MySql,包括增删改查、窗口函数等相关工具

算法结构:熟悉常见数据结构及算法,比如栈、链表、二叉树、十大排序等

语言能力与技能证书:CET-6(488),能够流畅阅读英文文档。计算机二级

🎯 研究兴趣

我致力于将理论研究与实际应用相结合,特别关注:

  • 概率图模型在复杂系统建模中的应用
  • 因果推断方法在业务决策中的价值
  • 深度学习的可解释性与可信AI
  • 强化学习在实际场景中的落地应用

� 其他链接



🎓 学术研究亮点

🧠 概率图模型

动态不确定性因果图(DUCG)理论研究,应用于法律、金融、安全等多个领域

🎮 强化学习

AlphaZero算法优化、CFR博弈算法,在游戏AI领域取得创新突破

📊 因果推断

DoWhy、YLearn框架应用,为业务决策提供科学的因果分析方法

Existence precedes essence, exploration drives growth

Hi, I am 冯宇, a researcher focused on Data Science and Artificial Intelligence.

🎓 Research Areas

  • Probabilistic Graphical Models - Dynamic Uncertain Causality Graph (DUCG) modeling and inference
  • Machine Learning - Deep learning and reinforcement learning algorithms
  • Data Analysis - Causal inference, statistical modeling, and business analytics
  • Intelligent Algorithms - Swarm intelligence optimization and game theory applications

🔬 Academic Achievements

  • Research on Dynamic Uncertain Causality Graph theory and multi-domain applications
  • Innovative applications of deep reinforcement learning in game AI
  • Research on explainable machine learning methods
  • Practical applications of causal inference frameworks in business

💻 Technical Projects

  • Alpha Zero Gomoku AI - Game AI system based on deep reinforcement learning
  • Texas Hold'em Battle System - Intelligent game system using CFR algorithm
  • Data Analysis Platform - Collection of data analysis cases across multiple industries
  • SHAP Explainability Tool - Framework for machine learning model interpretability

�️ Tech Stack

Programming: Python, R, JavaScript, SQL

ML/DL: TensorFlow, PyTorch, Scikit-learn, XGBoost

Data Tools: Pandas, NumPy, Matplotlib, Seaborn, Plotly

Causal Inference: DoWhy, YLearn, CausalML

Others: Git, Docker, Jupyter, VS Code

🎯 Research Interests

I am committed to combining theoretical research with practical applications, particularly focusing on:

  • Applications of probabilistic graphical models in complex system modeling
  • Value of causal inference methods in business decision-making
  • Explainability of deep learning and trustworthy AI
  • Landing applications of reinforcement learning in real scenarios

📫 Contact


🎓 Research Highlights

🧠 Probabilistic Models

DUCG theory research with applications in legal, financial, and security domains

🎮 Reinforcement Learning

AlphaZero optimization and CFR algorithms achieving breakthroughs in game AI

📊 Causal Inference

DoWhy and YLearn framework applications for scientific decision-making


📝 最新文章 Latest Posts

Transformer架构详解

深入理解自注意力机制与位置编码

Transformer架构的诞生标志着深度学习进入新纪元。2017年,Google团队在论文《Attention is All You Need》中提出Transformer,彻底颠覆了序列建模的传统范式。它不仅催生了BERT、GPT等里程碑模型,更成为现代大语言模型的基石。 一、核心架构 Encoder块结构: Input Embedding + Positional En...

MCTS算法深度解析

蒙特卡洛树搜索的原理与变种

蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)是近二十年来人工智能领域最重要的算法突破之一。它让计算机在围棋、象棋等复杂博弈游戏中达到甚至超越人类顶尖水平,是 AlphaGo、AlphaZero 等里程碑系统的核心组件。 MCTS 优雅地结合了树搜索的系统性与蒙特卡洛模拟的随机性,在探索(Exploration)与利用(Exploitation)之间...

统计学基础与假设检验

数据分析的统计学基石

统计学是数据分析的基石。无论是探索性数据分析、机器学习建模,还是A/B测试评估,都离不开扎实的统计学知识。 本文将系统性地介绍统计学的核心概念,重点讲解假设检验的原理与应用,帮助你掌握数据驱动决策的科学方法。 一、描述统计与推断统计 1.1 描述统计:数据的”画像” 目标:用简洁的数字或图表概括数据特征。 集中趋势(Central Tendency) import...

强化学习调参技巧与实战经验

超参数优化、稳定性提升与样本效率改进

引言 强化学习(Reinforcement Learning, RL)算法的训练过程常常充满挑战:训练不稳定、收敛缓慢、性能波动大等问题层出不穷。与监督学习不同,RL的超参数调优更加困难,因为: 非平稳性:数据分布随策略更新不断变化 稀疏奖励:反馈信号延迟且稀少 高方差:梯度估计噪声大 超参数敏感:微小的参数变化可能导致完全不同的结果 本文将系统总结强化学习调参的实...

模型基础强化学习详解

深入理解马尔可夫决策过程、值函数与Bellman方程

引言 强化学习(Reinforcement Learning, RL)作为机器学习的重要分支,在游戏AI、机器人控制、自动驾驶等领域取得了令人瞩目的成就。而模型基础强化学习(Model-Based Reinforcement Learning)是强化学习的基石,它假设智能体对环境动态有完整或部分的了解。 本文将深入讲解模型基础强化学习的核心概念,包括马尔可夫决策过程(MDP)、值函数、B...

DUCG建模实战指南

从问题分析到模型构建的完整流程与工具实践

引言 动态不确定性因果图(Dynamic Uncertain Causality Graph, DUCG)是一种强大的知识表示与推理框架,特别适用于复杂系统的建模与诊断。本文将从实战角度出发,系统讲解DUCG建模的完整流程,包括问题分析、变量识别、网络构建、参数学习以及模型验证。 与传统贝叶斯网络相比,DUCG具有以下独特优势: 动态性:支持时间序列建模 因果性:明确表示因果...

多智能体强化学习

合作与竞争:MARL 的关键技术

引言 在真实世界中,智能体很少独自行动。无论是团队协作(多个机器人共同搬运物体)、市场竞争(自动驾驶车辆在路口博弈)还是混合场景(王者荣耀 5v5 对战),多个智能体的交互构成了更复杂、更真实的决策环境。 多智能体强化学习(Multi-Agent Reinforcement Learning, MARL) 研究如何让多个智能体在共享环境中学习策略,以实现各自或共同的目标。 MARL 的...

DUCG推理算法详解

贝叶斯推理与近似算法

本文为占位文章。即将更新: 精确推理算法(变量消除、信念传播) 近似推理方法(蒙特卡洛、变分推理) DUCG 特有的推理机制 推理算法的效率优化

Actor-Critic 算法家族

A2C/A3C、PPO、SAC 全面梳理

引言 在上一篇文章中,我们详细介绍了策略梯度方法,特别是 REINFORCE 算法。虽然 REINFORCE 理论优雅,但其高方差问题严重制约了学习效率。Actor-Critic 方法应运而生,成为现代强化学习的主流范式。 Actor-Critic 的核心思想: Actor(演员):策略网络 $\pi_\theta(a...

策略梯度方法详解

从REINFORCE到基线与方差降低

引言 在强化学习中,我们希望智能体学会做出最优决策以最大化累积奖励。学习最优策略主要有两大思路: 基于值函数的方法(如 Q-learning、DQN):先学习状态-动作的价值,再从中推导出策略 策略梯度方法(Policy Gradient):直接优化策略本身 策略梯度方法的核心优势: ✅ 能处理高维或连续动作空间(如机器人控制) ✅ 能学习随机策略(在某些游戏中必...