论文阅读| MCTS

MCTS

MC-DML

[2504.16855] Monte Carlo Planning with Large Language Model for Text-Based Game Agents

主要解决的问题

解决了文字冒险游戏中 AI 规划效率低、缺乏语言理解与经验记忆能力。

面临挑战

  • 游戏环境很复杂
  • 传统的MCTS有局限性
  • LLM难以将规划转化成可执行动作,且无法平衡探索与利用

Zork1游戏。这种游戏需要的不能只是短期决策,而是需要长远规划。

核心方法

MC-DML(Monte Carlo planning with Dynamic Memory-guided Large language model)

  • 四阶段规划流程:沿用 MCTS 的Selection, Expansion, Simulation, Backpropagation四阶段。在扩展阶段引入 LLM 作为先验策略,让 LLM 基于场景文本为可选动作分配非均匀搜索优先级;模拟阶段通过多轮推演评估动作结果,回溯阶段更新节点价值与访问次数。
  • 双动态记忆机制
    • 「 trial 内记忆($M_i$)」:存储当前轨迹历史(如 “前一观测 - 动作 - 当前观测”),帮 LLM 结合当下语境生成动作概率分布;
    • 「 trial 间记忆($M_c$)」:存储过去失败轨迹的反思(如 “无光源时勿入黑暗区域”),动态调整动作价值评估,避免重复犯错。
  • 动作选择公式优化:在 PUCT(改进型 MCTS)公式基础上,将 LLM 生成的动作概率(结合双记忆)融入计算,确保选择既符合语言逻辑又兼顾探索-利用平衡。
All rights reserved.
使用 Hugo 构建
主题 StackJimmy 设计