How to Solve Toy Games

元数据

摘要

玩具博弈是简化版扑克模型,通过手工求解来理解GTO核心原理。文章演示了两种极化vs抓诈唬博弈的求解过程:基础版(无陷阱)和陷阱版(防守方有AA)。核心方法论分四步:消除劣策略→计算诈唬价值比→计算MDF防守频率→推广公式。

关键要点

  1. 求解四步法
    • 消除劣策略(纯策略逻辑推理)
    • 用底池赔率计算诈唬/价值比
    • 用MDF计算防守频率
    • 推广为通用公式(引入s = bet/pot)
  2. 基础极化vs抓诈唬:AA总是下注,QQ按需诈唬使KK无差异,KK按MDF跟注
  3. 陷阱版博弈(防守方10%AA)
    • 防守方跟注率c = Max(MDF, 陷阱比例)
    • 价值牌被跟注时的equity q = (c - t) / c
    • 最优下注尺度是使EV最大化的s值
  4. 核心原理最优下注尺度是坚果优势的函数——陷阱越多,越需控制下注尺度
  5. 推广公式:EV(value bet) = 1 + s(c - 2t) - t

影响的概念

完整笔记

四步求解法的详细展开

每个步骤都有其独特的逻辑价值:

第一步(消除劣策略) 训练的是”纯策略推理”——什么行动在任何情况下都不可能是最优的?这不需要任何数学,纯粹是逻辑。如”KK永远不应下注(只会被AA call、被QQ fold)”、“AA总是下注(KK不会bet、慢打没意义)“。这一步是Solver输出中最容易被人类理解的”纯策略”背后的原理。

第二步(价值/诈唬比) 揭示了底池赔率的深层含义。不是”我需要多少equity”,而是”我该多少频率诈唬才让对手无差异”。s = bet/pot → 诈唬比例 = s/(2s+1)。底池下注(s=1)=33%诈唬。

第三步(MDF防守频率) 是对手视角的第二步。防守方跟注%= 1/(1+s),使诈唬方无差异。

第四步(推广) 是最有价值的一步——将具体数字替换为变量s、t,得出适用于任何参数的通用解。这培养了”不只看Solver输出某场景的策略,而是理解参数间函数关系”的思维。

陷阱版博弈的核心贡献

陷阱版揭示了实践中最常被忽视的原理:下注尺度=坚果优势的函数。当防守方有10%陷阱时,最优bet size不再是shove,而是约123%底池。如果防守方有20%陷阱→最优size进一步缩小。这一原理直接解释了为什么:

  • A高面上可以超池(你有全部强Ace)→坚果优势大
  • 低连接面上不能超池(对手有更多两对/set/顺子)→坚果优势小
  • 4-bet底池可以超池(范围窄+极性强)→坚果优势集中

手工求解vs Solver学习的关系

玩具博弈手工求解培养的是Solver解读能力,不是桌牌计算能力。当Solver输出”这个面用75%下注而那个面用33%下注”时,经过玩具博弈训练的大脑会自动问:“是因为坚果优势不同?还是陷阱比例不同?“。这就是概念-博弈论最优学习的正确姿势。

与知识库的整合

本文的陷阱版博弈与源摘要-GTOWizard-斩首牌面形成”特殊博弈”双篇——斩首牌面是”平分底池”的变体,陷阱版是”坚果不对称”的变体。两者都展示了标准极化vs抓诈唬博弈的推广如何应用于特殊场景。