How to Solve Toy Games
元数据
- 作者: Tombos21 (GTO Wizard)
- 日期: 2022-07-11
- 类型: 文章
- 原始文件: How to solve toy games.md
摘要
玩具博弈是简化版扑克模型,通过手工求解来理解GTO核心原理。文章演示了两种极化vs抓诈唬博弈的求解过程:基础版(无陷阱)和陷阱版(防守方有AA)。核心方法论分四步:消除劣策略→计算诈唬价值比→计算MDF防守频率→推广公式。
关键要点
- 求解四步法:
- 消除劣策略(纯策略逻辑推理)
- 用底池赔率计算诈唬/价值比
- 用MDF计算防守频率
- 推广为通用公式(引入s = bet/pot)
- 基础极化vs抓诈唬:AA总是下注,QQ按需诈唬使KK无差异,KK按MDF跟注
- 陷阱版博弈(防守方10%AA):
- 防守方跟注率c = Max(MDF, 陷阱比例)
- 价值牌被跟注时的equity q = (c - t) / c
- 最优下注尺度是使EV最大化的s值
- 核心原理:最优下注尺度是坚果优势的函数——陷阱越多,越需控制下注尺度
- 推广公式:EV(value bet) = 1 + s(c - 2t) - t
影响的概念
完整笔记
四步求解法的详细展开
每个步骤都有其独特的逻辑价值:
第一步(消除劣策略) 训练的是”纯策略推理”——什么行动在任何情况下都不可能是最优的?这不需要任何数学,纯粹是逻辑。如”KK永远不应下注(只会被AA call、被QQ fold)”、“AA总是下注(KK不会bet、慢打没意义)“。这一步是Solver输出中最容易被人类理解的”纯策略”背后的原理。
第二步(价值/诈唬比) 揭示了底池赔率的深层含义。不是”我需要多少equity”,而是”我该多少频率诈唬才让对手无差异”。s = bet/pot → 诈唬比例 = s/(2s+1)。底池下注(s=1)=33%诈唬。
第三步(MDF防守频率) 是对手视角的第二步。防守方跟注%= 1/(1+s),使诈唬方无差异。
第四步(推广) 是最有价值的一步——将具体数字替换为变量s、t,得出适用于任何参数的通用解。这培养了”不只看Solver输出某场景的策略,而是理解参数间函数关系”的思维。
陷阱版博弈的核心贡献
陷阱版揭示了实践中最常被忽视的原理:下注尺度=坚果优势的函数。当防守方有10%陷阱时,最优bet size不再是shove,而是约123%底池。如果防守方有20%陷阱→最优size进一步缩小。这一原理直接解释了为什么:
- A高面上可以超池(你有全部强Ace)→坚果优势大
- 低连接面上不能超池(对手有更多两对/set/顺子)→坚果优势小
- 4-bet底池可以超池(范围窄+极性强)→坚果优势集中
手工求解vs Solver学习的关系
玩具博弈手工求解培养的是Solver解读能力,不是桌牌计算能力。当Solver输出”这个面用75%下注而那个面用33%下注”时,经过玩具博弈训练的大脑会自动问:“是因为坚果优势不同?还是陷阱比例不同?“。这就是概念-博弈论最优学习的正确姿势。
与知识库的整合
本文的陷阱版博弈与源摘要-GTOWizard-斩首牌面形成”特殊博弈”双篇——斩首牌面是”平分底池”的变体,陷阱版是”坚果不对称”的变体。两者都展示了标准极化vs抓诈唬博弈的推广如何应用于特殊场景。
