博弈论最优 (GTO)

定义

博弈论最优(Game Theory Optimal, GTO)是指在非合作博弈中,参与者采取无法被对手剥削的策略均衡状态。在扑克语境中,GTO策略是指无论对手采取何种策略,都能保证不损失期望值的数学最优策略组合。

GTO策略的核心特征是无法被剥削——即对手无法通过调整自己的策略来获得超过均衡值的额外收益。这种策略不依赖于对手的具体倾向,而是基于博弈的数学结构和规则本身。

核心要素

1. 纳什均衡

  • 定义: 在博弈中,所有参与者都采取最优反应策略的状态
  • 特征: 任何单方面偏离均衡策略都会导致自身收益下降
  • 扑克应用: 在特定扑克场景下,存在一个或多个纳什均衡策略

2. 范围平衡

  • 价值与诈唬比: 在特定行动线上保持适当的价值手牌和诈唬手牌比例
  • 阻断效应: 手牌阻断对手价值范围的程度影响策略选择
  • 频率控制: 在不同决策点上采取不同行动的精确频率

3. 不可剥削性

  • 防御性策略: 针对对手可能的最优反应进行防御
  • 均衡混合: 在某些决策点混合使用多种行动以达到均衡
  • 长期期望: 在无限次重复博弈中保证非负期望值

4. 求解方法论

  • 反事实遗憾最小化(CFR): 常用的GTO求解算法
  • 节点锁定: 固定对手策略后求解最优反应
  • 简化游戏树: 通过抽象化处理复杂的扑克决策树

应用场景

1. 扑克锦标赛策略

  • 开场范围设计: 基于筹码深度和位置确定最优开场范围
  • 全押决策: 在浅筹码情况下判断何时采用全押策略
  • 跟注/加注平衡: 在防御范围和攻击范围之间保持平衡

2. 玩家类型对抗

  • 对抗未知对手: 当缺乏对手信息时采用GTO基准策略
  • 对抗GTO玩家: 与同样采用GTO策略的对手对战
  • 策略调整基础: 以GTO为基准进行剥削性调整

3. 策略训练

  • 求解器学习: 通过分析GTO求解器输出理解最优策略
  • 频率训练: 练习在不同决策点采取正确频率的行动
  • 手牌范围构建: 基于GTO原则构建各位置的标准范围

GTO计算公式

基于源摘要-GTO计算公式整理的实用数学工具,为GTO策略提供了具体计算基准:

1. RFI(率先加注)计算公式

  • 对子范围: 所有对子占4%范围,位置调整(前位2%,中位3%,后位4%)
  • 杂色/同色分布: 杂色=(游玩范围-对子范围)/2,同色=(游玩范围-对子范围)/2×3
  • 标准范围: UTG(12%), UTG+1(14%), UTG+2(16%), LJ(18%), HJ(21%), CO(27%), BTN(40%), SB(50%)

2. FRFI(面对率先加注)计算公式

  • 位置策略: IP游玩2/3,BTN相远全范围/相邻2/3,SB游玩1/2,BB全范围+2%
  • 杂色处理: 杂色游玩=(游玩范围-对子范围)/3,不同位置3-bet与跟注比例不同
  • 同色处理: 同色游玩=(游玩范围-对子范围)×2,根据位置调整3-bet频率

3. F3b(面对3-bet)计算公式

  • 基础范围: F3b游玩范围 = RFI范围/3
  • 杂色4-bet: 杂色游玩范围 = RFI游玩范围×10,IP4-bet:跟注=1:2,OP=2:1
  • 同色4-bet: 同色游玩=杂色游玩×7,OP4-bet:跟注=1:3,IP几乎全跟
  • 对子策略: AA/KK/QQ100%4-bet,JJ-88部分4-bet,77-55全跟,44-22部分弃牌

4. 诈唬价值平衡

  • 关键公式: 诈唬频率 = Bet/(Bet+Pot)
  • 平衡原则: 满池下注时诈唬比例应为1/3,价值比例2/3
  • 防御频率: 面对满池下注的GTO防守频率为33%

平衡的局限:手段而非目的

Andrew Brokos 在 源摘要-Poker-Concepts-Youre-Using-Wrong 中提出了对”平衡”概念的重要批判:

平衡是手段,不是目的

  • 平衡是一种手段,目的是做出比对手更好的决策,而非目的本身
  • 当玩家将平衡本身视为目标时,容易失去对最终目标的关注:盈利
  • 对抗弱对手时,追求平衡反而会损失价值

即使是求解器也并非完美平衡

  • 以 J♥8♦2♥ 牌面为例,BB 过牌-加注后:
    • 9♥ 转牌:BB 偏向强牌(用小额下注补偿不平衡)
    • K♦ 转牌:BB 偏向弱牌(用频繁过牌/弃牌补偿不平衡)
  • 求解器可以调整早期街策略来改善后期平衡,但强迫某些手牌在早期街采取次优行动来实现后期平衡,是求解器不允许的

平衡的实质

“平衡”实际上是当前街给对手制造困难未来分支上给对手制造困难能力之间的复杂权衡

这一理解比简单的”价值与诈唬比例”更深刻——平衡贯穿整个游戏树,涉及所有行动线和未来街的策略准备。

相关概念

示例

示例1: 按钮位开场策略

在20bb有效筹码深度下,按钮位玩家的GTO开场策略:

  • 总开场频率: 42.5%的手牌
  • 全押比例: 约25%的开场手牌采用全押
  • 典型全押手牌:
    • 小对子(22-66):翻牌后权益实现困难
    • 弱A-x牌型:利用A的阻断效应
    • 中等同花连牌(JTs, T9s):兼具阻断和权益

示例2: 范围平衡原则

在河牌圈下注时保持平衡的范围:

价值范围: [顶对+, 两对+, 顺子, 同花]
诈唬范围: [听牌失败, 阻断对手价值的手牌]
价值:诈唬比例 ≈ 2:1 (取决于下注尺度)

示例3: 防御频率

在大盲位防御加注时的GTO频率:

  • 对抗最小加注: 防御约70-75%的范围
  • 对抗3-bet: 根据位置和筹码深度调整防御频率
  • 平衡考量: 防止被对手过度偷盲

固定策略 vs 动态策略

GTO 是固定策略——不随对手变化。无论对手是 NIT 还是 Maniac,GTO 永远打同样的范围。

  • 固定策略(GTO):在相同局面下永远一样。公开你的策略,对手也无法剥削你。
  • 动态策略(剥削):根据对手漏洞调整。收益更高,但有被反剥削的风险。

GTO 是对抗全知全能、会动态调整的对手时的最强固定策略。即使对手知道你的完整策略,也无法找到漏洞获利。

求解器如何找到 GTO

求解器通过迭代剥削找到均衡:

  1. 两个玩家从随机策略开始
  2. 固定 A 的策略,让 B 最大化剥削 A
  3. 固定 B 的新策略,让 A 最大化剥削 B
  4. 重复,直到双方都无法再从对方身上获利

用纳什距离(dEV)衡量精度——GTO Wizard 通常解到 0.2-0.3%dEV(详见 概念-纳什距离)。

GTO 与剥削的关系

不知道 GTO 长什么样,你怎么知道自己在剥削而不是被剥削?

GTO 为你提供客观基线

  • 对手弃牌太多?比 GTO 多偷
  • 对手跟注太多?比 GTO 多价值
  • 没有 GTO 基线,“多”和”少”无从谈起

参考资料

  1. 源摘要-扑克开场全押策略分析 - GTO在不同玩家类型下的应用
  2. 源摘要-现代扑克理论 - GTO原则系统化构建策略框架
  3. 源摘要-GTOWizard-什么是GTO - What is GTO in Poker? (Tombos21, 2022)
  4. 源摘要-GTOWizard-GTO目标 - What does GTO aim to achieve? (Tombos21, 2022)
  5. GTO扑克求解器工具文档
  6. 博弈论经典文献:《博弈论与经济行为》

GTO策略为扑克提供了坚实的数学基础,但在实际应用中需要与剥削性调整相结合。理解GTO原则有助于建立稳健的策略框架,避免被对手系统性剥削。