7月11日,腾讯官方宣布其研发的麻将AI在日本麻将竞技平台“天凤”特上房达到稳定段位10.68段,刷新了AI在麻将领域取得的最好成绩。这一成绩代表着腾讯研发团队在决策AI方向上取得了业界领先的成绩和突破。 “天凤”是知名日本麻将竞技平台,拥有较为体系化的竞技规则和专业段位规则,全世界的麻将AI基本都在这里进行训练和打段。“段位”类似于《王者荣耀》,天凤按照1段—11段来进行排位,10段就相当于《王者荣耀》的荣耀王者段位。 腾讯表示,由于麻将除了正常的摸牌、打牌外,还要决定是否吃牌、碰牌、杠牌以及是否胡牌,任意一位玩家的行为都会改变摸牌的顺序,涉及大量决策。
传统离线策略训练方法、传统的在线搜索算法对麻将来说并不完全适用,于是腾讯AI Lab提出了ACH(actor critic hedge)的新型策略优化算法。 据了解,该算法采用了基于强化学习和遗憾值最小化的自我博弈技术,使AI能从零开始自我学习和提高。该算法具备传统强化学习可扩展性好(算的快)的优点,又部分继承了遗憾值最小化算法的一些理论性质(算的好),相比传统的强化学习方法,该策略优化算法在非完美信息游戏中训练得到的策略更平衡(攻守兼备)。 腾讯将搜索返回的结果作为一种“特征”输入到自研的策略神经网络,使得AI在有海量隐藏信息的游戏状态中,仍可以实时调整当前策略。腾讯称,训练麻将AI,其实就是在训练AI更好地去认识人类的世界,最终让AI能早日走进那些人类生活中,如金融交易、自动驾驶、交通物流、拍卖系统等,解决真实世界的复杂问题。