
主变搜索(pvs),也称为negascout,是minimax算法的一种高级优化,它基于alpha-beta剪枝,通过更积极地利用“空窗口”搜索来减少节点访问。其核心思想是,在探索某个节点时,首先假设最好的走法会落在当前已知的最佳范围内(即一个非常窄的窗口),如果这个假设成立,则无需进行全窗口搜索;如果假设不成立,才需要进行全窗口重搜。
在实现PVS时,将Minimax的max_step和min_step函数统一为单个negamax函数是业界推荐的最佳实践。这种NegaMax范式通过将所有玩家的评估值都转换为当前玩家的视角(即始终最大化当前玩家的得分),极大地简化了代码逻辑,并降低了出错的风险。
NegaMax实现要点:
以下是一个NegaMax函数的基本结构示例:
def negamax(board, depth, alpha, beta, player_color):
"""
NegaMax算法实现。
player_color: 当前玩家的颜色,例如 +1 代表 'x',-1 代表 'o'。
"""
if game_end(board):
# 游戏结束,返回当前玩家的最终得分
return score_end(board) * player_color
if depth == 0:
# 达到搜索深度,返回当前玩家的启发式得分
return score(board) * player_color
max_score = -float('inf')
# 获取当前玩家所有可能的走法,并进行初步排序
# 这一步对于PVS的效率至关重要
moves = find_legal_moves(board, player_color)
if not moves: # 如果没有合法走法,直接跳过当前玩家
# 切换到对手,深度减1,递归调用
return -negamax(board, depth - 1, -beta, -alpha, -player_color)
# 假设这里已经对moves进行了排序,最佳走法在前
for i, move in enumerate(sorted_moves): # sorted_moves是经过排序的走法列表
new_board = make_move(board, move, player_color)
score = 0
if i == 0: # 第一个走法(主变)进行全窗口搜索
score = -negamax(new_board, depth - 1, -beta, -alpha, -player_color)
else: # 其他走法进行空窗口搜索
# 使用窄窗口 [alpha, alpha + 1] 进行探测
score = -negamax(new_board, depth - 1, -alpha - 1, -alpha, -player_color)
if alpha < score < beta: # 如果探测结果落在原始窗口内,则需要进行全窗口重搜
score = -negamax(new_board, depth - 1, -beta, -score, -player_color) # 注意这里的-score
max_score = max(max_score, score)
alpha = max(alpha, max_score)
if alpha >= beta: # Beta剪枝
break
return max_score
# 初始调用示例
# find_next_move 函数将遍历所有根节点走法,并调用 negamax
def find_next_move(board, token, depth):
best_move = None
best_score = -float('inf') if token == 'x' else float('inf') # 初始值取决于当前玩家
player_color = 1 if token == 'x' else -1
legal_moves = find_legal_moves(board, player_color)
# 对根节点走法进行初步排序
# ...
for move in legal_moves:
new_board = make_move(board, move, player_color)
# 对于根节点,始终进行全窗口搜索
current_score = -negamax(new_board, depth - 1, -float('inf'), float('inf'), -player_color)
if token == 'x': # 玩家 'x' 寻求最大化
if current_score > best_score:
best_score = current_score
best_move = move
else: # 玩家 'o' 寻求最小化 (但由于NegaMax,我们也将其视为最大化其负值)
# 在根节点层,如果直接返回 negamax 结果,需要根据 player_color 调整
# 或者在 negamax 内部处理,使其始终返回当前玩家的绝对分数
# 简化起见,这里假设 negamax 总是返回当前玩家的“正面”分数
# 实际上,这里需要根据 player_color 再次转换
# 如果 negamax 返回的是当前 player_color 的得分,那么对于 'o' 玩家,需要找最小
# 重新考虑:如果 negamax 返回的是当前调用者的得分,则 find_next_move 应该根据 token 决定是 max 还是 min
# 更好的方式是让 negamax 始终返回 player_color 的得分,find_next_move 总是找 max
# 因此,这里需要对 'o' 玩家的 current_score 取负,因为 negamax 是以当前调用者的视角
if token == 'o':
current_score = -current_score # 将 'o' 玩家的得分转换为 'x' 玩家的视角
if current_score > best_score: # 总是找最大值
best_score = current_score
best_move = move
return best_move请注意,find_legal_moves, make_move, game_end, score_end, score 等函数需要根据您的Othello实现来定义。
PVS的性能提升高度依赖于走法的排序质量。如果第一个走法(主变)不是最佳走法,那么空窗口搜索将失败,导致需要进行全窗口重搜,这会抵消PVS带来的优势,甚至可能比标准的Alpha-Beta更慢。
提升走法排序的方法:
PVS的核心在于其独特的剪枝窗口策略:
如果剪枝窗口设置不正确,例如在应该进行空窗口探测时进行了全窗口搜索,或者在空窗口探测失败后没有进行正确的重搜,PVS的性能会急剧下降,甚至可能导致算法比Alpha-Beta更慢,因为重复计算了许多节点。
当PVS实现后发现性能不佳或结果错误时,以下调试策略非常有用:
通过这些细致的调试步骤,可以定位到导致PVS性能下降或行为异常的具体原因。
实现一个高效的Negascout(PVS)需要仔细的设计和精确的实现。以下是关键的最佳实践:
通过遵循这些指导原则,您可以成功地在Othello AI中实现一个性能优越的Negascout算法。
以上就是Negascout (PVS) 在Othello AI 中的高效实现与常见陷阱的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号