用Python代码和老虎机游戏，5分钟搞懂强化学习的‘探索与利用’核心矛盾

张开发

• 2026/4/15 13:40:37 • 15 分钟阅读

分享文章

用Python代码和老虎机游戏5分钟搞懂强化学习的‘探索与利用’核心矛盾假设你走进一家赌场面前有10台老虎机每台的中奖概率不同。你既想快速找到最赚钱的那台又担心过早锁定选择会错过隐藏的幸运之王。这正是强化学习中的经典困境——探索未知可能还是利用已知最优今天我们用Python代码和老虎机游戏带你亲手破解这个智能体学习的核心密码。1. 老虎机强化学习的微观实验室拉斯维加斯的老虎机Multi-armed Bandit在AI领域有个更学术的名字多臂赌博机问题。它完美模拟了智能体在未知环境中做决策的场景每个拉杆arm代表一个可选动作每次拉动获得随机奖励reward目标是通过有限尝试最大化总收益import numpy as np class Bandit: def __init__(self, arms10): self.true_means np.random.normal(0, 1, arms) # 各臂真实收益均值 self.best_arm np.argmax(self.true_means) # 最优臂编号 def pull(self, arm): return np.random.normal(self.true_means[arm], 1) # 带噪声的奖励这个简单的类模拟了老虎机的核心机制。true_means决定了每台机器的良心程度而每次拉杆获得的奖励会有正态分布的波动。就像真实赌场你永远无法直接看到机器内部的概率设置。2. Epsilon-Greedy简单却有效的平衡术面对未知的老虎机阵列人类通常会采用这样的策略先随机试几台机器探索阶段记录各机器的平均收益逐渐偏向表现最好的机器利用阶段偶尔再试试其他机器持续探索这正是ε-greedy算法的核心思想。让我们用代码实现这个策略class EpsilonGreedyAgent: def __init__(self, epsilon0.1, arms10): self.epsilon epsilon # 探索概率 self.arms arms # 可选动作数 self.Q np.zeros(arms) # 各臂价值估计 self.N np.zeros(arms) # 各臂尝试次数 def choose_action(self): if np.random.random() self.epsilon: return np.random.randint(self.arms) # 随机探索 return np.argmax(self.Q) # 选择当前最优 def update(self, arm, reward): self.N[arm] 1 self.Q[arm] (reward - self.Q[arm]) / self.N[arm] # 增量式更新均值关键参数epsilon控制着探索与利用的平衡ε值行为模式适用场景0.0纯利用环境完全稳定时0.1适度探索大多数推荐系统0.5强探索快速变化的动态环境1.0纯探索完全未知的初期阶段3. 实战演练可视化学习过程让我们运行1000次实验观察不同ε值下的表现差异def simulate(epsilon, steps1000): bandit Bandit() agent EpsilonGreedyAgent(epsilon) rewards [] optimal_rates [] for _ in range(steps): arm agent.choose_action() reward bandit.pull(arm) agent.update(arm, reward) rewards.append(reward) optimal_rates.append(arm bandit.best_arm) return np.array(rewards), np.array(optimal_rates)使用Matplotlib绘制结果曲线import matplotlib.pyplot as plt plt.figure(figsize(12, 5)) # 测试三种ε值 for eps in [0.01, 0.1, 0.5]: rewards, optimal simulate(eps) plt.plot(rewards.cumsum() / np.arange(1, 1001), labelfε{eps}) plt.xlabel(尝试次数) plt.ylabel(平均累积奖励) plt.legend() plt.show()你会明显看到ε0.01收敛慢但后期稳定ε0.1平衡性最佳ε0.5波动大但发现最优臂更快4. 进阶技巧动态调整探索率固定ε值并非最优方案。更聪明的做法是随着经验积累动态降低探索率class DecayingEpsilonGreedy(EpsilonGreedyAgent): def __init__(self, start_eps1.0, min_eps0.01, decay0.999): super().__init__(start_eps) self.start_eps start_eps self.min_eps min_eps self.decay decay self.steps 0 def choose_action(self): self.epsilon max(self.min_eps, self.start_eps * (self.decay ** self.steps)) self.steps 1 return super().choose_action()这种衰减策略模拟了人类学习过程初期广泛尝试高ε中期聚焦有潜力的选项后期微调最优选择低ε提示衰减系数需要根据问题规模调整。对于1000步的实验0.999是不错的选择更长的训练则需要更缓慢的衰减。5. 现实世界的应用变体虽然我们以老虎机为例但ε-greedy的思想广泛应用于推荐系统90%推荐已知用户喜欢的商品10%尝试新品类广告投放主要投放CTR高的广告偶尔测试新广告位效果游戏AI平衡已知最优策略与尝试新战术的可能性自动化交易在已验证策略与实验性策略间取得平衡实际工业级实现还会考虑# 添加乐观初始值鼓励早期探索 self.Q np.ones(arms) * 5.0 # 添加UCB上限置信区间 confidence np.sqrt(2 * np.log(self.steps 1) / (self.N 1e-5)) return np.argmax(self.Q confidence)这些变体都在解决同一个本质问题如何在有限尝试中获得最大累积收益。下次当你在Netflix看到既熟悉又新鲜的推荐组合时或许就能会心一笑——那背后正是ε-greedy在默默工作。

更多文章

前端开发 2026/4/15 13:39:24

保姆级教程：手把手教你修改YOLOv8源码，集成DeepSORT并输出带类别和置信度的跟踪结果

从零实现YOLOv8与DeepSORT深度整合：输出带类别和置信度的多目标跟踪系统在计算机视觉领域，目标跟踪技术正从单纯的边界框追踪向更丰富的语义信息表达演进。本文将带您深入YOLOv8框架内部，通过源码级改造实现与DeepSORT算法的无缝集成&#x…

如何用BilibiliDown轻松提取B站高品质音频：新手必学的5种无损音乐下载方案【免费下载链接】BilibiliDown (GUI-多平台支持) B站哔哩哔哩视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitco…

张开发

前端开发 2026/4/15 13:27:46

AssetStudio完整教程：解锁Unity游戏资源的终极工具指南

AssetStudio完整教程：解锁Unity游戏资源的终极工具指南【免费下载链接】AssetStudio AssetStudio - Based on the archived Perfares AssetStudio, I continue Perfares work to keep AssetStudio up-to-date, with support for new Unity versions and additional…

张开发

用Python代码和老虎机游戏，5分钟搞懂强化学习的‘探索与利用’核心矛盾

最新文章

Windows11下Docker Desktop与K8S环境搭建：从镜像构建到Dashboard部署全流程

3分钟精通暗黑2存档编辑：开源Vue.js工具完全掌控指南

高光谱遥感入门：从手机摄像头到卫星成像的奇妙之旅

RuoYi-Flowable流程开发踩坑实录：从‘Unknown property’到完美运行，我解决了这三个核心问题

如何快速使用CDS API：5分钟获取全球气候数据的完整指南

5分钟掌握BilibiliDown：跨平台B站视频下载工具完整使用指南

推荐文章

Spring with AI (): 定制对话——Prompt模板引入技

【AI原生研发灰度发布黄金法则】：20年架构师亲授7步闭环策略，规避92%的线上事故风险

PS3游戏更新下载器完整指南：如何轻松获取官方游戏补丁

别再手动除草了！用Python+OpenCV部署一个田间杂草实时检测系统

YOLO 系列：YOLOv8 引入 DyHead 动态检测头，统一目标检测与旋转框检测

21天机器学习核心算法学习计划（量化方向）

相关文章

别再让PDF图片丢失了！Dify二次开发实战：优化知识库的图文混合检索能力

热点 | Harness 架构深度解析：AI智能体编排框架的核心原理

【Python时序预测实战】融合LSTM与Transformer：从模型构建到单变量预测全流程解析

MySQL分区表实战：从原理到高效数据管理

CSRankings区域筛选功能深度解析：如何找到全球最佳CS研究机构

OpCore-Simplify：让开源系统硬件适配从8小时到30分钟的技术革命

分享文章

更多文章

保姆级教程：手把手教你修改YOLOv8源码，集成DeepSORT并输出带类别和置信度的跟踪结果

Open UI5 源代码解析之1024：SelectionDetailsItemLine.js

栋察宇宙（五十）：C语言数据类型

Hugging Face模型下载加速指南：国内快速获取pytorch_model.bin/config.json/vocab.txt的3种方法

3个实战技巧解决京东自动评价图片审核难题

Cadence 17.4 原理图绘制避坑指南：从Capture快捷键到DRC检查的完整流程

嵌入式开发实战：ZCU102开发板DDR4 SO-DIMM接口布线避坑手册

GLM-4.1V-9B-Base一文详解：Web界面上传/提问/调参/结果解析完整流程

Level-2数据避坑指南：集合竞价、深沪差异与实时订阅的那些‘暗礁’

如何使用Vibe Kanban仓库选择器：3种快速切换Git仓库的实用技巧

如何用BilibiliDown轻松提取B站高品质音频：新手必学的5种无损音乐下载方案

AssetStudio完整教程：解锁Unity游戏资源的终极工具指南