深度学习项目训练环境实操手册:使用matplotlib动画展示训练收敛过程

张开发
2026/4/17 7:12:26 15 分钟阅读

分享文章

深度学习项目训练环境实操手册:使用matplotlib动画展示训练收敛过程
深度学习项目训练环境实操手册使用matplotlib动画展示训练收敛过程1. 开箱即用的深度学习训练环境你是不是也遇到过这样的情况好不容易找到一个开源深度学习项目兴致勃勃地准备复现结果光是配环境就折腾了好几天各种依赖冲突、版本不兼容、库安装失败……最后热情都被消磨殆尽了。今天我要分享的这个深度学习项目训练环境镜像就是专门解决这个痛点的。它基于我的《深度学习项目改进与实战》专栏预装了完整的深度学习开发环境所有训练、推理、评估需要的依赖都已经装好了真正做到了开箱即用。简单来说你只需要做三件事启动这个镜像环境上传你的训练代码和数据集直接开始训练基础环境已经全部配置好了如果项目需要额外的库你也可以随时安装。这个环境的核心配置如下核心框架PyTorch 1.13.0CUDA版本11.6支持GPU加速Python版本3.10.0主要依赖torchvision、torchaudio、numpy、opencv-python、pandas、matplotlib、tqdm、seaborn等常用库2. 快速上手从环境配置到模型训练2.1 激活环境与准备工作镜像启动后你会看到类似这样的界面在使用前需要先激活配置好的Conda环境。我配置的环境名称叫dl激活命令很简单conda activate dl执行后命令行提示符会发生变化表示环境激活成功接下来你需要上传训练代码和数据集。我建议使用Xftp这类工具操作起来很方便。上传时有个小技巧把代码和数据放到数据盘这样修改起来更顺手。上传完成后进入代码目录cd /root/workspace/你的源码文件夹名称2.2 数据集准备与解压深度学习训练离不开数据。这里我分享几个常用的数据集解压命令如果你是Linux新手建议收藏一下。解压.zip文件unzip 文件名.zip -d 目标文件夹比如你要解压一个叫dataset.zip的文件到data文件夹unzip dataset.zip -d data解压.tar.gz文件# 解压到当前目录 tar -zxvf vegetables_cls.tar.gz # 解压到指定目录 tar -zxvf vegetables_cls.tar.gz -C /home/user/data/数据集准备好之后记得修改训练文件中的路径参数指向你的数据集位置。2.3 开始模型训练修改完训练文件后就可以开始训练了。一个典型的训练命令如下python train.py训练过程中终端会实时显示训练进度、损失值、准确率等信息。训练完成后模型权重会自动保存到指定目录终端会告诉你具体保存路径在哪里。训练结束后你可以使用画图代码来可视化训练结果。只需要修改代码中的路径指向你保存的训练日志文件即可。3. 使用matplotlib动画展示训练收敛过程3.1 为什么需要训练过程可视化在深度学习训练中我们经常需要监控模型的收敛情况。传统的做法是训练结束后画个静态图看看损失曲线和准确率曲线。但这样有个问题你只能看到最终结果无法观察训练过程中的动态变化。想象一下如果你能像看动画片一样实时看到损失值如何下降、准确率如何上升那该多直观这就是matplotlib动画的魅力所在。3.2 基础训练日志记录要让动画动起来首先需要在训练过程中记录足够的数据。下面是一个简单的训练日志记录示例import json import os from datetime import datetime class TrainingLogger: def __init__(self, log_dirlogs): 初始化训练日志记录器 self.log_dir log_dir os.makedirs(log_dir, exist_okTrue) # 生成唯一的日志文件名 timestamp datetime.now().strftime(%Y%m%d_%H%M%S) self.log_file os.path.join(log_dir, ftraining_log_{timestamp}.json) # 初始化日志数据结构 self.log_data { epochs: [], train_loss: [], val_loss: [], train_acc: [], val_acc: [], learning_rate: [] } def log_epoch(self, epoch, train_loss, val_loss, train_acc, val_acc, lr): 记录一个epoch的训练结果 self.log_data[epochs].append(epoch) self.log_data[train_loss].append(train_loss) self.log_data[val_loss].append(val_loss) self.log_data[train_acc].append(train_acc) self.log_data[val_acc].append(val_acc) self.log_data[learning_rate].append(lr) # 实时保存到文件 self.save_log() def save_log(self): 保存日志到文件 with open(self.log_file, w) as f: json.dump(self.log_data, f, indent2) def load_log(self, log_fileNone): 从文件加载日志 if log_file is None: log_file self.log_file with open(log_file, r) as f: self.log_data json.load(f) return self.log_data在训练循环中你可以这样使用这个日志记录器# 初始化日志记录器 logger TrainingLogger() # 训练循环 for epoch in range(num_epochs): # ... 训练代码 ... train_loss, train_acc train_one_epoch(model, train_loader, optimizer, criterion) # ... 验证代码 ... val_loss, val_acc validate(model, val_loader, criterion) # 记录当前epoch的结果 current_lr optimizer.param_groups[0][lr] logger.log_epoch(epoch, train_loss, val_loss, train_acc, val_acc, current_lr)3.3 创建基础训练曲线图有了训练日志我们先来创建一个基础的静态训练曲线图import matplotlib.pyplot as plt import numpy as np def plot_training_curves(log_data, save_pathtraining_curves.png): 绘制训练曲线图 epochs log_data[epochs] # 创建子图 fig, (ax1, ax2) plt.subplots(1, 2, figsize(14, 5)) # 绘制损失曲线 ax1.plot(epochs, log_data[train_loss], b-, label训练损失, linewidth2) ax1.plot(epochs, log_data[val_loss], r-, label验证损失, linewidth2) ax1.set_xlabel(Epoch) ax1.set_ylabel(Loss) ax1.set_title(训练和验证损失曲线) ax1.legend() ax1.grid(True, alpha0.3) # 绘制准确率曲线 ax2.plot(epochs, log_data[train_acc], b-, label训练准确率, linewidth2) ax2.plot(epochs, log_data[val_acc], r-, label验证准确率, linewidth2) ax2.set_xlabel(Epoch) ax2.set_ylabel(Accuracy (%)) ax2.set_title(训练和验证准确率曲线) ax2.legend() ax2.grid(True, alpha0.3) # 调整布局并保存 plt.tight_layout() plt.savefig(save_path, dpi300, bbox_inchestight) plt.show() return fig # 使用示例 log_data logger.load_log(logs/training_log_20240101_120000.json) plot_training_curves(log_data)这个静态图已经能很好地展示训练结果了但它缺少了动感。接下来我们让它动起来3.4 创建训练过程动画下面是创建训练过程动画的核心代码import matplotlib.pyplot as plt import matplotlib.animation as animation from matplotlib.animation import FuncAnimation import numpy as np def create_training_animation(log_data, save_pathtraining_animation.mp4): 创建训练过程动画 # 准备数据 epochs np.array(log_data[epochs]) train_loss np.array(log_data[train_loss]) val_loss np.array(log_data[val_loss]) train_acc np.array(log_data[train_acc]) val_acc np.array(log_data[val_acc]) # 创建图形和坐标轴 fig, ((ax1, ax2), (ax3, ax4)) plt.subplots(2, 2, figsize(14, 10)) # 初始化空的线条 line1, ax1.plot([], [], b-, linewidth2, label训练损失) line2, ax1.plot([], [], r-, linewidth2, label验证损失) line3, ax2.plot([], [], b-, linewidth2, label训练准确率) line4, ax2.plot([], [], r-, linewidth2, label验证准确率) # 初始化散点用于显示当前点 current_point1, ax1.plot([], [], go, markersize8, label当前点) current_point2, ax2.plot([], [], go, markersize8, label当前点) # 学习率曲线 line5, ax3.plot([], [], g-, linewidth2, label学习率) # 损失对比柱状图 bar_container ax4.bar([], [], color[blue, red]) # 设置各个子图的属性 ax1.set_xlim(0, len(epochs)) ax1.set_ylim(0, max(max(train_loss), max(val_loss)) * 1.1) ax1.set_xlabel(Epoch) ax1.set_ylabel(Loss) ax1.set_title(损失曲线动态展示) ax1.legend(locupper right) ax1.grid(True, alpha0.3) ax2.set_xlim(0, len(epochs)) ax2.set_ylim(0, max(max(train_acc), max(val_acc)) * 1.1) ax2.set_xlabel(Epoch) ax2.set_ylabel(Accuracy (%)) ax2.set_title(准确率曲线动态展示) ax2.legend(loclower right) ax2.grid(True, alpha0.3) ax3.set_xlim(0, len(epochs)) ax3.set_ylim(0, max(log_data[learning_rate]) * 1.1) ax3.set_xlabel(Epoch) ax3.set_ylabel(Learning Rate) ax3.set_title(学习率变化曲线) ax3.legend() ax3.grid(True, alpha0.3) ax4.set_xlim(-0.5, 1.5) ax4.set_ylim(0, max(max(train_loss), max(val_loss)) * 1.1) ax4.set_xticks([0, 1]) ax4.set_xticklabels([训练损失, 验证损失]) ax4.set_ylabel(Loss) ax4.set_title(当前损失对比) # 添加文本显示当前epoch信息 info_text fig.text(0.5, 0.02, , hacenter, fontsize12) def init(): 初始化函数 line1.set_data([], []) line2.set_data([], []) line3.set_data([], []) line4.set_data([], []) line5.set_data([], []) current_point1.set_data([], []) current_point2.set_data([], []) info_text.set_text() # 清空柱状图 for bar in bar_container: bar.set_height(0) return line1, line2, line3, line4, line5, current_point1, current_point2, info_text, *bar_container def update(frame): 更新函数 - 每一帧的更新逻辑 # 更新损失曲线 line1.set_data(epochs[:frame1], train_loss[:frame1]) line2.set_data(epochs[:frame1], val_loss[:frame1]) current_point1.set_data([epochs[frame]], [train_loss[frame]]) # 更新准确率曲线 line3.set_data(epochs[:frame1], train_acc[:frame1]) line4.set_data(epochs[:frame1], val_acc[:frame1]) current_point2.set_data([epochs[frame]], [train_acc[frame]]) # 更新学习率曲线 line5.set_data(epochs[:frame1], log_data[learning_rate][:frame1]) # 更新柱状图 bar_container[0].set_height(train_loss[frame]) bar_container[1].set_height(val_loss[frame]) # 更新信息文本 info fEpoch: {epochs[frame]}/{epochs[-1]} | info f训练损失: {train_loss[frame]:.4f} | info f验证损失: {val_loss[frame]:.4f} | info f训练准确率: {train_acc[frame]:.2f}% | info f验证准确率: {val_acc[frame]:.2f}% info_text.set_text(info) # 动态调整y轴范围 if frame 0: ax1.set_ylim(0, max(train_loss[:frame1]) * 1.2) ax2.set_ylim(0, max(train_acc[:frame1]) * 1.2) ax4.set_ylim(0, max(train_loss[frame], val_loss[frame]) * 1.2) return line1, line2, line3, line4, line5, current_point1, current_point2, info_text, *bar_container # 创建动画 anim FuncAnimation(fig, update, frameslen(epochs), init_funcinit, blitTrue, interval200) # 保存动画 print(正在生成动画请稍候...) anim.save(save_path, writerffmpeg, fps5, dpi100) print(f动画已保存至: {save_path}) plt.close(fig) return anim # 使用示例 log_data logger.load_log(logs/training_log_20240101_120000.json) create_training_animation(log_data, training_convergence.mp4)3.5 实时训练监控动画如果你想要在训练过程中实时看到动画效果可以试试这个实时监控版本import matplotlib.pyplot as plt from matplotlib.animation import FuncAnimation import numpy as np from collections import deque import time class RealTimeTrainingMonitor: 实时训练监控器 def __init__(self, max_points100): 初始化实时监控器 self.fig, ((self.ax1, self.ax2), (self.ax3, self.ax4)) plt.subplots(2, 2, figsize(14, 10)) # 初始化数据队列 self.max_points max_points self.epochs deque(maxlenmax_points) self.train_loss deque(maxlenmax_points) self.val_loss deque(maxlenmax_points) self.train_acc deque(maxlenmax_points) self.val_acc deque(maxlenmax_points) self.lr_history deque(maxlenmax_points) # 初始化线条 self.line1, self.ax1.plot([], [], b-, linewidth2, label训练损失) self.line2, self.ax1.plot([], [], r-, linewidth2, label验证损失) self.line3, self.ax2.plot([], [], b-, linewidth2, label训练准确率) self.line4, self.ax2.plot([], [], r-, linewidth2, label验证准确率) self.line5, self.ax3.plot([], [], g-, linewidth2, label学习率) # 当前点标记 self.current_point1, self.ax1.plot([], [], go, markersize8) self.current_point2, self.ax2.plot([], [], go, markersize8) # 柱状图 self.bars self.ax4.bar([训练损失, 验证损失], [0, 0], color[blue, red]) # 设置图表属性 self.setup_axes() # 信息文本 self.info_text self.fig.text(0.5, 0.02, 等待数据..., hacenter, fontsize12) # 动画对象 self.anim None def setup_axes(self): 设置坐标轴属性 self.ax1.set_xlim(0, self.max_points) self.ax1.set_ylim(0, 10) self.ax1.set_xlabel(Epoch) self.ax1.set_ylabel(Loss) self.ax1.set_title(实时损失曲线) self.ax1.legend() self.ax1.grid(True, alpha0.3) self.ax2.set_xlim(0, self.max_points) self.ax2.set_ylim(0, 100) self.ax2.set_xlabel(Epoch) self.ax2.set_ylabel(Accuracy (%)) self.ax2.set_title(实时准确率曲线) self.ax2.legend() self.ax2.grid(True, alpha0.3) self.ax3.set_xlim(0, self.max_points) self.ax3.set_ylim(0, 0.1) self.ax3.set_xlabel(Epoch) self.ax3.set_ylabel(Learning Rate) self.ax3.set_title(学习率变化) self.ax3.legend() self.ax3.grid(True, alpha0.3) self.ax4.set_ylim(0, 10) self.ax4.set_ylabel(Loss) self.ax4.set_title(当前损失对比) def add_data_point(self, epoch, train_loss, val_loss, train_acc, val_acc, lr): 添加新的数据点 self.epochs.append(epoch) self.train_loss.append(train_loss) self.val_loss.append(val_loss) self.train_acc.append(train_acc) self.val_acc.append(val_acc) self.lr_history.append(lr) def update_plot(self, frame): 更新绘图 if len(self.epochs) 0: return self.line1, self.line2, self.line3, self.line4, self.line5, \ self.current_point1, self.current_point2, self.info_text, *self.bars # 更新损失曲线 self.line1.set_data(range(len(self.train_loss)), list(self.train_loss)) self.line2.set_data(range(len(self.val_loss)), list(self.val_loss)) # 更新准确率曲线 self.line3.set_data(range(len(self.train_acc)), list(self.train_acc)) self.line4.set_data(range(len(self.val_acc)), list(self.val_acc)) # 更新学习率曲线 self.line5.set_data(range(len(self.lr_history)), list(self.lr_history)) # 更新当前点 if len(self.train_loss) 0: self.current_point1.set_data([len(self.train_loss)-1], [self.train_loss[-1]]) self.current_point2.set_data([len(self.train_acc)-1], [self.train_acc[-1]]) # 更新柱状图 if len(self.train_loss) 0 and len(self.val_loss) 0: self.bars[0].set_height(self.train_loss[-1]) self.bars[1].set_height(self.val_loss[-1]) # 动态调整y轴范围 max_loss max(max(self.train_loss), max(self.val_loss)) max_acc max(max(self.train_acc), max(self.val_acc)) self.ax1.set_ylim(0, max_loss * 1.2) self.ax2.set_ylim(0, max_acc * 1.2) self.ax4.set_ylim(0, max(self.train_loss[-1], self.val_loss[-1]) * 1.2) # 更新信息文本 if len(self.epochs) 0: info fEpoch: {self.epochs[-1]} | info f训练损失: {self.train_loss[-1]:.4f} | info f验证损失: {self.val_loss[-1]:.4f} | info f训练准确率: {self.train_acc[-1]:.2f}% | info f验证准确率: {self.val_acc[-1]:.2f}% self.info_text.set_text(info) return self.line1, self.line2, self.line3, self.line4, self.line5, \ self.current_point1, self.current_point2, self.info_text, *self.bars def start_monitoring(self): 开始实时监控 self.anim FuncAnimation(self.fig, self.update_plot, interval1000, blitTrue) plt.tight_layout() plt.show() def save_animation(self, filenamerealtime_training.mp4): 保存动画 if self.anim: self.anim.save(filename, writerffmpeg, fps2, dpi100) print(f实时训练动画已保存至: {filename}) # 使用示例 monitor RealTimeTrainingMonitor() # 在训练循环中添加数据点 for epoch in range(num_epochs): # ... 训练代码 ... train_loss, train_acc train_one_epoch(model, train_loader, optimizer, criterion) # ... 验证代码 ... val_loss, val_acc validate(model, val_loader, criterion) # 添加数据点到监控器 current_lr optimizer.param_groups[0][lr] monitor.add_data_point(epoch, train_loss, val_loss, train_acc, val_acc, current_lr) # 短暂暂停让动画更新 plt.pause(0.1) # 训练结束后保存动画 monitor.save_animation()3.6 模型验证与结果分析训练完成后我们需要验证模型的效果。修改验证文件val.py指向你训练好的模型权重# val.py 示例代码片段 import torch from model import YourModel from dataset import get_val_loader from utils import evaluate def validate_model(model_path, val_loader): 验证模型性能 # 加载模型 model YourModel() checkpoint torch.load(model_path) model.load_state_dict(checkpoint[model_state_dict]) model.eval() # 在验证集上评估 accuracy, loss evaluate(model, val_loader) print(f验证准确率: {accuracy:.2f}%) print(f验证损失: {loss:.4f}) return accuracy, loss # 使用示例 if __name__ __main__: # 加载验证数据 val_loader get_val_loader() # 验证模型 model_path path/to/your/best_model.pth accuracy, loss validate_model(model_path, val_loader)运行验证命令python val.py验证结果会在终端显示你可以根据这些结果判断模型是否过拟合或欠拟合并决定是否需要调整训练策略。4. 训练结果分析与优化建议4.1 如何解读训练动画通过matplotlib动画你可以直观地观察训练过程中的几个关键现象损失下降速度训练初期损失下降很快是正常的但如果一直下降很慢可能需要调整学习率过拟合迹象训练损失持续下降但验证损失开始上升这是典型的过拟合欠拟合迹象训练和验证损失都很高且下降缓慢模型可能太简单了学习率影响观察学习率变化与损失下降的关系找到最佳的学习率调度策略4.2 常见训练问题与解决方案问题现象可能原因解决方案损失不下降学习率太小增大学习率或使用学习率预热损失震荡学习率太大减小学习率或使用学习率衰减过拟合模型太复杂/数据太少增加数据增强、使用正则化、早停欠拟合模型太简单增加模型复杂度、延长训练时间梯度爆炸初始化不当使用合适的初始化方法、梯度裁剪4.3 训练优化技巧学习率调度使用余弦退火、多步衰减等策略数据增强随机裁剪、翻转、颜色抖动等模型正则化Dropout、权重衰减、标签平滑早停策略监控验证损失当不再下降时停止训练模型集成训练多个模型取平均预测结果5. 总结通过这个完整的深度学习训练环境和使用matplotlib动画展示训练收敛过程的教程你应该能够快速搭建训练环境使用预配置的镜像省去繁琐的环境配置高效管理训练过程通过日志记录和可视化实时监控训练状态直观分析训练结果通过动画观察模型收敛过程及时发现训练问题优化模型性能根据可视化结果调整训练策略提升模型效果matplotlib动画不仅能让训练过程更加直观还能帮助你更好地理解模型的学习行为。下次训练深度学习模型时不妨试试这个方法相信会有不一样的收获。训练完成后你可以通过Xftp工具下载训练好的模型和日志文件。操作很简单在Xftp界面中从右边服务器窗口拖拽文件到左边本地窗口即可。对于大文件建议先压缩再下载可以节省不少时间。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章