用PyTorch复现SRCNN：三行代码搞定图像超分，重温2015年的经典

张开发

• 2026/4/16 2:46:11 • 15 分钟阅读

分享文章

用PyTorch复现SRCNN三行代码搞定图像超分重温2015年的经典在深度学习模型日益复杂的今天动辄数百层的网络架构已成为常态。然而回望2015年一个仅由三层卷积构成的模型——SRCNN却开创了深度学习在图像超分辨率领域的先河。本文将带你用PyTorch亲手实现这一经典模型体验其简洁之美与高效性能。1. SRCNN模型解析与PyTorch实现SRCNNSuper-Resolution Convolutional Neural Network的核心思想是将传统超分辨率方法中的三个关键步骤——特征提取、非线性映射和重建——统一到一个端到端的卷积神经网络中。这种设计不仅简化了流程还通过数据驱动的方式自动学习最优映射。1.1 模型架构详解SRCNN的网络结构异常简洁仅包含三个卷积层import torch.nn as nn class SRCNN(nn.Module): def __init__(self, num_channels1): super(SRCNN, self).__init__() self.conv1 nn.Conv2d(num_channels, 64, kernel_size9, padding4) self.conv2 nn.Conv2d(64, 32, kernel_size5, padding2) self.conv3 nn.Conv2d(32, num_channels, kernel_size5, padding2) self.relu nn.ReLU(inplaceTrue) def forward(self, x): x self.relu(self.conv1(x)) x self.relu(self.conv2(x)) x self.conv3(x) return x各层功能解析层输入通道输出通道核大小功能描述Conv11649×9提取局部图像特征Conv264325×5非线性特征映射Conv33215×5高分辨率图像重建提示对于彩色图像处理只需将num_channels参数设为3即可模型会自动适应RGB三通道输入。1.2 模型初始化技巧虽然SRCNN结构简单但合理的初始化对训练效果至关重要def weights_init(m): if isinstance(m, nn.Conv2d): nn.init.kaiming_normal_(m.weight, modefan_out, nonlinearityrelu) if m.bias is not None: nn.init.constant_(m.bias, 0) model SRCNN() model.apply(weights_init)2. 数据准备与预处理2.1 数据集选择与处理DIV2K是超分辨率任务中最常用的数据集之一包含800张训练图像和100张验证图像。我们可以使用TorchVision进行高效加载from torchvision import transforms transform transforms.Compose([ transforms.ToTensor(), transforms.Normalize(mean[0.5], std[0.5]) ]) class DIV2KDataset(Dataset): def __init__(self, hr_dir, lr_dir, scale2, transformNone): self.hr_images sorted(glob.glob(f{hr_dir}/*.png)) self.lr_images sorted(glob.glob(f{lr_dir}/*.png)) self.transform transform self.scale scale def __getitem__(self, idx): hr_img Image.open(self.hr_images[idx]) lr_img Image.open(self.lr_images[idx]) if self.transform: hr_img self.transform(hr_img) lr_img self.transform(lr_img) return lr_img, hr_img2.2 数据增强策略为提高模型泛化能力建议采用以下增强组合随机旋转90°, 180°, 270°水平/垂直翻转随机裁剪通常裁剪为48×48的小块色彩抖动针对彩色图像train_transform transforms.Compose([ transforms.RandomCrop(48), transforms.RandomHorizontalFlip(), transforms.RandomVerticalFlip(), transforms.ToTensor(), transforms.Normalize(mean[0.5], std[0.5]) ])3. 模型训练与调优3.1 损失函数与优化器选择SRCNN通常使用L1或L2损失函数各有优劣L1 LossMAE对异常值更鲁棒收敛稳定L2 LossMSE强调大误差惩罚可能产生更锐利的结果criterion nn.L1Loss() # 或 nn.MSELoss() optimizer torch.optim.Adam(model.parameters(), lr1e-4) scheduler torch.optim.lr_scheduler.StepLR(optimizer, step_size50, gamma0.5)3.2 训练过程监控典型的训练循环实现def train(model, dataloader, criterion, optimizer, device): model.train() running_loss 0.0 for lr_imgs, hr_imgs in dataloader: lr_imgs lr_imgs.to(device) hr_imgs hr_imgs.to(device) optimizer.zero_grad() outputs model(lr_imgs) loss criterion(outputs, hr_imgs) loss.backward() optimizer.step() running_loss loss.item() return running_loss / len(dataloader)常见训练曲线分析理想情况训练和验证损失同步下降最终趋于平稳过拟合训练损失持续下降而验证损失开始上升欠拟合训练和验证损失都下降缓慢或停滞注意SRCNN训练通常需要100-300个epoch才能达到较好效果过早停止可能导致性能不佳。4. 模型应用与效果评估4.1 单图超分辨率实践训练完成后可以轻松将模型应用于自己的图像def enhance_image(model, image_path, device): img Image.open(image_path).convert(L) # 转为灰度 img_tensor transform(img).unsqueeze(0).to(device) with torch.no_grad(): output model(img_tensor) enhanced_img transforms.ToPILImage()(output.squeeze().cpu()) return enhanced_img4.2 性能评估指标常用超分辨率评估指标对比指标计算方式特点PSNR峰值信噪比计算简单与人类感知相关性一般SSIM结构相似性更符合人类视觉感知LPIPS学习感知相似性基于深度学习评估最准确from skimage.metrics import peak_signal_noise_ratio as psnr from skimage.metrics import structural_similarity as ssim def evaluate(hr_img, sr_img): psnr_value psnr(hr_img, sr_img, data_range1.0) ssim_value ssim(hr_img, sr_img, multichannelTrue, data_range1.0) return psnr_value, ssim_value4.3 实际应用技巧边缘处理对于边界区域可适当扩展padding大图处理对于大尺寸图像可分块处理再拼接多尺度增强可尝试不同放大倍数的级联处理def process_large_image(model, large_img, patch_size256, overlap32): patches split_into_patches(large_img, patch_size, overlap) enhanced_patches [] for patch in patches: enhanced model(patch) enhanced_patches.append(enhanced) return merge_patches(enhanced_patches, overlap)5. 进阶优化方向虽然SRCNN结构简单但仍有多种优化空间5.1 网络结构改进增加残差连接类似VDSR使用更高效的激活函数如PReLU引入注意力机制class EnhancedSRCNN(nn.Module): def __init__(self, num_channels1): super().__init__() self.conv1 nn.Conv2d(num_channels, 64, 9, padding4) self.prelu1 nn.PReLU() self.conv2 nn.Conv2d(64, 32, 5, padding2) self.prelu2 nn.PReLU() self.conv3 nn.Conv2d(32, num_channels, 5, padding2) self.attention nn.Sequential( nn.AdaptiveAvgPool2d(1), nn.Conv2d(64, 64//8, 1), nn.ReLU(), nn.Conv2d(64//8, 64, 1), nn.Sigmoid() ) def forward(self, x): x self.prelu1(self.conv1(x)) attention self.attention(x) x x * attention x self.prelu2(self.conv2(x)) return self.conv3(x)5.2 训练策略优化渐进式学习率调整多阶段训练先低分辨率后高分辨率对抗训练引入GAN损失# 对抗训练示例 discriminator ... # 定义判别器 adv_criterion nn.BCEWithLogitsLoss() def adversarial_loss(real_pred, fake_pred): real_loss adv_criterion(real_pred, torch.ones_like(real_pred)) fake_loss adv_criterion(fake_pred, torch.zeros_like(fake_pred)) return (real_loss fake_loss) / 2在实际项目中我发现结合L1损失和感知损失使用VGG特征往往能取得更好的视觉效果。对于老照片修复可以先用SRCNN进行超分辨率处理再配合传统的去噪算法效果通常比单独使用任何一种方法都要好。

更多文章

前端开发 2026/4/16 2:43:16

精细化状态管理：Riverpod的select方法

在现代应用程序开发中，状态管理是一个核心概念。特别是在Flutter应用中，如何有效地管理状态不仅影响应用的性能，还直接关系到用户体验。Riverpod作为一个流行的状态管理解决方案，为我们提供了一种优化状态监听和更新的方法——select方法。本文将探讨如何利用select方法来细…

GHelper终极指南：3步安装华硕笔记本轻量控制工具，告别Armoury Crate臃肿问题【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting acros…

张开发

前端开发 2026/4/16 2:10:49

Visual Studio安装与C++开发环境配置全指南

1. Visual Studio安装全流程解析第一次接触Visual Studio的开发者往往会被它庞大的体积吓到，但别担心，跟着我的步骤走，20分钟就能搞定。我去年给团队新人培训时，发现90%的安装问题都出在路径选择和组件配置环节。先打开微软官网下…

张开发

用PyTorch复现SRCNN：三行代码搞定图像超分，重温2015年的经典

最新文章

Liquibase企业级部署：CI/CD流水线中的数据库版本控制终极指南

AtCoder Beginner Contest 438

多模态虚拟人已进入商用临界点：2026奇点大会公布的5项硬核指标，90%企业尚未达标

PostgreSQL Docker自定义镜像开发：扩展功能和优化配置

10分钟搭建无服务器节点工作流：LiteGraph.js与Firebase Functions终极实战指南

如何在Fork仓库中高效使用git-auto-commit-action：完整指南

推荐文章

Spring with AI (): 定制对话——Prompt模板引入技

【AI原生研发灰度发布黄金法则】：20年架构师亲授7步闭环策略，规避92%的线上事故风险

PS3游戏更新下载器完整指南：如何轻松获取官方游戏补丁

别再手动除草了！用Python+OpenCV部署一个田间杂草实时检测系统

YOLO 系列：YOLOv8 引入 DyHead 动态检测头，统一目标检测与旋转框检测

21天机器学习核心算法学习计划（量化方向）

相关文章

别再让PDF图片丢失了！Dify二次开发实战：优化知识库的图文混合检索能力

热点 | Harness 架构深度解析：AI智能体编排框架的核心原理

【Python时序预测实战】融合LSTM与Transformer：从模型构建到单变量预测全流程解析

MySQL分区表实战：从原理到高效数据管理

CSRankings区域筛选功能深度解析：如何找到全球最佳CS研究机构

OpCore-Simplify：让开源系统硬件适配从8小时到30分钟的技术革命

分享文章

更多文章

精细化状态管理：Riverpod的select方法

机器学习模型调参时，你真的懂L1/L2正则化里的‘范数’吗？从原理到避坑

Matlab APP Designer实战：5分钟搞定字符进度条（附完整代码）

STM32F103C8T6 + Zigbee + ESP8266：手把手教你搭建一个粮仓环境监测系统（附完整代码和电路图）

2026全网最全的AI软件测试面试题（含答案+文档）

2026年3月 GESP CCF编程能力等级认证C++二级真题

Diffusers实战：从OSError: config.json缺失到HuggingFace镜像与缓存配置全攻略

YOLO进化史：从YOLOv1到YOLOv12的技术突破与应用场景全解析

病理科冷冻切片机的选型要点解析及推荐对比分析

路由器设置必看！2.4GHz频段的隐藏信道冲突与信号增强技巧

GHelper终极指南：3步安装华硕笔记本轻量控制工具，告别Armoury Crate臃肿问题

Visual Studio安装与C++开发环境配置全指南