图像注意力

张开发

• 2026/4/11 14:27:10 • 15 分钟阅读

分享文章

图像注意力机制概述图像注意力机制是深度学习中的一种技术用于增强神经网络对特征图中重要信息的关注能力。常见的注意力方式包括通道注意力、空间注意力等它们通过自适应权重调整特征图的不同维度如通道或空间位置提升模型的性能。下面我将逐步解释您要求的四种图像注意力方式通道注意力SENet、空间注意力CBAM、ECAEfficient Channel Attention和CACoordinate Attention。每种方式的结构清晰我将先介绍其基本原理然后伪代码实现基于PyTorch风格确保内容真实可靠。1. 通道注意力SENet通道注意力机制源自Squeeze-and-Excitation NetworksSENet它通过学习通道间的权重来增强重要通道的特征表示。核心思想是先压缩特征图的空间维度以获取全局信息然后通过一个门控机制excitation生成通道权重。基本步骤对输入进来的特征序列进行全局平均池化然后进行两次全连接第一次全连接神经元个数较少第二次全连接个数和输入特征层相同在完成两次全连接后我们再取一次Sigmoid将值固定到0~1之间此时我们获得了输入特征层每一个通道的权值获得权值后将权值乘上原始特征层即可伪代码实现import torch import torch.nn as nn class SEBlock(nn.Module): def __init__(self, channels, reduction16): super(SEBlock, self).__init__() self.gap nn.AdaptiveAvgPool2d(1) self.fc nn.Sequential( nn.Linear(channels, channels // reduction), nn.ReLU(), nn.Linear(channels // reduction, channels), nn.Sigmoid() ) def forward(self, x): b, c, h, w x.size() z self.gap(x).view(b, c) # Squeeze: GAP得到z s self.fc(z).view(b, c, 1, 1) # Excitation: 生成权重s return x * s # 应用权重解释SENet通过全局平均池化获取每个通道的全局信息然后使用全连接层学习权重强调重要通道。这提升了模型对通道特征的敏感性常用于图像分类任务。2. 空间注意力CBAM空间注意力是Convolutional Block Attention ModuleCBAM的一部分它关注特征图的空间位置即高度和宽度维度。CBAM模块通常结合了通道注意力和空间注意力但这里我们聚焦于空间部分通过聚合通道信息生成空间权重图突出重要区域。基本步骤对输入进来的特征序列分别进行通道注意力计算和空间注意力计算通道注意力计算中在图像高宽上分别进行最大池化和平均池化最后依然使用全连接层进行权重计算空间注意力计算中在通道维度上进行最大池化和平均池化然后将两个通道进行拼接通过卷积运算得到一个通道数为1高宽不变的权重图伪代码实现import torch import torch.nn as nn class SpatialAttention(nn.Module): def __init__(self, kernel_size7): super(SpatialAttention, self).__init__() self.conv nn.Conv2d(2, 1, kernel_sizekernel_size, paddingkernel_size//2) self.sigmoid nn.Sigmoid() def forward(self, x): avg_pool torch.mean(x, dim1, keepdimTrue) # 通道平均池化 max_pool, _ torch.max(x, dim1, keepdimTrue) # 通道最大池化 concat torch.cat([avg_pool, max_pool], dim1) # 拼接 s self.sigmoid(self.conv(concat)) # 卷积生成权重S return x * s # 应用权重解释空间注意力通过池化操作聚合通道信息生成空间权重图使模型更关注特征图中的关键区域。这在目标检测和语义分割任务中很有效。3. ECAEfficient Channel AttentionECA是对SENet的改进旨在降低计算成本同时保持通道注意力的效果。它使用一维卷积代替全连接层避免降维操作从而更高效地学习通道权重。伪代码实现import torch import torch.nn as nn import math class ECABlock(nn.Module): def __init__(self, channels): super(ECABlock, self).__init__() self.gap nn.AdaptiveAvgPool2d(1) k_size int(math.log2(channels) / 2 0.5) # 自适应卷积核大小 k_size k_size if k_size % 2 1 else k_size 1 # 确保奇数 self.conv nn.Conv1d(1, 1, kernel_sizek_size, paddingk_size//2) self.sigmoid nn.Sigmoid() def forward(self, x): b, c, h, w x.size() z self.gap(x).view(b, c) # Squeeze: GAP得到z z z.unsqueeze(1) # 形状变为[b, 1, c] s self.sigmoid(self.conv(z)).view(b, c, 1, 1) # 1D卷积生成权重s return x * s # 应用权重解释ECA通过一维卷积直接学习通道权重避免了SENet中的降维操作减少了参数量和计算开销同时保持了性能。适用于轻量级模型和实时应用。4. CACoordinate AttentionCoordinate AttentionCA同时关注通道和空间信息通过分解注意力机制为水平和垂直方向。它利用坐标信息生成注意力图捕捉长距离依赖。基本步骤对输入图像沿x方向进行池化尺寸变化为[C,H,1]对输入图像沿y方向进行池化尺寸变化为[C,1,W]将两个方向计算后的图像进行通道拼接(注意是通道拼接并非相加需进行reshape)尺寸变化为[C,1,HW]然后通过一个共享的1x1卷积结合缩放因子r进行通道数量的一个缩放得到中间层特征尺寸为[C/r,1,HW]进行批量归一化和非线性激活将新的特征按照原来的池化方向重新拆分回[C/r,H,1]和[C/r,1,W]再使用1x1的卷积将通道数升回C,然后拼接Sigmoid函数得到各自方向上的注意力权重伪代码实现import torch import torch.nn as nn class CABlock(nn.Module): def __init__(self, channels): super(CABlock, self).__init__() self.conv_h nn.Conv2d(channels, channels, kernel_size(1, 1)) # 用于水平 self.conv_w nn.Conv2d(channels, channels, kernel_size(1, 1)) # 用于垂直 self.sigmoid nn.Sigmoid() def forward(self, x): b, c, h, w x.size() # 水平池化 z_h torch.mean(x, dim3, keepdimTrue) # 形状[b, c, h, 1] z_h self.conv_h(z_h) # 垂直池化 z_w torch.mean(x, dim2, keepdimTrue) # 形状[b, c, 1, w] z_w self.conv_w(z_w) # 生成注意力图 a self.sigmoid(z_h * z_w) # 元素相乘后sigmoid return x * a # 应用权重解释CA机制通过分解空间坐标同时捕获通道和位置信息增强了模型对长距离特征关系的建模能力。在图像识别和生成任务中表现优异。总结以上四种图像注意力机制各有特点SENet专注于通道信息CBAM的空间部分强化空间位置ECA优化了通道注意力的效率而CA整合了通道和坐标信息。在实际应用中可以根据任务需求选择或组合这些机制。

更多文章

前端开发 2026/4/11 14:27:10

揭秘JVM创世过程之Java线程和OS线程-灵魂与肉体

前言本文旨在记录近期研读Java源码的学习心得与疑难问题。由于个人理解水平有限，文中内容难免存在疏漏，恳请读者不吝指正。开篇在前几篇文章中，我们从JVM的创建过程开始，逐步深入探讨了底层汇编如何实现JVM的构建。本文将聚…

第一章：SITS2026分享：AI原生智能制造应用 2026奇点智能技术大会(https://ml-summit.org) 在SITS2026大会上，多家头部制造企业与AI平台厂商联合展示了“AI原生”范式在产线调度、缺陷检测、预测性维护及数字孪生闭环控制中的深度落地实践。该…

张开发

前端开发 2026/4/11 14:00:09

从零到火箭专家：OpenRocket仿真软件完全指南

从零到火箭专家：OpenRocket仿真软件完全指南【免费下载链接】openrocket Model-rocketry aerodynamics and trajectory simulation software 项目地址: https://gitcode.com/GitHub_Trending/op/openrocket 想要设计一枚完美的模型火箭却担心试飞失败&#…

张开发

图像注意力

最新文章

时间序列分类实战 | 从LSTM到Transformer，五大主流模型架构对比与选型指南

运维系列【仅供参考】：linux下后台运行python程序并输出到日志文件中 linux下运行python的日志文件在哪_Linux下后台运行python程序，并输出日志文件

终极游戏成就管理指南：开源工具SAM的深度解析

WPF新手村教程（七）—— 终章（MVVM架构初见杀）偎

值类型与引用类型：别再只背“栈和堆”了，看这个实际影响我

现货价格一波动，偏差考核就不只是扣分：新能源场站最危险的是现金流被连续挤压

推荐文章

锂电池保护板方案：中颖SH367309方案原理图和PCB源代码深度解析

CSS Clip-Path 动画：形状变换的视觉魔法

CSS Subgrid：网格布局的终极进化

大模型训练全流程:预训练，监督微调，RLHF

毕设日志26.4.4（1）:画原理图，画板

QEi编码器接口原理与工业级抗干扰实战指南

相关文章

别再让PDF图片丢失了！Dify二次开发实战：优化知识库的图文混合检索能力

热点 | Harness 架构深度解析：AI智能体编排框架的核心原理

【Python时序预测实战】融合LSTM与Transformer：从模型构建到单变量预测全流程解析

MySQL分区表实战：从原理到高效数据管理

CSRankings区域筛选功能深度解析：如何找到全球最佳CS研究机构

OpCore-Simplify：让开源系统硬件适配从8小时到30分钟的技术革命

分享文章

更多文章

揭秘JVM创世过程之Java线程和OS线程-灵魂与肉体

如何实现Cursor Pro激活自动化：5步解决“试用账户已达限制“问题

Linux开发环境无缝衔接：Phi-4-mini-reasoning在WSL2中的部署与使用

实时反馈断层、特征偏移误判、推理链路静默降级……AI灰度发布6大暗礁（含可观测性埋点配置清单）

5个实用技巧让你快速上手OpenEMR医疗管理系统

别再只用Console线了！eNSP里给路由器/交换机配置Telnet远程登录（含AAA认证详解）

2026最权威的AI科研神器推荐榜单

【硬件解析】Type-C引脚功能与角色协商全解

C和C++的区别

基于File-Based App开发MVP项目也

【SITS2026权威首发】：AI原生智能制造落地的5大技术断层与2026年必须跨越的3道生死线

从零到火箭专家：OpenRocket仿真软件完全指南

图像注意力

最新文章

时间序列分类实战 | 从LSTM到Transformer，五大主流模型架构对比与选型指南

运维系列【仅供参考】：linux下后台运行python程序并输出到日志文件中 linux下运行python的日志文件在哪_Linux下后台运行python程序，并输出日志文件

终极游戏成就管理指南：开源工具SAM的深度解析

WPF新手村教程（七）—— 终章（MVVM架构初见杀）偎

值类型与引用类型：别再只背“栈和堆”了，看这 个实际影响我

现货价格一波动，偏差考核就不只是扣分：新能源场站最危险的是现金流被连续挤压

推荐文章

锂电池保护板方案：中颖SH367309方案原理图和PCB源代码深度解析

CSS Clip-Path 动画：形状变换的视觉魔法

CSS Subgrid：网格布局的终极进化

大模型训练全流程:预训练，监督微调，RLHF

毕设日志26.4.4（1）:画原理图，画板

QEi编码器接口原理与工业级抗干扰实战指南

相关文章

别再让PDF图片丢失了！Dify二次开发实战：优化知识库的图文混合检索能力

热点 | Harness 架构深度解析：AI智能体编排框架的核心原理

【Python时序预测实战】融合LSTM与Transformer：从模型构建到单变量预测全流程解析

MySQL分区表实战：从原理到高效数据管理

CSRankings区域筛选功能深度解析：如何找到全球最佳CS研究机构

OpCore-Simplify：让开源系统硬件适配从8小时到30分钟的技术革命

分享文章

更多文章

值类型与引用类型：别再只背“栈和堆”了，看这个实际影响我