YOLO11涨点优化:注意力机制 | 引入Focal Modulation模块,替代传统自注意力,小目标检测涨点神器 | NeurIPS经典

张开发
2026/4/16 15:47:00 15 分钟阅读

分享文章

YOLO11涨点优化:注意力机制 | 引入Focal Modulation模块,替代传统自注意力,小目标检测涨点神器 | NeurIPS经典
前言:当YOLO11遇到小目标检测困境最近在做一个无人机航拍的行人检测项目,图像分辨率3840×2160,但远处行人只有几十个像素。YOLO11原版模型跑下来,大目标检测精度90%+,一到小目标就断崖式下跌,mAP@0.5勉强50%出头。在论坛里翻了几天帖子,发现不少同行也在吐槽——YOLO11虽然整体精度已经相当优秀,但面对小目标密集场景仍然捉襟见肘。根据Ultralytics官方发布信息,YOLO11于2024年9月正式发布,引入了C3K2块和C2PSA空间注意力模块等多项架构改进,在COCO数据集上取得了显著的精度提升,模型提供从Nano到X的五种规模变体,覆盖不同算力需求场景。然而,在VisDrone2019等小目标密集数据集上,YOLO11基线模型的小目标检测精度仍然存在明显短板——根据Digital Signal Processing期刊2025年6月发表的研究,YOLO11在小目标上的检测效果受到频域分析不足和浅层冗余计算的双重制约。这背后反映的是一个根本性问题:YOLO11主干网络中的SPPF模块(快速空间金字塔池化)虽然能够高效地融合多尺度特征,但其本质仍是基于固定感受野的池化操作,缺乏对上下文关系的动态建模能力。对于小目标而言,这意味着模型无法根据目标周围的语境自适应地“聚焦”关键信息。那么,有没有一种方案能在不显著增加计算量的前提下,让模型学会“动态聚焦”?答案是肯定的——NeurIPS 2022上微软提出的Focal Modulation(焦点调制)机制,正是为解决这一问题而生的。本文将详细拆解如何将Focal Modulation模块引入YOLO11,替代传统的S

更多文章