导言
在红外小目标探测(IRSTD)领域,面临的挑战主要是如何从红外图像中探测到微弱的小目标。这些目标缺乏独特的纹理和形态,存在于干扰因素众多的复杂背景中。当前的深度学习方法通常会优先保留目标特征,而忽略关键的背景环境,最终导致误检和漏检。为了解决这个问题,本论文提出了一种基于Transformer进行像素级分割检测的新型深度学习框架,让其在编码阶段分别关注红外图像中的候选目标响应和背景上下文,并在解码阶段将两者对齐,思路框架如图1所示。具体来说,本文开发了一种渐进式背景感知转换器(Progressive Background-aware Transformer,PBT),它采用非对称编码器-解码器架构;首先,具有特定任务频域先验的编码器分别从浅层和深层区块中提取候选目标响应和背景上下文特征;随后,分层解码器在丰富背景语境的指导下,逐级完善候选目标反应,从而获得更准确的结果。实验结果表明,在各种公开和自采数据集上,PBT 超越了目前最先进的像素级分割IRSTD方法。
相关研究成果以"PBT: Progressive Background-aware Transformer for Infrared Small Target Detection"为题,于2024年6月5日发表于遥感TOP期刊《IEEE Transactions on Geoscience and Remote Sensing》(2024 IF :7.5,中科院1区)
图1 思路框架
研究背景
在当今信息技术飞速发展的时代,对于精确和高效的目标检测技术的需求日益增长。特别是在安全监控、军事侦察以及交通管理等关键领域,传统的2D图像处理技术已逐渐无法满足对细节和精度的需求。随着人工智能和深度学习技术的不断进步,人们开始寻求能够提供更丰富信息和更高检测精度的解决方案。然而,现有的深度学习方法在处理红外小目标检测(IRSTD)时,往往面临着目标特征不明显、背景干扰复杂等挑战,导致检测精度和鲁棒性受限。我们提出的像素级分割PBT模型,不仅响应了对更精细、更准确检测技术的需求,而且为推动像素级分割IRSTD技术向更智能化、更充分化的方向发展提供了新的可能性。通过在多个公开数据集上的广泛实验,PBT证明了其在不同复杂背景下对小目标进行准确检测的能力,展现了其在实际应用中的潜力和价值。
研究工作
1. 总体结构
本文提出的Progressive Background-aware Transformer (PBT) 模型采用了图2所示的非对称编码器-解码器架构,通过编码阶段的Task-adaptive Gated Transformer (T-GT) 块和解码阶段的Feature-correlation Gated Transformer (F-GT) 块,实现了对红外图像中小目标的精确检测。编码器部分通过逐步下采样生成从浅层到深层的特征表示,而解码器则通过多阶段的上采样和细化过程,结合深层背景上下文信息,逐步优化目标响应,最终恢复至原始分辨率并输出目标检测结果。此架构设计允许模型在保持目标特征的同时,充分利用背景信息,以提高检测精度并减少误检。
图2 网络模型结构
2. Task-adaptive Gated Transformer (T-GT) 模块
Task-adaptive Gated Transformer (T-GT) 模块作为PBT模型中的关键编码器组件,通过融合不同的任务特定先验信息,实现了对候选目标和背景上下文的独立关注。T-GT块采用门控结构,其中集成了图3 所示任务自适应自注意力(Task-adaptive Self-Attention, T-SA)机制,它利用深度网络的语义偏好和小目标本身的高频特性,自适应地在频域中学习任务先验,以增强网络区分目标和上下文的能力。此外,T-GT块还包含信息共享(Information Sharing, IS)模块、深度卷积层以及通道注意力模块,这些组件协同工作,增强了像素间的信息交互,并在不同深度层次上提取全局和局部特征,进而通过元素级乘法和逐点卷积层进行特征融合,为后续的解码阶段提供了丰富的背景和目标特征表示。
3. Feature-correlation Gated Transformer (F-GT) 模块
Feature-correlation Gated Transformer (F-GT) 模块作为PBT模型解码器的核心组件,通过并行运行图3 所示特征相关交叉注意力(Feature-correlation Cross-Attention, F-CA)机制和深度卷积层,增强了对目标响应的精细化处理。F-GT块的设计允许模型在解码阶段利用深层背景上下文信息对浅层候选目标响应进行逐步对齐和细化,其中F-CA机制通过复杂的非线性注意力机制计算深层背景和浅层候选目标之间的相关性,从而在不同深度的特征之间建立联系。这种结构不仅提升了模型对背景信息的利用效率,而且通过逐步集成深层语义信息,有效地增强了模型对小目标检测的准确性和鲁棒性。此外,F-GT块内部的密集连接进一步促进了特征的融合,为最终的准确目标响应提供了强有力的支持。
图3 T-SA机制和F-CA机制说明
4. IRSTD-Air数据集构建
为缓解当前 IRSTD 领域数据稀缺的问题,本文还构建了一个新的数据集 IRSTD-Air,它由 1475 幅真实世界的长波红外图像组成,每幅图像至少包含一个目标。一些具有代表性的样本如图4所示。我们为每张图像标注了精确的像素级掩码。IRSTD-Air 作为在真实场景中捕获的数据集,反映了真实世界的情况,使模型在处理真实场景时性能更加可靠,有效提高了模型的泛化能力。其次,数据集中包含大量具有挑战性的样本,有助于模型更好地适应各种复杂条件。对这些具有挑战性的样本进行精确标注,进一步提高了样本的实用价值。这些方面的精心设计有效地解决了以往数据集中常见的过拟合问题,提高了模型的学习能力,便于进行更真实的评估,并鼓励研究人员探索更先进、更创新的解决方案来解决具有挑战性的问题。
图4 IRSTD-Air数据集中的代表性样本
5. 实验与评估
本文展示了PBT模型在多个公开可用的数据集上的性能,并与其他现有的最先进方法(State-of-the-Art, SOTA)进行了比较。使用了两个标准的度量指标:Intersection over Union (IoU) 和 Normalized Intersection over Union (nIoU) 来评估模型在目标检测中的准确性,以及Probability of Detection (Pd) 和 False-Alarm Rate (Fa) 来衡量检测概率和误报率。
实验结果表1看出,PBT模型在NUDT-SIRST、IRSTD-1k和新构建的IRSTD-Air数据集上的所有度量指标中均优于现有的SOTA方法。具体来说,PBT在Fa指标上取得了显著的改进,在NUDT-SIRST和IRSTD-Air数据集上分别降低了44.4%和43.5%,这表明PBT在处理与目标特征相似的局部干扰方面具有优势,能够有效地区分目标和背景。
此外,通过可视化的结果图5-7,可以观察到PBT模型不仅能够成功地检测到目标位置,而且即使在信噪比低和对比度低的场景中,也能够准确地捕捉到目标的形状。这表明PBT模型通过整合更多的背景上下文,有效地分离了噪声信号和目标信号,并通过详细地表征背景,探索了低对比度目标和背景之间的微妙差异,从而改善了漏检问题。
表1 不同方法的定量分析
图5 不同方法在IRSTD-Air数据集上的结果样例
图6 不同方法在IRSTD-1k数据集上的结果样例
图7 不同方法在NUDT-SIRST数据集上的结果样例
总结
在本文中,我们提出利用背景环境提供更多决策信息,以应对 IRSTD 的挑战。为了实现这一目标,引入了 PBT,它利用背景语境作为参考,对目标响应进行多阶段细化,克服了只关注目标特征的传统方法所带来的特征退化和误差累积问题,在具有挑战性的场景中表现出显著优势。此外,PBT 还具有很强的可解释性,阐明了背景语境辅助检测决策背后的机制。希望 PBT 能为先例,在解决以特征稀缺为特征的 IRSTD 问题时,可以考虑目标特征以外的因素。
论文及作者信息
西安交通大学物理学院硕士生杨获任为论文第一作者,西安交通大学物理学院穆廷魁教授和中国科学院上海技术物理研究所何志平研究员为共同通讯作者。该研究得到了国家自然科学基金、陕西省重点研发计划、陕西省数学物理基础科学项目等支持。
文章链接:https://10.1109/TGRS.2024.3415080