低空经济与新质生产力驱动的交通运输协同感知：无人机遥感多模态融合高性能目标检测框架研究

2026-06-15 11:13:05

申报单位：长沙市智慧交通发展中心

　　(1.长沙市智慧交通发展中心，长沙，410000)

　　摘要:发展新质生产力是推动交通运输高质量发展的战略支点。无人机遥感作为低空经济与新质生产力深度融合的典型技术，正在成为推动交通领域数字化转型、智能化升级的关键驱动力。针对当前无人机遥感在道路监测与车辆感知中存在的尺度差异大、背景复杂、夜间与雾天易失效等突出问题，本文提出一种“道路语义分割—RGB红外多模态车辆检测”两阶段协同感知方法。第一阶段基于规范化的5类道路标注体系(高速公路、国道高架、农村公路、土路、河流湖泊)，通过轻量级语义分割模型对无人机瓦片进行可行驶区域识别;第二阶段在分割结果引导下，构建参数独立的双分支RGB与红外特征提取主干，在P4、P5两级金字塔进行注意力引导的层次化融合，配合无需非极大值抑制(NMS)的端到端检测头，实现稳健的车辆检测。在DroneVehicle数据集上，本方法mAP@0.5达85.46%、推理速度241帧/秒、参数量仅4.81 M，各项指标均优于现有代表方法;消融实验验证了双尺度融合、空间注意力与道路先验三类设计的有效性。该方法可服务于高速公路应急监测、农村公路安全治理、城市路网态势感知等典型场景，为低空经济赋能交通运输新质生产力提供切实可行的技术路径。

　　关键词：新质生产力;无人机遥感;道路语义分割;多模态目标检测;智能交通

　　1 引言

　　发展新质生产力是党中央立足全局作出的重大战略部署，交通运输领域作为国民经济的“大动脉”，其智能化转型进程直接关系到“交通强国”战略目标的实现节奏。无人机遥感技术的规模化应用，正在重塑交通运输生产力的底层逻辑：在路网巡检环节，单架无人机单日可完成数百公里线路的高分辨率影像采集，能够替代数十名人工巡查人员的工作量;在应急响应环节，无人机可在灾害发生后数分钟内抵达现场并回传路况影像，将事故研判周期从小时级压缩至分钟级;在基础设施病害检测环节，搭载多光谱与热红外载荷的无人机平台，可识别肉眼不可见的路面裂缝与桥梁结构隐患，显著提升养护决策的精准度。低空经济的快速崛起与人工智能算法的持续突破，推动以无人机为载体、以多模态感知为手段、以智能算法为内核的空地协同监测体系，正逐步成为新一代智能交通基础设施的关键支撑[1-2]。

　　然而，真实交通场景下无人机遥感感知仍面临多重痛点：一是传统监测以地面摄像头与人工巡查为主，偏远路段与应急场景覆盖盲区显著、响应滞后;二是单模态可见光检测受光照、雾霾、夜间影响严重，漏检与误检高发[3-4];三是现有遥感检测多面向通用类目，未与道路语义有机耦合，难以为路网差异化管理与精细化决策提供面向行业的结构化信息[5]。

　　为此，本文围绕“看得清、辨得准、用得上”三层需求，提出一种紧扣交通行业语义的无人机遥感道路场景两阶段协同感知方法。主要贡献：(1)构建面向中国典型路网的5类道路语义标注体系与轻量化分割方案;(2)设计层次化跨模态注意力融合检测框架，在P4、P5双尺度上完成RGB与红外协同感知;(3)集成端到端无NMS检测头，通过消融实验系统验证各模块贡献，实现实时可部署的低空交通智能感知能力。

　　2 国内外研究现状

　　在遥感目标检测方面，Faster R-CNN等两阶段检测器精度高但实时性差，YOLO系列单阶段检测器逐步成为遥感与无人机平台的主流选择[8-9];Hyper-YOLO等改进与轻量化网络如YGNet、SCNet进一步提升了小目标识别能力[10-11]。在多模态融合方面，UA-CMDet、IV-YOLO、MCFNet、FAWDet等通过RGB与红外信息互补提升了夜间与恶劣气象下的鲁棒性[6-7]，但普遍存在参数量大、推理速度慢、缺少道路语义引导等局限。面向小目标检测，基于语义引导与多感受野的精细化方法逐步成为研究热点[15-17]。道路语义分割方面，SegFormer等模型已在城市遥感取得突破[20]，但面向中国“高速—国省道—农村公路—土路”分层路网的轻量化定制方案仍较为欠缺。

　　3 方法

　　3.1 总体技术框架

　　如图1所示，本文方法包含两个紧密耦合的阶段。第一阶段对无人机遥感瓦片进行5类道路语义分割，输出可行驶区域与道路类型语义掩膜，以空间先验注意力形式注入第二阶段。第二阶段以配准的RGB与红外图像对为输入，经双分支独立主干完成模态特异性特征提取，在P4与P5两级金字塔进行跨模态层次化融合，最后由端到端v26检测头输出无需后处理的预测结果，实现实时、稳健、可部署的低空交通感知。

　　图1 本文方法两阶段协同感知整体流程

　　3.2 无人机遥感道路语义分割

　　针对中国典型路网层级，本文构建5类道路语义标注体系(图2)：(1)高速公路(Highway)：路面最宽，中央设护栏或绿化带，以整段大框标注;(2)国道与高架桥(National highway road)：水泥灰色路面，路幅较宽;(3)农村公路(Country road)：周边多树林，白色窄路面;(4)土路(Dirt road)：土黄色未硬化路面;(5)河流湖泊(River)：浅蓝色非道路要素，作为干扰背景显式区分。

　　该体系直接对应“四好农村路”分类管理与高速公路差异化运营的行业需求。分割主干采用SegFormer-Lite轻量级骨干，输入512×512，输出多类别像素级掩膜，在自建测试集上mIoU达73.5%，单帧延迟低于25 ms。分割结果作为空间先验注意力图注入下游检测网络，有效抑制非道路区域的背景误检。

　　3.3 双分支RGB-红外多模态特征提取

　　设输入RGB图像 IRGB∈ ℝH×W×3与配准红外图像 IIR∈ ℝH×W×1，H=640、W=512。区别于早期通道级直接拼接，本文构建两条结构相同、参数独立的YOLOv11骨干，使各模态在融合前充分学习专属特征表达。金字塔层级 l∈{1，...，5}、模态 m∈{RGB，IR} 下，特征由C3k2模块逐级提取：Fm(l)= C3k2(Fm(l-1);θm(l))，部分卷积比 αl∈{0.25，1.0}。P5层引入带残差的SPPF模块，通过5×5、9×9、13×13并行最大池化捕获多尺度上下文，随后由C2PSA位置敏感注意力聚焦显著目标区域。独立骨干设计有效避免了跨模态负迁移。

　　3.4 层次化多模态融合与端到端检测头

　　仅单尺度融合难以兼顾不同语义层次的互补信息。本文在P4与P5两级金字塔进行层次化融合：P4层级通过通道拼接与C3k2细化，辅以轻量通道注意力，对中、小目标的细粒度纹理与热辐射特征进行平衡;P5层级在拼接与C3k2细化基础上叠加C2PSA空间注意力，捕获全局上下文与大尺度对象的语义依赖。融合特征沿Neck上采样并跨层级聚合，送入端到端v26检测头[18]。该检测头采用“一对多+一对一”双分支训练：训练阶段一对多分支提供密集监督以稳定梯度;推理阶段仅保留一对一分支并对其特征执行梯度截断，实现无需非极大值抑制的端到端预测，大幅降低部署延迟。

　　4 实验结果与分析

　　4.1 数据集与实验设置

　　选用公开的DroneVehicle数据集[19]，包含28 439对配准的RGB与红外无人机影像，场景覆盖城市道路、居民区、停车场，涵盖白天与夜间，标注car、truck、bus、van、freight car共5类车辆，呈长尾分布。实验在NVIDIA RTX 3090(24 GB)工作站完成，框架PyTorch 2.0.1、CUDA 11.8。输入640×640，批大小16，训练300轮;MuSGD优化器，初始学习率0.001，余弦退火至1×10⁻⁶。

　　4.2 与先进方法对比

　　表1为本方法与单模态、多模态主流方法在DroneVehicle上的对比。精度上，本方法mAP@0.5达85.46%，较当前最佳多模态方法FAWDet(84.07%)提升1.39个百分点;mAP@0.5：0.95达61.88%，提升2.23个百分点。效率上，本方法参数量仅4.81 M，约为FAWDet(33.44 M)的14%;推理速度241帧/秒，远超FAWDet的58帧/秒，完全满足无人机机载实时推理需求。

　　表1 本方法与代表性方法在DroneVehicle数据集上的性能对比

　　表2 各关键模块的消融实验结果

配置	Seg先验	RGB	IR	P4融合	P5融合	mAP@0.5(%)	FPS
A1： YOLOv11 单模态(RGB)	✗	✓	✗	—	—	68.34	165
A2： YOLOv11 单模态(IR)	✗	✗	✓	—	—	65.44	165
A3：仅P4融合(无P5融合)	✗	✓	✓	✓	✗	81.32	252
A4：仅P5融合(无P4融合)	✗	✓	✓	✗	✓	80.74	248
A5：去除C2PSA注意力	✗	✓	✓	✓	✓	82.55	258
A6：双尺度融合(无分割先验)	✗	✓	✓	✓	✓	83.82	245
A7：完整模型(本文)	✓	✓	✓	✓	✓	85.46	241

　　4.3 消融实验

　　为验证各模块贡献，在DroneVehicle上设计7组消融实验，结果列于表2。结论：(1)单模态(RGB或IR)mAP分别为68.34%与65.44%，远低于多模态，验证模态互补的必要性;(2)仅单尺度(P4或P5)融合时mAP下降到80—82%，证明双尺度层次化融合的必要性;(3)移除C2PSA空间注意力后mAP下降2.91个百分点，说明位置敏感注意力对显著区域聚焦至关重要;(4)未引入道路分割先验时mAP为83.82%，引入后提升至85.46%，验证了道路语义对背景误检的抑制效果。

　　4.4 道路分割可视化分析

　　图4给出本文方法在城市混合、郊区农村、山区路网3类典型场景下的分割结果。可见，对于宽路面的高速公路、水泥灰国道、白色农村公路、土黄色土路以及浅蓝色河流5类要素，本方法均能形成清晰、连续的语义边界，与真值标注高度一致，验证了所提标注体系与轻量级分割主干在复杂背景下的有效性。

　　4.5 检测可视化分析

　　图5给出三组代表性检测对比。第一行为雾天：基线方法漏检被雾遮车辆，本方法借助红外热辐射特征纠正了误判与漏检;第二行为夜间低照度：基线对停放车辆大量漏检，本方法基于红外稳定响应成功召回;第三行为密集停车：本方法显著抑制了基线的虚警与重复检测，展现出对复杂场景的稳健性与实际部署价值。

　　4.6 跨模态特征注意力可视化

　　图6给出夜间与密集场景下，RGB分支、IR分支与融合(P5)的注意力热力图。可见RGB分支主要关注可见光高亮区域，IR分支对全部热辐射车辆产生稳定响应，而融合后的P5特征注意力分布更均匀完整，覆盖两种模态的互补区域，直观验证了跨模态层次化融合的有效性。

　　4.7 每类性能分析

　　图7为各方法在5类车辆上的mAP对比及本文PR曲线。本方法在Van与Freight Car两个长尾类提升尤为显著，较FAWDet分别提升3.4与6.5个百分点，印证多模态融合对小样本类的鲁棒性。

　　5 应用场景

　　如图8所示，本文所提的方法可在高速公路应急监测、“四好农村路”安全治理、城市路网态势感知等场景中发挥作用。本方法在新技术维度集成多模态深度学习与端到端无NMS推理;在新模式维度构建“空地协同、即采即识、闭环响应”的监测模式;在新业态维度催生“无人机+AI算法+交通行业知识”融合的低空交通服务新业态;在新机制维度推动数据驱动的差异化路网管理与跨部门协同决策，契合新质生产力“高科技、高效能、高质量”三高内涵。

　　6 结论

　　本文面向交通运输新质生产力培育需求，提出“道路语义分割—RGB红外多模态车辆检测”两阶段协同感知方法。所提框架在DroneVehicle上mAP@0.5达85.46%、推理速度241帧/秒、参数量仅4.81 M，各项指标综合优于现有代表方法，消融实验验证了双尺度融合、空间注意力与道路先验的有效性。该方法在高速公路应急监测、农村公路安全治理、城市路网态势感知等典型场景具备显著应用价值，可为低空经济赋能交通强国建设提供切实有力的技术支撑。

　　参考文献

　　[1] 习近平. 加快发展新质生产力扎实推进高质量发展[J]. 求是, 2024(11): 4-8.

　　[2] 交通运输部. “十四五”交通运输科技创新发展规划[R]. 北京: 交通运输部, 2022.

　　[3] LI F H, RAO P, SUN W, et al. A new motion feature-enhanced multiframe spatial-temporal infrared target detection network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2025, 63: 1-19.

　　[4] ZHAO Y, CAMBRIA E, E X, et al. TEMPO: Training-time equilibration of modalities for per-sample optimization in multimodal sentiment[J]. IEEE Transactions on Affective Computing, 2026: 1-17.

　　[5] LIU K W, PENG D L, LI T. Multimodal remote sensing object detection based on prior-enhanced mixture-of-experts fusion network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2025, 63: 1-14.

　　[6] PENG Y H, WANG J, WANG W Q, et al. An efficient multiband infrared small objects detection approach for low-altitude artificial intelligence of things[J]. IEEE Internet of Things Journal, 2025, 12(12): 20757-20772.

　　[7] ZHU X X, WANG Y Y, CAMBRIA E, et al. RMER-DT: Robust multimodal emotion recognition in conversational contexts based on diffusion and transformers[J]. Information Fusion, 2025, 123: 103268.

　　[8] WENG Z H, HE W J, LV J F, et al. SFBDA: A semantic-decoupled data augmentation framework for infrared few-shot object detection on UAVs[J]. IEEE Geoscience and Remote Sensing Letters, 2025, 22: 1-5.

　　[9] LI C W, SHI Y, LU M, et al. A composite insulator overheating defect detection system based on infrared image object detection[J]. IEEE Transactions on Power Delivery, 2025, 40(1): 203-214.

　　[10] DONG X H, QIN Y, FU R G, et al. Remote sensing object detection based on gated context-aware module[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 1-5.

　　[11] HAN W X, KUERBAN A, YANG Y C, et al. Multi-vision network for accurate and real-time small object detection in optical remote sensing images[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 1-5.

　　[12] SONG X, GAO E H. YGNet: A lightweight object detection model for remote sensing[J]. IEEE Geoscience and Remote Sensing Letters, 2025, 22: 1-5.

　　[13] ZHU S L, MIAO M. SCNet: A lightweight and efficient object detection network for remote sensing[J]. IEEE Geoscience and Remote Sensing Letters, 2024, 21: 1-5.

　　[14] XIANG J Y, ZHU X X, CAMBRIA E. Integrating audio-visual text generation with contrastive learning for enhanced multimodal emotion analysis[J]. Information Fusion, 2026, 127: 103809.

　　[15] ZHU X X, LIU Z Z, CAMBRIA E, et al. A client-server based recognition system: Non-contact single/multiple emotional and behavioral state assessment methods[J]. Computer Methods and Programs in Biomedicine, 2025, 260: 108564.

　　[16] ZHU X X, FENG H Y, CAMBRIA E, et al. EMVAS: End-to-end multimodal emotion visualization analysis system[J]. Complex & Intelligent Systems, 2025, 11(8): 374.

　　[17] LIU D Y, ZHANG J P, QI Y X, et al. A tiny object detection method based on explicit semantic guidance for remote sensing images[J]. IEEE Geoscience and Remote Sensing Letters, 2024, 21: 1-5.

　　[18] LIU D Y, ZHANG J P, QI Y X, et al. Tiny object detection in remote sensing images based on object reconstruction and multiple receptive field adaptive feature enhancement[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 1-13.

　　[19] SUN Y M, CAO B, ZHU P F, et al. Drone-based RGB-infrared cross-modality vehicle detection via uncertainty-aware learning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(10): 6700-6713.

　　[20] JOCHER G, QIU J. Ultralytics YOLO26[EB/OL]. (2026-01-15)[2026-04-20]. https://github.com/ultralytics/ultralytics.

　　[21] SUN Y M, CAO B, ZHU P F, et al. Drone-based RGB-infrared cross-modality vehicle detection via uncertainty-aware learning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(10): 6700-6713.

　　[22] XIE E Z, WANG W H, YU Z D, et al. SegFormer: Simple and efficient design for semantic segmentation with transformers[C]//Advances in Neural Information Processing Systems. 2021: 12077-12090.

联系我们

展商申报

观众申报

案例申报