該文提出了一種新的多模態協同感知框架,通過融合激光雷達和相機傳感器的輸入來增強自動駕駛感知系統的性能。首先,構建了一個多模態融合的基線系統,能有效地整合來自激光雷達和相機傳感器的數據,為后續研究提供了可比較的基準。其次,在多車協同環境下,探索了多種流行的特征融合策略,包括通道級拼接、元素級求和,以及基于Transformer的融合方法,以此來融合來自不同類型傳感器的特征并評估它們對模型性能的影響。最后,使用大規模公開仿線V進行了一系列實驗和評估。實驗結果表明,基于注意力機制的多模態融合方法在協同感知任務中展現出更優越的性能和更強的魯棒性,能夠提供更精確的目標檢測結果,從而增加了自動駕駛系統的安全性和可靠性。