一种虚实多模态知识迁移的行人穿越预测方法及系统技术方案

技术编号：45310529 阅读：4 留言：0更新日期：2025-05-16 14:52

一种虚实多模态知识迁移的行人穿越预测方法及系统，包括：通过利用合成数据中的行人框对知识提取器中的教师模型进行预训练，得到获取未来p时刻的行人框数据特征；通过风格转换器，将合成数据的RGB帧在各种条件下的视觉特征转化为对应的真实RGB图；将合成深度图、合成语义分割图与真实RGB图进行整合，得到共享特征嵌入；将行人框数据特征、风格转换特征以及共享特征整合进可学习的门控单元进行融合，预测行人穿越意图信号。采用整合风格迁移、分布逼近与知识蒸馏的框架，旨在高效处理视觉、语义、深度及边界框等多元信息，以显著提升行人过马路预测的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及交通安全领域，具体涉及一种虚实多模态知识迁移的行人穿越预测方法及系统。

技术介绍

1、行人过马路预测（pcp）问题日益受到重视，越来越多的学者对行人姿态、边界框、车辆速度以及语义分割图的相关内容进行研究。然而，在实践中标注这些线索颇具挑战性，尤其是恶劣的天气与光照条件对pcp构成了难题。因此，提升行人过马路行为检测模型的泛化能力关键在于增强样本多样性，鉴于实际场景中行人过马路行为的标注数据有限，当前研究趋势是生成具备动态变化的合成数据集，通过引入域适应技术来丰富训练数据，进而优化模型在不同环境下的表现，通过采用域适应框架来提高预测性能。然而不同领域的知识存在显著的跨域分布差异，这一特性要求在处理个性化内容提供任务时，存在准确性低的问题。

技术实现思路

1、本专利技术的目的在于提供一种虚实多模态知识迁移的行人穿越预测方法及系统，以解决上述问题。

2、为实现上述目的，本专利技术采用以下技术方案：

3、第一方面，本专利技术提供一种虚实多模态知识迁移的行人穿越预测方法，包括：

4、通过利用模型生成的合成数据中的行人框对知识提取器中的教师模型进行预训练，得到获取未来p时刻的行人框数据特征；

5、通过风格转换器，将合成数据的rgb帧在各种条件下的视觉特征转化为对应的真实rgb图，获得风格转换特征；

6、将合成数据的深度图、合成数据的语义分割图与真实rgb图进行整合，得到共享特征嵌入；

7、将行人框数据特征、风

8、进一步的，所述通过利用合成数据中的行人框对知识提取器中的教师模型进行预训练，得到获取未来p时刻的行人框数据特征，包括：

9、采用合成数据集，将行人的0至t时刻的边界框作为输入提供给教师模型transformer网络，以此获取合成数据在t至t+p时刻的行人框信息，完成预训练阶段并固定模型参数；

10、采用教师模型对真实数据中的行人框进行指导，同时利用学生模型，即resnet+lstm网络，预测并获取真实数据在t~t+p时刻的行人框信息。

11、进一步的，所述通过风格转换器，将合成数据的rgb帧在各种条件下的视觉特征转化为对应的真实rgb图，包括：

12、通过裁剪行人边界框周围的矩形区域并缩放，以消除全局图像中的无关背景噪声；

13、经处理的rgb帧通过应用自适应实例规范化adain方法生成风格迁移图像集合，随后，这些图像通过输入时空主干网络backbone模型进行编码，以预测行人的穿越意图。

14、进一步的，所述将合成深度图、合成语义分割图与真实rgb图进行整合，得到共享特征嵌入，包括：

15、通过裁剪行人边界框周围的矩形区域并缩放；

16、对于行人框周边的矩形区域，将输入数据通过同骨干网络进行编码，利用disa网络执行双向近似，以识别共享特征分布。

17、进一步的，将行人框数据特征、风格转换特征以及共享特征整合进可学习的门控单元进行融合，具体包括：

18、将行人框数据特征、风格转换特征以及共享特征进行堆叠操作获得输入向量f；

19、将输入向量f通过线性层和归一化层获得特征融合的门控权重w；

20、利用向量f和w的加权求和实现门控操作的向量融合。

21、进一步的，预测行人穿越意图信号，包括：

22、将门控融合向量通过线性层和gumbel-softmax函数获得行人穿越意图概率得分。

23、第二方面，本专利技术提供一种虚实多模态知识迁移的行人穿越预测系统，包括：

24、行人框数据特征获取模块，用于通过利用合成数据中的行人框对知识提取器中的教师模型进行预训练，得到获取未来p时刻的行人框数据特征；

25、风格转换模块，用于通过风格转换器，将合成数据的rgb帧在各种条件下的视觉特征转化为对应的真实rgb图；

26、共享特征获取模块，用于将合成深度图、合成语义分割图与真实rgb图进行整合，得到共享特征嵌入；

27、预测输出模块，用于将行人框数据特征、风格转换特征以及共享特征整合进可学习的门控单元进行融合，预测行人穿越意图信号。

28、进一步的，所述通过利用合成数据中的行人框对知识提取器中的教师模型进行预训练，得到获取未来p时刻的行人框数据特征，包括：

29、采用合成数据集，将行人的0至t时刻的边界框作为输入提供给教师模型transformer网络，以此获取合成数据在t至t+p时刻的行人框信息，完成预训练阶段并固定模型参数；

30、采用教师模型对真实数据中的行人框进行指导，同时利用学生模型，即resnet+lstm网络，预测并获取真实数据在t~t+p时刻的行人框信息。

31、第三方面，本专利技术提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述一种虚实多模态知识迁移的行人穿越预测方法的步骤。

32、第四方面，本专利技术提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述一种虚实多模态知识迁移的行人穿越预测方法的步骤。

33、与现有技术相比，本专利技术有以下技术效果：

34、本专利技术提出了一种虚实多模态知识迁移的行人穿越预测方法，通过整合风格迁移、分布逼近与知识蒸馏等先进技术，实现了对不同类别间跨域知识的有效迁移，显著提升了行人过马路预测的准确性。

35、通过利用合成数据中的行人框对教师模型（transformer网络）进行预训练，教师模型能够学习到行人运动的规律和模式。这有助于在后续步骤中有效指导学生模型（resnet+lstm网络）进行行人框的预测。

36、预训练过程提高了模型的泛化能力，使其在面对真实数据时能够更快地适应和准确预测。

37、教师模型对真实数据中的行人框进行指导，通过知识蒸馏的方式，将学生模型的预测结果向教师模型的预测结果靠拢，知识蒸馏能够充分利用教师模型学到的知识，提升学生模型的预测性能，同时保持学生模型的轻量级和高效性。

38、通过风格转换器，将合成数据的rgb帧在各种条件下的视觉特征转化为对应的真实rgb帧。这一步骤有效缩小了合成数据与真实数据之间的域差距，提高了模型的泛化能力。

39、应用adain（自适应实例规范化）方法生成风格迁移图像集合，这些图像通过输入时空backbone模型进行编码，以预测行人的穿越意图。adain方法能够快速、有效地实现风格迁移，同时保持图像内容不变，为后续的意图预测提供了更真实、更丰富的视觉特征。

40、通过分布逼近器整合合成深度图、合成语义分割图与真实rgb图，以获取共享特征嵌入。这一步骤实现了多模态信息的有效融合，通过本文档来自技高网...

【技术保护点】

1.一种虚实多模态知识迁移的行人穿越预测方法，其特征在于，包括：

2.根据权利要求1所述的一种虚实多模态知识迁移的行人穿越预测方法，其特征在于，所述通过利用合成数据中的行人框对知识提取器中的教师模型进行预训练，得到获取未来p时刻的行人框数据特征，包括：

3.根据权利要求1所述的一种虚实多模态知识迁移的行人穿越预测方法，其特征在于，所述通过风格转换器，将合成数据的RGB帧在各种条件下的视觉特征转化为对应的真实RGB图，包括：

4.根据权利要求1所述的一种虚实多模态知识迁移的行人穿越预测方法，其特征在于，所述将合成深度图、合成语义分割图与真实RGB图进行整合，得到共享特征嵌入，包括：

5.根据权利要求1所述的一种虚实多模态知识迁移的行人穿越预测方法，其特征在于，将行人框数据特征、风格转换特征以及共享特征整合进可学习的门控单元进行融合，具体包括：

6.根据权利要求1所述的一种虚实多模态知识迁移的行人穿越预测方法，其特征在于，预测行人穿越意图信号，包括：

7.一种虚实多模态知识迁移的行人穿越预测系统，其特征在于，包括：

8.根据权利要求7所述的一种虚实多模态知识迁移的行人穿越预测系统，其特征在于，所述通过利用合成数据中的行人框对知识提取器中的教师模型进行预训练，得到获取未来p时刻的行人框数据特征，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述一种虚实多模态知识迁移的行人穿越预测方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种虚实多模态知识迁移的行人穿越预测方法的步骤。

...

【技术特征摘要】

1.一种虚实多模态知识迁移的行人穿越预测方法，其特征在于，包括：

3.根据权利要求1所述的一种虚实多模态知识迁移的行人穿越预测方法，其特征在于，所述通过风格转换器，将合成数据的rgb帧在各种条件下的视觉特征转化为对应的真实rgb图，包括：

4.根据权利要求1所述的一种虚实多模态知识迁移的行人穿越预测方法，其特征在于，所述将合成深度图、合成语义分割图与真实rgb图进行整合，得到共享特征嵌入，包括：

6...

【专利技术属性】
技术研发人员：房建武，李磊磊，张旭，赵麒皓，薛建儒，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人