一种逆残差跨模态的自动驾驶场景感知数据集构建方法技术

技术编号:45869864 阅读:13 留言:0更新日期:2025-07-19 11:26
本发明专利技术公开了一种逆残差跨模态的自动驾驶场景感知数据集构建方法。其实现步骤是:首先,对文本编码器进行预处理;其次,将预处理的特征图升维并分成三组,确保图像生成过程中特征的有效保留;然后,引入自适应卷积核,捕获不同分辨率的特征,引入交叉注意力机制,增强特征交互,对每个卷积核得到的映射特征进行通道混洗;接着,将得到的特征进行融合拼接,在点向卷积中通道扩展;最后,形成逆残差跨模态的文本生成图像模型,评估模型性能和图像质量。本发明专利技术可有效保留特征信息,增强了图像生成的多样性,能够提供丰富的测试环境。经实验验证,该方法可有效构建自动驾驶感知数据集,与原始模型ATTNGAN相比,本发明专利技术的方法分别在IS和FID上提高了11.9%和17.9%。

【技术实现步骤摘要】

本专利技术涉及计算机视觉和图像处理领域,具体涉及一种逆残差跨模态的自动驾驶场景感知数据集的生成。


技术介绍

1、自动驾驶技术作为人工智能、物联网与高性能计算等前沿科技,正日益成为全球战略竞争中的焦点与热点。自动驾驶场景感知数据集构建对于自动驾驶技术的测试至关重要,它是虚拟仿真测试的前提,而申请号为“cn202011095861.4”的文件中公开了“一种道路场景的生成方法以及相关装置”,自动驾驶感知数据集的构建依赖于目标道路的对应点云数据,通过对该点云提取关键特征并进行聚类,以生成目标道路场景。该技术通过克服传统点云数据采集过程中受环境因素限制的问题,展现了在自动驾驶感知测试中的实际应用潜力,但点云数据的获取受天气、光照等环境因素影响较大,且需要从大量点云数据中提取关键特征并进行聚类、空间建立等复杂操作,而文本生成图像技术能以其较低的成本和较高的适应性和灵活性有效规避这些限制,可以根据需求生成特定场景,模拟危险场景。

2、近年来,基于gan网络的文本生成图像技术已在多个领域展现出巨大潜力,因此也被引入自动驾驶场景图像的生成中,如controlga本文档来自技高网...

【技术保护点】

1.一种逆残差跨模态的自动驾驶场景感知数据集构建方法,其特征包括以下步骤:

2.根据权利要求1所述的一种逆残差跨模态的自动驾驶场景感知数据集构建方法,其特征在于:所述步骤二中,构建逆残差结构,将其作为文本到图像的逆残差跨模态模型的组件之一对图像信息进行扩增,具体操作过程如下:

3.根据权利要求2所述的一种逆残差跨模态的自动驾驶场景感知数据集构建方法,其特征在于:所述步骤三中,将输入的三组通道中分别引入自适应卷积核,具体操作过程如下:

4.根据权利要求3所述的一种逆残差跨模态的自动驾驶场景感知数据集构建方法,其特征在于:所述步骤四中,对特征进行融合拼接,...

【技术特征摘要】

1.一种逆残差跨模态的自动驾驶场景感知数据集构建方法,其特征包括以下步骤:

2.根据权利要求1所述的一种逆残差跨模态的自动驾驶场景感知数据集构建方法,其特征在于:所述步骤二中,构建逆残差结构,将其作为文本到图像的逆残差跨模态模型的组件之一对图像信息进行扩增,具体操作过程如下:

3.根据权利要...

【专利技术属性】
技术研发人员:邸若海王佳蕊王鹏贺楚超李亮亮李晓艳王冠群吴昊文王浩洪伟
申请(专利权)人:西安工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1