一种驾驶状态图像数据集的增广方法、增广装置制造方法及图纸

技术编号：39009102 阅读：10 留言：0更新日期：2023-10-07 10:40

本发明专利技术涉及机器视觉技术领域，提供了一种驾驶状态图像数据集的增广方法、增广装置，所述方法包括：采用图像编辑算法生成保持人脸图像的特征且表情符合关键词描述的面部图像，以及生成包含驾驶员且衣着符合目标服饰的短语描述的第一合成驾驶状态图像；将面部图像的面部更换到第一合成驾驶状态图像的面部上，以生成驾驶员状态图像前景；将驾驶员状态图像前景粘贴到车内背景图像上，以生成第二合成驾驶状态图像；根据第二合成驾驶状态图像对驾驶状态图像数据集进行增广。本发明专利技术能够生成真实性、多样性均较好的驾驶员驾驶状态图像，从而实现驾驶状态图像数据集的有效增广，且由于采用分步对图像的不同部分做增广的总体构思，能够降低数据增广的难度。低数据增广的难度。低数据增广的难度。

全部详细技术资料下载

【技术实现步骤摘要】
一种驾驶状态图像数据集的增广方法、增广装置

[0001]本专利技术涉及机器视觉
，具体涉及一种驾驶状态图像数据集的增广方法、一种驾驶状态图像数据集的增广装置和一种非临时性计算机可读存储介质。

技术介绍

[0002]随着智能驾驶功能的发展，越来越多的技术应用到智能驾驶功能上，例如，驾驶过程中驾驶员驾驶状态的监督功能，以在驾驶员出现错误驾驶行为时对驾驶员进行提醒，例如，驾驶员手持手机打电话、侧头与乘客交谈等。驾驶过程中驾驶员驾驶状态的监督功能一般通过训练后的机器学习网络实现。可以知道，机器学习网络在训练时需要采集大量的相应的真实图像形成数据集。
[0003]目前，驾驶员驾驶状态图像数据集通常在驾驶员动作这一维度上多样性较为丰富，而由于参与数据采集的被试者和被试车辆有限，在其他维度(如驾驶员外貌、衣着、车内背景等)上多样性有限，为提高机器学习网络的准确性，需要对驾驶员驾驶状态图像数据集进行增广。
[0004]相关技术中，对驾驶员驾驶状态图像数据集做增广的方法大体包括以下三种思路：图像变换、生成式数据增广以及基于3D(三维)渲染的数据增广。
[0005]其中，图像变换或多种图像变换的组合主要包括：几何变换(旋转、翻转、仿射变换、透视变换、裁剪、填充等)和颜色变换(调节亮度、对比度、饱和度、色调、锐度等，以及加噪、模糊)。然而，由于驾驶员驾驶状态图像内容较为复杂，涉及驾驶员姿态、表情、车内背景等多个关键部分，图像变换无法真正生成数据集中原本没有的样本，也不能使数据集的多样性有效增加。
[0...

【技术保护点】

【技术特征摘要】
1.一种驾驶状态图像数据集的增广方法，其特征在于，包括以下步骤：获取中性表情的人脸图像，并获取描述特定表情的关键词，以及采用预训练的第一语言
‑
视觉模型的图像编辑算法生成保持所述人脸图像的特征且表情符合所述关键词的描述的面部图像；从待增广的驾驶状态图像数据集中获取同一驾驶员的多张实际驾驶状态图像，并获取描述目标服饰的短语，以及采用预训练的第二语言
‑
视觉模型的图像编辑算法生成包含该驾驶员且衣着符合所述短语的描述的第一合成驾驶状态图像；将所述面部图像的面部区域更换到所述第一合成驾驶状态图像的面部区域上，以生成驾驶员状态图像前景；获取车内背景图像，将所述驾驶员状态图像前景粘贴到所述车内背景图像上，以生成第二合成驾驶状态图像；根据所述第二合成驾驶状态图像对所述待增广的驾驶状态图像数据集进行增广。2.根据权利要求1所述的驾驶状态图像数据集的增广方法，其特征在于，在生成所述第二合成驾驶状态图像之后，还包括：对所述第二合成驾驶状态图像进行和谐化处理，以便根据和谐化后的第二合成驾驶状态图像对所述待增广的驾驶状态图像数据集进行增广。3.根据权利要求2所述的驾驶状态图像数据集的增广方法，其特征在于，对所述第二合成驾驶状态图像进行和谐化处理，具体包括：根据所述第二合成驾驶状态图像的背景区域中图像像素间的梯度信息对前景区域中的像素进行编辑修改，和/或，采用深度学习网络自动对所述第二合成驾驶状态图像在光照、对比度以及语义上的和谐度进行调整。4.根据权利要求1所述的驾驶状态图像数据集的增广方法，其特征在于，采用预训练的第一语言
‑
视觉模型的图像编辑算法生成保持所述人脸图像的特征且表情符合所述关键词的描述的面部图像，具体包括：根据所述关键词的监督在生成式模型内部解耦良好的隐特征空间上学得符合所述关键词描述的修改特征向量；利用在生成式模型，在对应隐特征向量上叠加所述修改特征向量，生成保持所述人脸图像的特征且表情符合所述关键词描述的面部图像。5.根据权利要求1所述的驾驶状态图像数据集的增广方法，其特征在于，采用预训练的第二语言
‑
视觉模型的图像编辑算法生成包含该驾驶员且衣着符合所述短语的描述的第一合成驾驶状态图像，具体包括：根据多张实际驾驶状态图像微调预训练的第二语言
‑
视觉模型，使所述预训练的第二语言
‑
视觉模型在给定特殊占位词时能够生成实际驾驶状态图像中所包含的驾驶员的图像；将所述描述服饰的短语与所述占位词拼接组成短句，并依据所述短句生成包含所述驾驶员且衣着符合所述目标服饰的短语描述的第一合成驾驶状态图像。6.根据权利要求1所述的驾驶状态图像数据集的增广方法，其特征在于，具体采用以下步骤生成所述第二合成驾驶状态图像：
选取关键点并分别标注在驾驶员状态图像前景和车内背景图像中；将去掉背景的驾驶员状态图像前景根据所述关键点做透视变换后，粘贴到所述车内背景图像上；将粘贴后的图像进行裁剪，生成所述第二合成驾驶状态图像。7.一种驾驶状态图像数据集的增广装置，其特征在于，包括：第一生成模块，所述第一生成模块用于获取中性表情的人脸图像，并获取描述特定表情的关键词，以及...

【专利技术属性】
技术研发人员：邹捷，牛力，段宇轩，洪燕，马千里，王云龙，邹永宁，
申请(专利权)人：南通嘉骏信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人