一种多人多模态感知数据自动标记和互相学习方法技术

技术编号：27032005 阅读：15 留言：0更新日期：2021-01-12 11:15

一种多人多模态感知数据自动标记和互相学习方法，包括：步骤1，对数据进行时钟对齐，去噪等预处理；步骤2，融合各个模态模型结果对数据流进行切分；步骤3，当场景中包含有多人信息时，同时利用人的静止状态和运动状态两种信息来进行数据实体对齐；步骤4，利用我们设计的一种对多模态数据预测融合机制对数据段进行自动标记；步骤5，利用自动标记的数据提升各个模态的理解模型的能力。这里为了保证更新后模型的能力，我们评估了自动标记数据的质量，即只选择质量高的数据去更新模型。该方法利用多模态数据内在的关联，可以实现多模态数据的自动切分，标注，得到有标记的数据段，并进一步提升模型能力，有助于推动数据理解相关研究。

全部详细技术资料下载

【技术实现步骤摘要】
一种多人多模态感知数据自动标记和互相学习方法
本专利技术涉及跨域感知领域，尤其涉及一种多人多模态感知数据自动标记和互相学习方法。
技术介绍
感知设备(如智能手机，可穿戴设备，摄像头，和无线接入点等)的广泛应用和感知数据的快速增长，使得智能感知成为热门的研究课题。近年来，有相当多的利用机器学习技术去理解各种模态数据(如视频，音频，运动传感器数据，和无线数据)的研究。但这些研究大部分都是针对单个模态数据。单模态数据只能获得当前场景部分的信息，这可能会导致感知精度不高。同时现有模型大都需要有标记的训练数据去训练，标记数据本身是一件费时费力的事情，并且训练出的模型也只能识别训练数据中有的类别。
技术实现思路
基于现有技术所存在的问题，并考虑到实际场景中我们往往能够采集到多种模态数据。本专利技术的目的是提供一种多模态感知数据自动标记和互相学习方法，能够对感知数据流进行自动切分，对齐，标记，进而互相学习，实现更高精度的感知，解决人工标记数据难，单个模态数据感知能力有限的问题。本专利技术的目的是通过以下技术方案实现的：本专利技术实施方式提供一种多人多模态感知数据自动标记和互相学习方法，具体包括视频，音频，运动传感器数据(采集与智能手机和智能手表)和无线信号数据4种模态，流程如下：步骤1，数据预处理：包括时钟对齐，去噪。特别地，对视频数据流，要先用骨架提取模型提取出视频中的人体骨架时序数据；步骤2，基于多模态的数据流切分：将数据流按照动作切分，每一段数据包含一个动作(如拍球，蹲起)...

【技术保护点】
1.一种多人多模态感知数据自动标记和互相学习方法，其特征在于，该包括：/n步骤1，数据预处理：包括时钟对齐，去噪、对视频数据流，要先用骨架提取模型提取出视频中的人体骨架时序数据；/n步骤2，基于多模态的数据流切分：将数据流按照动作切分，每一段数据包含一个动作，这里我们主要利用各个模态已有标签的历史数据和多模态数据的理解模型的预测结果来对数据流进行切分；/n步骤3，数据实体对齐：当场景中包含有多人信息时，需要按照数据实体将多模态数据对应起来，这里我们同时利用人的静止状态和运动状态两种信息来进行对齐；/n步骤4，预测融合和自动标记：我们设计了一种对多模态数据预测融合机制，并利用融合结果对数据段进行自动标记，特别地，自动标记的标签是带有置信度的，置信度越高标签可信度越高，实际应用中可设定合适的阈值；/n步骤5，多模态数据互相学习：自动标记的数据可以帮助提升各个模态的理解模型的能力，包括模型精度和模型可识别类别数，为了保证更新后模型的能力，我们评估了自动标记数据的质量，即只选择质量高的数据去更新模型。/n

【技术特征摘要】
1.一种多人多模态感知数据自动标记和互相学习方法，其特征在于，该包括：
步骤1，数据预处理：包括时钟对齐，去噪、对视频数据流，要先用骨架提取模型提取出视频中的人体骨架时序数据；
步骤2，基于多模态的数据流切分：将数据流按照动作切分，每一段数据包含一个动作，这里我们主要利用各个模态已有标签的历史数据和多模态数据的理解模型的预测结果来对数据流进行切分；
步骤3，数据实体对齐：当场景中包含有多人信息时，需要按照数据实体将多模态数据对应起来，这里我们同时利用人的静止状态和运动状态两种信息来进行对齐；
步骤4，预测融合和自动标记：我们设计了一种对多模态数据预测融合机制，并利用融合结果对数据段进行自动标记，特别地，自动标记的标签是带有置信度的，置信度越高标签可信度越高，实际应用中可设定合适的阈值；
步骤5，多模态数据互相学习：自动标记的数据可以帮助提升各个...

【专利技术属性】
技术研发人员：张兰，李向阳，郑达人，宋年卉，
申请(专利权)人：德清阿尔法创新研究院，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人