数据标注方法、存储介质和电子设备技术

技术编号：40552175 阅读：7 留言：0更新日期：2024-03-05 19:11

本发明专利技术公开了一种数据标注方法、存储介质和电子设备，数据标注方法包括：获取人脸视频数据及其对应的音频数据；对人脸视频数据和音频数据进行唇音一致性检测，得到人脸视频数据相对音频数据的偏帧量和人脸视频数据的置信度：若偏帧量和所述置信度满足预设条件，则确定音频数据与人脸视频数据匹配，并将音频数据对应的文本标签作为人脸视频数据、音频数据的标注信息。通过上述方法，可以快速且低成本的获得高质量的音频、带唇形人脸视频、文本标签的多模态数据，便于后续多模态语音识别模型的训练。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别，尤其涉及一种数据标注方法、存储介质和电子设备。

技术介绍

1、随着人工智能技术的不断发展，相关技术中提出了多模态学习，例如将看到的实物、听到的声音、闻到的气味等映射到深度学习中，以视频、音频、数字文本等信息的形式，进行相互融合，以更好的学习和表达数据特征。

2、在语音识别领域，多模态数据包括音频信息和唇形信息等，为此视听语音识别(avsr，audio-visual speech recognition)技术应运而生，该技术可以通过视觉信息辅助听觉任务，帮助人们更好地理解和识别语音。与单独的语音识别技术(asr，automatedspeech recognition)相比，avsr可以提高语音识别的准确性和鲁棒性。

3、目前，视听语音识别技术中，由于获取带标签的音视频数据需要花费大量的人力，因此主流的模型训练方式包括有半监督训练和无监督训练。这两种方式虽能够充分利用大量的无标注数据，提高模型对数据的表达能力，但训练成本高，还很难学习到与文本标签之间的映射关系，且在训练数据充足且丰富的场景下，该方式对模型性能的提升甚微。

技术实现思路

1、本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本专利技术的目的在于提出一种数据标注方法、存储介质和电子设备，以快速且低成本的获得高质量的音频、带唇形人脸视频、文本标签的多模态数据。

2、为达到上述目的，本专利技术第一方面实施例提出了一种数据标注方法，包括：获取人脸视频数据

3、根据本专利技术实施例的数据标注方法，首先获取人脸视频数据及其对应的音频数据，而后对人脸视频数据和音频数据进行唇音一致性检测，得到人脸视频数据相对音频数据的偏帧量和人脸视频数据的置信度，若偏帧量和置信度满足预设条件，则将音频数据及其对应的文本标签作为人脸视频数据、音频数据的标注信息。由此，通过唇音一致性模型对音视频的时延和一致性进行检测，可实现快速且低成本的获得高质量的音频、带唇形人脸视频、文本标签的多模态数据，便于后续多模态语音识别模型的训练。

4、另外，本专利技术实施例的数据标注方法还可以具有如下附加的技术特征：

5、根据本专利技术的一个实施例，所述获取人脸视频数据及其对应的音频数据，包括：对目标音视频数据进行提取和剪切处理，得到多个音频片段和多个视频片段，其中，多个所述音频片段与多个所述视频片段一一对应；分别对各所述视频片段进行人脸检测，得到对应的人脸视频数据；根据所述人脸视频数据及其对应的音频片段，得到对应的音频数据。

6、根据本专利技术的一个实施例，所述对目标音视频数据进行提取和剪切处理，得到多个音频片段和多个视频片段，包括：确定用于对所述目标音视频数据进行分段的时间戳，并根据所述时间戳从所述目标音视频数据中剪切出多个音视频片段；分别从各所述音视频片段中提取出音频片段和视频片段，得到多个所述音频片段和多个所述视频片段。

7、根据本专利技术的一个实施例，对所述视频片段进行人脸检测，得到对应的人脸视频数据，包括：对所述视频片段进行人脸关键点定位，得到各人脸的定位结果；根据所述定位结果确定所述视频片段中的人脸数量；若所述人脸数量为0，则将所述视频片段丢弃；若所述人脸数量为一个或多个，则针对每个人脸，根据该人脸的定位结果对所述视频片段进行人脸提取，得到对应的人脸视频数据。

8、根据本专利技术的一个实施例，人脸的定位结果包括人脸唇部的定位信息和人脸轮廓的定位信息，根据人脸的定位结果对所述视频片段进行人脸提取，包括：根据所述人脸唇部的定位信息确定中心点，并根据所述人脸轮廓的定位信息确定边长；基于所述中心点和所述边长对所述视频片段进行人脸提取。

9、根据本专利技术的一个实施例，所述对所述人脸视频数据和所述音频数据进行唇音一致性检测，得到偏帧量和置信度，包括：分别对所述人脸视频数据和所述音频数据进行特征提取，得到唇形特征序列和音频特征序列；采用滑动窗口的方式逐个计算所述唇形特征序列和所述音频特征序列之间的距离；将最小距离对应的窗口偏移量作为所述偏帧量，并将所有距离的中值与所述最小距离之间的差值作为所述置信度。

10、根据本专利技术的一个实施例，所述预设条件包括所述偏帧量小于预设数量个视频帧，所述置信度大于预设置信度阈值。

11、根据本专利技术的一个实施例，若一个所述音频数据对应多个所述人脸视频数据，则所述将所述音频数据对应的文本标签作为所述人脸视频数据、音频数据的标注信息，包括：将最大置信度对应的人脸视频数据作为目标人脸视频；将所述音频数据对应的文本标签作为所述目标人脸视频数据、音频数据的标注信息。

12、为达到上述目的，本专利技术第二方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述第一方面实施例所述的数据标注方法。

13、为达到上述目的，本专利技术第三方面实施例提出了一种电子设备，包括存储器、处理器和存储在所述存储器上的计算机程序，所述计算机程序被所述处理器执行时，实现上述第一方面实施例所述的数据标注方法。

14、本专利技术附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本专利技术的实践了解到。

本文档来自技高网...

【技术保护点】

1.一种数据标注方法，其特征在于，包括：

2.根据权利要求1所述的数据标注方法，其特征在于，所述获取人脸视频数据及其对应的音频数据，包括：

3.根据权利要求2所述的数据标注方法，其特征在于，所述对目标音视频数据进行提取和剪切处理，得到多个音频片段和多个视频片段，包括：

4.根据权利要求2所述的数据标注方法，其特征在于，对所述视频片段进行人脸检测，得到对应的人脸视频数据，包括：

5.根据权利要求4所述的数据标注方法，其特征在于，人脸的定位结果包括人脸唇部的定位信息和人脸轮廓的定位信息，根据人脸的定位结果对所述视频片段进行人脸提取，包括：

6.根据权利要求1所述的数据标注方法，其特征在于，所述对所述人脸视频数据和所述音频数据进行唇音一致性检测，得到偏帧量和置信度，包括：

7.根据权利要求1所述的数据标注方法，其特征在于，所述预设条件包括所述偏帧量小于预设数量个视频帧，所述置信度大于预设置信度阈值。

8.根据权利要求4所述的数据标注方法，其特征在于，若一个所述音频数据对应多个所述人脸视频数据，则所述将所

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现根据权利要求1-8中任一项所述的数据标注方法。

10.一种电子设备，包括存储器、处理器和存储在所述存储器上的计算机程序，其特征在于，所述计算机程序被所述处理器执行时，实现根据权利要求1-8中任一项所述的数据标注方法。

...

【技术特征摘要】

1.一种数据标注方法，其特征在于，包括：

2.根据权利要求1所述的数据标注方法，其特征在于，所述获取人脸视频数据及其对应的音频数据，包括：

3.根据权利要求2所述的数据标注方法，其特征在于，所述对目标音视频数据进行提取和剪切处理，得到多个音频片段和多个视频片段，包括：

4.根据权利要求2所述的数据标注方法，其特征在于，对所述视频片段进行人脸检测，得到对应的人脸视频数据，包括：

6.根据权利要求1所述的数据标注方法，其特征在于，所述对所述人脸视频数据和所述音频数据进行唇音一致性...

【专利技术属性】
技术研发人员：李文华，万根顺，熊世富，高建清，潘嘉，付中华，
申请(专利权)人：西安讯飞超脑信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人