一种生成标注数据的方法、装置、设备及存储介质制造方法及图纸

技术编号:31746243 阅读:13 留言:0更新日期:2022-01-05 16:25
本申请提出一种生成标注数据的方法、装置、设备及存储介质,该方法包括:从音视频数据中提取得到语音数据,以及包含与所述语音数据对应的文本内容的图像;对所述语音数据进行识别得到语音文本数据,以及从所述图像中识别得到图像文本数据;利用所述语音文本数据和所述图像文本数据对所述语音数据进行标注,得到标注数据。上述方法能够自动生成标注数据,将该方法应用于语音识别模型训练,能够显著降低生成标注数据的人力成本和时间成本,并且能够显著提高生成标注数据的效率。著提高生成标注数据的效率。著提高生成标注数据的效率。

【技术实现步骤摘要】
一种生成标注数据的方法、装置、设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种生成标注数据的方法、装置、设备及存储介质。

技术介绍

[0002]随着人工智能技术的不断发展,语音识别技术在各种工业应用中获得了极大的普及。但是,建立一个高质量的语音识别系统通常需要大量的标注数据对语音识别模型进行训练,其中,标注数据由语音数据,以及与语音数据对应的文本数据组成。
[0003]通常情况下,标注数据需要由人工对语音数据进行文本标注得到。但是,由人工对语音数据进行文本标注会花费大量的人力成本和时间成本。如何快速且低成本地获取大量标注数据是目前众多研究人员正在不断探索和尝试的关键技术点。

技术实现思路

[0004]基于上述技术现状,本申请提出一种生成标注数据的方法、装置、设备及存储介质,能够自动地生成标注数据,从而降低生成标注数据的人力成本和时间成本。
[0005]为了实现上述目的,本申请具体提出如下技术方案:
[0006]一种生成标注数据的方法,包括:
[0007]从音视频数据中提取得到语音数据,以及包含与所述语音数据对应的文本内容的图像;
[0008]对所述语音数据进行识别得到语音文本数据,以及从所述图像中识别得到图像文本数据;
[0009]利用所述语音文本数据和所述图像文本数据对所述语音数据进行标注,得到标注数据。
[0010]可选的,所述利用所述语音文本数据和所述图像文本数据对所述语音数据进行标注,得到标注数据,包括:
[0011]分别确定与每一图像文本数据单元对应的语音数据单元;
[0012]根据该语音数据单元对应的语音文本数据,以及所述图像文本数据单元,对所述语音数据单元进行标注,得到标注数据。
[0013]可选的,根据该语音数据单元对应的语音文本数据,以及所述图像文本数据单元,对所述语音数据单元进行标注,得到标注数据,包括:
[0014]通过将该语音数据单元对应的语音文本数据与所述图像文本数据单元进行对比,确定与该语音数据单元对应的标注文本;
[0015]利用所述标注文本对该语音数据单元进行标注,得到标注数据。
[0016]可选的,所述通过将该语音数据单元对应的语音文本数据与所述图像文本数据单元进行对比,确定与该语音数据单元对应的标注文本,包括:
[0017]对该语音数据单元对应的语音文本数据以及所述图像文本数据单元,进行逐字对
齐;
[0018]将该语音数据单元对应的语音文本数据以及所述图像文本数据单元中的对应字符进行对比,确定匹配的字符对以及不匹配的字符对;
[0019]对于每一对不匹配的字符对,通过进行字音比对,从该不匹配的字符对中选出正确字符,和/或,通过进行字形比对,从该不匹配的字符对中选出正确字符;
[0020]将对应每一对匹配的字符对的字符,以及对应每一对不匹配的字符对选出的正确字符进行组合,得到与该语音数据单元对应的标注文本。
[0021]可选的,对于不匹配的字符对,通过进行字音比对,从该不匹配的字符对中选出正确字符,包括:
[0022]对于不匹配的字符对,通过进行字音比对,确定字符间的发音相似度;
[0023]当字符间的发音相似度高于设定的发音相似度阈值时,将该不匹配的字符对中的来自图像文本数据单元的字符,确定为正确字符。
[0024]可选的,对于不匹配的字符对,通过进行字形比对,从该不匹配的字符对中选出正确字符,包括:
[0025]对于不匹配的字符对,通过进行字形比对,确定字符间的字形相似度;
[0026]当字符间的字形相似度高于设定的字形相似度阈值时,将该不匹配的字符对中的来自该语音数据单元对应的语音文本数据的字符,确定为正确字符。
[0027]可选的,在将对应每一对匹配的字符对的字符,以及对应每一对不匹配的字符对选出的正确字符进行组合之后,所述方法还包括:
[0028]利用预先训练的语言模型判断组合得到的文本的语义得分是否高于设定得分阈值;
[0029]如果高于设定得分阈值,则将组合得到的文本作为与该语音数据单元对应的标注文本。
[0030]可选的,所述分别确定与每一图像文本数据单元对应的语音数据单元,包括:
[0031]通过将图像文本数据单元与所述语音文本数据进行字符比对,从所述语音文本数据中确定出与该图像文本数据单元匹配的语音文本数据段;
[0032]将所述语音文本数据段对应的语音数据段,确定与所该图像文本数据单元对应的语音数据单元。
[0033]可选的,从所述图像中识别得到图像文本数据,包括:
[0034]从所述图像中截取字幕所在的图像区域;
[0035]对所述字幕所在的图像区域进行光学字符识别处理,得到图像文本数据。
[0036]一种生成标注数据的装置,包括:
[0037]数据获取单元,用于从音视频数据中提取得到语音数据,以及包含与所述语音数据对应的文本内容的图像;
[0038]数据处理单元,用于对所述语音数据进行识别得到语音文本数据,以及从所述图像中识别得到图像文本数据;
[0039]数据生成单元,用于利用所述语音文本数据和所述图像文本数据对所述语音数据进行标注,得到标注数据。
[0040]一种生成标注数据的设备,包括:
[0041]存储器和处理器;
[0042]其中,所述存储器与所述处理器连接,用于存储程序;
[0043]所述处理器,用于通过运行所述存储器中的程序,实现上述的生成标注数据的方法。
[0044]一种存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器运行时,实现上述的生成标注数据的方法。
[0045]本申请提出的生成标注数据的方法,能够自动地从音视频数据中提取得到语音数据,以及包含与该语音数据对应的文本内容的图像,然后,对该语音数据进行识别得到语音文本数据,以及从该图像中识别得到图像文本数据,最后,利用该语音文本数据和图像文本数据,对上述的语音数据进行标注,得到标注数据。上述方法能够自动生成标注数据,将该方法应用于语音识别模型训练,能够显著降低生成标注数据的人力成本和时间成本,并且能够显著提高生成标注数据的效率。
附图说明
[0046]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0047]图1是本申请实施例提供的一种生成标注数据的方法的流程示意图;
[0048]图2是本申请实施例提供的另一种生成标注数据的方法的流程示意图;
[0049]图3是本申请实施例提供的一种生成标注数据的装置的结构示意图;
[0050]图4是本申请实施例提供的一种生成标注数据的设备的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成标注数据的方法,其特征在于,包括:从音视频数据中提取得到语音数据,以及包含与所述语音数据对应的文本内容的图像;对所述语音数据进行识别得到语音文本数据,以及从所述图像中识别得到图像文本数据;利用所述语音文本数据和所述图像文本数据对所述语音数据进行标注,得到标注数据。2.根据权利要求1所述的方法,其特征在于,所述利用所述语音文本数据和所述图像文本数据对所述语音数据进行标注,得到标注数据,包括:分别确定与每一图像文本数据单元对应的语音数据单元;根据该语音数据单元对应的语音文本数据,以及所述图像文本数据单元,对所述语音数据单元进行标注,得到标注数据。3.根据权利要求2所述的方法,其特征在于,根据该语音数据单元对应的语音文本数据,以及所述图像文本数据单元,对所述语音数据单元进行标注,得到标注数据,包括:通过将该语音数据单元对应的语音文本数据与所述图像文本数据单元进行对比,确定与该语音数据单元对应的标注文本;利用所述标注文本对该语音数据单元进行标注,得到标注数据。4.根据权利要求3所述的方法,其特征在于,所述通过将该语音数据单元对应的语音文本数据与所述图像文本数据单元进行对比,确定与该语音数据单元对应的标注文本,包括:对该语音数据单元对应的语音文本数据以及所述图像文本数据单元,进行逐字对齐;将该语音数据单元对应的语音文本数据以及所述图像文本数据单元中的对应字符进行对比,确定匹配的字符对以及不匹配的字符对;对于每一对不匹配的字符对,通过进行字音比对,从该不匹配的字符对中选出正确字符,和/或,通过进行字形比对,从该不匹配的字符对中选出正确字符;将对应每一对匹配的字符对的字符,以及对应每一对不匹配的字符对选出的正确字符进行组合,得到与该语音数据单元对应的标注文本。5.根据权利要求4所述的方法,其特征在于,对于不匹配的字符对,通过进行字音比对,从该不匹配的字符对中选出正确字符,包括:对于不匹配的字符对,通过进行字音比对,确定字符间的发音相似度;当字符间的发音相似度高于设定的发音相似度阈值时,将该不匹配的字符对中的来自图像文本数据单元的字符,确定为正确字符。6.根据权利要求4所述...

【专利技术属性】
技术研发人员:汪华灿万根顺高建清刘聪王智国胡国平
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1