一种语音标注数据生成方法及装置、语音识别系统制造方法及图纸

技术编号:30042792 阅读:33 留言:0更新日期:2021-09-15 10:42
本发明专利技术提供了一种语音标注数据生成方法及装置、语音识别系统,其中,所述语音标注数据生成方法包括:按预设间隔对目标视频进行抽帧,得到多个目标帧;识别每个目标帧的文本信息、开始时间以及结束时间;顺次计算当前目标帧的文本信息与相邻上一目标帧的文本信息的文本相似度;根据文本相似度确定每个文本信息的开始时间以及结束时间;按照每个文本信息的开始时间及结束时间,分别在目标视频中截取相应的音频片段,并将音频片段与对应文本信息相匹配,生成语音标注数据。减少了人工标注的工作量,提高了语音标注数据生成效率。提高了语音标注数据生成效率。提高了语音标注数据生成效率。

【技术实现步骤摘要】
一种语音标注数据生成方法及装置、语音识别系统


[0001]本专利技术涉及语音识别领域,尤其涉及一种语音标注数据生成方法及装置、语音识别系统。

技术介绍

[0002]近年来,深度学习逐渐成为人工智能领域的研究热点和主流发展方向,作为人工智能领域的一个重要分支,语音识别逐步成为国内外重要的研究方向,使用深度学习技术应用到语音识别领域更是时下的研究热点。作为人工智能和深度学习应用的一个重要方向,语音识别成为一个具有广阔前景的新兴高技术产业。
[0003]但是目前能在工业领域落地的语音识别模型都需要庞大的,高标注质量的语音数据进行训练,海量的标注数据依靠的是庞大的人工标注团队。标注工作量大,标注成本高已经成为一个需要迫切解决的问题。

技术实现思路

[0004]为解决上述问题,本专利技术实施例公开了一种语音标注数据生成方法及装置、语音识别系统,通过识别出每个文本信息的开始时间节点与结束时间节点,在视频中截取对应的音频片段,将音频片段与文本信息对应匹配得到语音标注数据,实现了语音标注数据的自动生成,且生成的语音标注数据准确度高。
[0005]为达到上述目的,一种语音标注数据生成方法,包括:按预设间隔对目标视频进行抽帧,得到多个目标帧;识别每个目标帧的文本信息、开始时间以及结束时间;顺次计算当前目标帧的文本信息与相邻上一目标帧的文本信息的文本相似度;当所述文本相似度大于预设相似度阈值时,将所述当前目标帧的结束时间作为所述上一目标帧的文本信息的结束时间;当所述文本相似度小于所述预设相似度阈值时,将所述当前目标帧的开始时间作为所述当前目标帧的文本信息的开始时间,并将所述上一目标帧的结束时间作为所述上一目标帧的文本信息的结束时间;按照每个文本信息的开始时间及结束时间,分别在所述目标视频中截取相应的音频片段,并将所述音频片段与对应文本信息相匹配,生成语音标注数据。
[0006]进一步可选的,所述按预设间隔对目标视频进行抽帧,得到多个目标帧,包括:按预设间隔对目标视频进行抽帧,得到初始帧;识别目标视频中的片头时间段以及片尾时间段;删除所述初始帧中片头时间段内的视频帧以及片尾时间段内的视频帧,得到正片时间段对应的所述目标帧。
[0007]进一步可选的,所述在所述目标视频中截取相应的音频片段,包括:将所述目标视频转换成目标音频;在所述目标音频中截取相应的音频片段。
[0008]进一步可选的,所述识别每个目标帧的文本信息、开始时间以及结束时间之后,包括:将所述每个目标帧的文本信息、开始时间以及结束时间记录在字典文件中。
[0009]进一步可选的,所述识别每个目标帧的文本信息包括:通过OCR文字识别方法提取
所述每个目标帧的文本信息。
[0010]另一方面,本专利技术还提供了一种语音标注数据生成装置,包括:抽帧模块,用于按预设间隔对目标视频进行抽帧,得到多个目标帧;识别模块,用于识别每个目标帧的文本信息、开始时间以及结束时间;文本相似度计算模块,用于顺次计算当前目标帧的文本信息与相邻上一目标帧的文本信息的文本相似度;文本信息时间确定模块,用于当所述文本相似度大于预设相似度阈值时,将所述当前目标帧的结束时间作为所述上一目标帧的文本信息的结束时间;当所述文本相似度小于所述预设相似度阈值时,将所述当前目标帧的开始时间作为所述当前目标帧的文本信息的开始时间,并将所述上一目标帧的结束时间作为所述上一目标帧的文本信息的结束时间;音频截取模块,用于按照每个文本信息的开始时间及结束时间,分别在所述目标视频中截取相应的音频片段,并将所述音频片段与对应文本信息相匹配,生成语音标注数据。
[0011]进一步可选的,所述抽帧模块包括:初始帧获取单元,用于按预设间隔对目标视频进行抽帧,得到初始帧;片头片尾识别单元,用于识别目标视频中的片头时间段以及片尾时间段;目标帧获取单元,用于删除所述初始帧中片头时间段内的视频帧以及片尾时间段内的视频帧,得到正片时间段对应的所述目标帧。
[0012]进一步可选的,所述音频截取模块包括:转换单元,用于将所述目标视频转换成目标音频;音频截取单元,用于在所述目标音频中截取相应的音频片段。
[0013]进一步可选的,该装置还包括:记录模块,用于将所述每个目标帧的文本信息、开始时间以及结束时间记录在字典文件中。
[0014]另一方面,本专利技术还提供了一种语音识别系统,包括利用上述的语音标注数据生成方法生成的语音标注数据的训练样本集。
[0015]上述技术方案有如下有益效果:识别视频中的文本信息,并使用文本相似度算法对文本信息进行阈值分割,阈值作为文本信息改变的依据,并根据文本信息的开始时间以及结束时间对目标视频进行对应音频截取,以获得音频片段与对应文本信息相匹配后的语音标注数据,在保证语音数据准确度的基础上减少了人工标注工作量,提高了语音标注数据生成的效率。
附图说明
[0016]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本专利技术实施例提供的一种语音标注数据生成方法流程图;
[0018]图2是本专利技术另一种实施例提供的语音标注数据生成方法流程图;
[0019]图3是本专利技术实施例提供的语音标注数据生成装置结构框图;
[0020]图4是本专利技术实施例提供的采用语音标注数据生成方法生成的语音的标注数据示意图。
[0021]附图标记:100

抽帧模块200

识别模块300

文本相似度计算模块400

文本信息时间确定模块500

音频截取模块
具体实施方式
[0022]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0023]现有技术中生成语音标注数据均是采用人工标注的方法,但是人工标注的方法工作量大,效率低且标注成本高。
[0024]图1为本专利技术实施例提供的语音标注数据生成方法的流程图,为解决上述问题,本专利技术实施例提供了一种语音标注数据生成方法,包括:
[0025]S100、按预设间隔对目标视频进行抽帧,得到多个目标帧;
[0026]在目标视频中按预设间隔抽取多个目标帧;其中,预设间隔可根据具体需求进行调整。在一个可选的实施方式中,也可将目标视频中的所有帧都作为目标帧。
[0027]S101、识别每个目标帧的文本信息、开始时间以及结束时间;
[0028]对每个目标帧的文本信息进行识别(本实施例中,文本信息指视频字幕文本),同时识别出每本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音标注数据生成方法,其特征在于,包括:按预设间隔对目标视频进行抽帧,得到多个目标帧;识别每个目标帧的文本信息、开始时间以及结束时间;顺次计算当前目标帧的文本信息与相邻上一目标帧的文本信息的文本相似度;当所述文本相似度大于预设相似度阈值时,将所述当前目标帧的结束时间作为所述上一目标帧的文本信息的结束时间;当所述文本相似度小于所述预设相似度阈值时,将所述当前目标帧的开始时间作为所述当前目标帧的文本信息的开始时间,并将所述上一目标帧的结束时间作为所述上一目标帧的文本信息的结束时间;按照每个文本信息的开始时间及结束时间,分别在所述目标视频中截取相应的音频片段,并将所述音频片段与对应文本信息相匹配,生成语音标注数据。2.根据权利要求1所述的语音标注数据生成方法,其特征在于,所述按预设间隔对目标视频进行抽帧,得到多个目标帧,包括:按预设间隔对目标视频进行抽帧,得到初始帧;识别目标视频中的片头时间段以及片尾时间段;删除所述初始帧中片头时间段内的视频帧以及片尾时间段内的视频帧,得到正片时间段对应的所述目标帧。3.根据权利要求1所述的语音标注数据生成方法,其特征在于,所述在所述目标视频中截取相应的音频片段,包括:将所述目标视频转换成目标音频;在所述目标音频中截取相应的音频片段。4.根据权利要求1所述的语音标注数人据生成方法,其特征在于,所述识别每个目标帧的文本信息、开始时间以及结束时间之后,包括:将所述每个目标帧的文本信息、开始时间以及结束时间记录在字典文件中。5.根据权利要求1所述的语音标注数据生成方法,其特征在于,所述识别每个目标帧的文本信息包括:通过OCR文字识别方法提取所述每个目标帧的文本信息。6.一种语音标注数据生成装置,其特征在于,包括:抽帧模块,...

【专利技术属性】
技术研发人员:贾瑶
申请(专利权)人:北京人人网互动科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1