音转文训练语料的获取方法、装置、设备以及存储介质制造方法及图纸

技术编号:31012559 阅读:23 留言:0更新日期:2021-11-30 00:42
本申请实施例公开了一种音转文训练语料的获取方法、装置、设备以及存储介质,该方法包括:获取目标视频的多个目标视频关键帧,并从各目标视频关键帧中确定出文字位置和文字内容;根据各目标视频关键帧中的文字位置和文字内容确定出目标视频的字幕识别区间,不同目标视频关键帧对应于字幕识别区间中的同一位置的文字内容不同;根据字幕识别区间对目标视频的字幕进行识别,以获取待处理字幕,并根据预设语料获取规则对待处理字幕进行字符处理以得到目标视频的目标字幕,根据目标视频和目标字幕生成用于视频语音识别的音转文训练语料。采用本发明专利技术实施例,可提高视频的字幕提取效率,提高音转文训练语料的获取便捷性,操作简单,适用性高。适用性高。适用性高。

【技术实现步骤摘要】
音转文训练语料的获取方法、装置、设备以及存储介质


[0001]本申请涉及计算机软件
,尤其涉及一种音转文训练语料的获取方法、装置、设备以及存储介质。

技术介绍

[0002]随着计算机软件技术的发展,互联网中的视频资源大幅增长,在多种场景下都需要使用到面向视频的字幕提取技术,例如,在语音转文字模型的训练过程中,为了获取训练语料,需要对视频中的字幕进行提取。本申请的专利技术人在研究和实践过程中发现,现有技术中,字幕提取技术需要人工对视频中的字幕区间进行标注,以便在视频的字幕区间内进行文字识别,如采用光学字符识别(Optical Character Recognition,OCR)技术等方法对人工框选的字幕区间内的文字进行识别,以得到视频的字幕,耗费人力多,字幕识别效率低。现有技术中,采用OCR技术等方法识别的字幕识别后并未对字幕进行处理,字幕提取方式粗糙,不适合作为语音转文字模型的训练语料。

技术实现思路

[0003]本申请实施例提供一种音转文训练语料的获取方法、装置、设备以及存储介质,可提高视频的字幕提取效率,提高音转文训练语料的获取便捷性,操作简单,适用性高。
[0004]第一方面,本申请实施例提供一种音转文训练语料的获取方法,该方法包括:
[0005]获取目标视频的多个目标视频关键帧,并从各目标视频关键帧中确定出文字位置和文字内容;
[0006]根据各目标视频关键帧中的文字位置和文字内容确定出目标视频的字幕识别区间,其中,不同目标视频关键帧对应于字幕识别区间中的同一位置的文字内容不同;
[0007]根据字幕识别区间对目标视频的字幕进行识别,以从目标视频中获取待处理字幕,并根据预设语料获取规则对待处理字幕进行字符处理以得到目标视频的目标字幕;
[0008]根据目标视频和目标字幕生成用于视频语音识别的音转文训练语料。
[0009]结合第一方面,在一种可能的实施方式中,获取目标视频的多个目标视频关键帧包括:
[0010]获取待处理视频,并确定待处理视频的视频关键帧以及视频关键帧的帧数;
[0011]当视频关键帧的帧数大于或等于帧数阈值时,将待处理视频确定为目标视频,并将待处理视频的多个视频关键帧确定为多个目标视频关键帧。
[0012]结合第一方面,在一种可能的实施方式中,获取目标视频的多个目标视频关键帧包括:
[0013]获取待处理视频,并确定待处理视频的视频关键帧以及视频关键帧的中文字符出现率;
[0014]当待处理视频中任一视频关键帧的中文字符出现率大于或等于出现率阈值时,将待处理视频确定为目标视频,并将待处理视频的多个视频关键帧确定为多个目标视频关键
帧。
[0015]结合第一方面,在一种可能的实施方式中,根据各目标视频关键帧中的文字位置和文字内容确定出目标视频的字幕识别区间包括:
[0016]从各目标视频关键帧的文字位置中确定出至少一个文字位置作为至少一个待选文字识别区间,待选文字识别区间的文字内容重复出现的次数小于次数阈值;
[0017]确定各待选文字识别区间的抖动程度,将抖动程度小于或等于抖动程度阈值的待选文字识别区间确定为目标视频的字幕识别区间。
[0018]结合第一方面,在一种可能的实施方式中,上述方法还包括:
[0019]确定各目标视频关键帧的文字位置中出现的文字内容的文本相似度;
[0020]当任一文字位置中任意两个次出现的文字内容的文本相似度大于阈值时,将任意两次出现的文字内容确定为重复出现的文字内容,确定上述任一文字位置不作为待选文字识别区间。
[0021]结合第一方面,在一种可能的实施方式中,根据预设语料获取规则对待处理字幕进行字符处理,包括:
[0022]将待处理字幕按照预设时间隔划分为多个字幕分句,并对各字幕分句进行去重,将去重后的字幕分句中字符长度小于字符长度阈值的字幕分句合并,以得到合并后的待处理字幕;
[0023]基于合并后的待处理字幕中的字符进行字幕分句筛选,以确定目标视频的目标字幕。
[0024]结合第一方面,在一种可能的实施方式中,基于合并后的待处理字幕中的字符进行字幕分句筛选包括:
[0025]将合并后的待处理字幕中包含生僻字符的字幕分句剔除,以筛选出不包含生僻字符的字幕分句,其中,生僻字符至少包括字母、数字、生僻偏旁部首中的一种。
[0026]本申请实施例中,通过获取目标视频的多个目标视频关键帧,进一步地,从各目标视频关键帧中确定出文字位置和文字内容,从而可以根据各目标视频关键帧中的文字位置和文字内容确定出目标视频的字幕识别区间。其中,可以理解的是,不同目标视频关键帧对应于字幕识别区间中的同一位置的文字内容不同。根据字幕识别区间对目标视频的字幕进行文字识别,可以从目标视频中得到待处理字幕。根据语料获取规则对待处理字幕进行划分、去重、合并等后处理,进一步地,可以将合并后的待处理字幕中包含生僻字符的字幕分句剔除得到目标字幕,从而将目标字幕的错字率减少到标准以内,进而根据目标视频和目标字幕生成用于视频语音识别的音转文训练语料。由此可以实现自动获取视频,并对视频的字幕进行提取和筛选,进而得到适合用于音转文的训练语料,提升音转文训练语料的获取效率,同时提高音转文训练语料的语料质量。
[0027]第二方面,本申请实施例提供了一种音转文训练语料的获取装置,该装置包括:
[0028]视频获取模块,用于获取目标视频的多个目标视频关键帧,并从各目标视频关键帧中确定出文字位置和文字内容;
[0029]区间划分模块,用于根据各目标视频关键帧中的文字位置和文字内容确定出目标视频的字幕识别区间,其中,不同目标视频关键帧对应于字幕识别区间中的同一位置的文字内容不同;
[0030]字幕提取模块,用于根据字幕识别区间对目标视频的字幕进行识别,以从目标视频中获取待处理字幕,并根据预设语料获取规则对待处理字幕进行字符处理以得到目标视频的目标字幕;
[0031]语料生成模块,用于根据目标视频和目标字幕生成用于视频语音识别的音转文训练语料。
[0032]结合第二方面,在一种可能的实施方式中,上述视频获取模块包括:
[0033]帧数确定单元,用于获取待处理视频,确定待处理视频的视频关键帧以及视频关键帧的帧数,当视频关键帧的帧数大于或等于帧数阈值时,将待处理视频确定为目标视频,并将待处理视频的多个视频关键帧确定为多个目标视频关键帧。
[0034]结合第二方面,在一种可能的实施方式中,上述视频获取模块包括:
[0035]中文字符确定单元,用于获取待处理视频,确定待处理视频的视频关键帧以及视频关键帧的中文字符出现率,当待处理视频中任一视频关键帧的中文字符出现率大于或等于出现率阈值时,将待处理视频确定为目标视频,并将待处理视频的多个视频关键帧确定为多个目标视频关键帧。
[0036]结合第二方面,在一种可能的实施方式中,上述区间划分模块包括:
[0037]区间去重单元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音转文训练语料的获取方法,其特征在于,所述方法包括:获取目标视频的多个目标视频关键帧,并从各目标视频关键帧中确定出文字位置和文字内容;根据所述各目标视频关键帧中的文字位置和文字内容确定出所述目标视频的字幕识别区间,其中,不同目标视频关键帧对应于所述字幕识别区间中的同一位置的文字内容不同;根据所述字幕识别区间对所述目标视频的字幕进行识别,以从所述目标视频中获取待处理字幕,并根据预设语料获取规则对所述待处理字幕进行字符处理以得到所述目标视频的目标字幕;根据所述目标视频和所述目标字幕生成用于语音识别的音转文训练语料。2.根据权利要求1所述的方法,其特征在于,所述获取目标视频的多个目标视频关键帧包括:获取待处理视频,并确定所述待处理视频的视频关键帧以及所述视频关键帧的帧数;当所述视频关键帧的帧数大于或等于帧数阈值时,将所述待处理视频确定为目标视频,并将所述待处理视频的多个视频关键帧确定为多个目标视频关键帧。3.根据权利要求1所述的方法,其特征在于,所述获取目标视频的多个目标视频关键帧包括:获取待处理视频,并确定所述待处理视频的视频关键帧以及所述视频关键帧的中文字符出现率;当所述待处理视频中任一视频关键帧的中文字符出现率大于或等于出现率阈值时,将所述待处理视频确定为目标视频,并将所述待处理视频的多个视频关键帧确定为多个目标视频关键帧。4.根据权利要求1

3任一项所述的方法,其特征在于,所述根据所述各目标视频关键帧中的文字位置和文字内容确定出所述目标视频的字幕识别区间包括:从所述各目标视频关键帧的文字位置中确定出至少一个文字位置作为至少一个待选文字识别区间,所述待选文字识别区间的文字内容重复出现的次数小于次数阈值;确定各待选文字识别区间的抖动程度,将抖动程度小于或等于抖动程度阈值的待选文字识别区间确定为所述目标视频的字幕识别区间。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:确定所述各目标视频关键帧的文字位置中出现的文字内容的文本相似度;当任一文字位置中任意两次出现的文字内容的文本...

【专利技术属性】
技术研发人员:王书培刘攀邓理英
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1