训练文本生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33242551 阅读:34 留言:0更新日期:2022-04-27 17:47
本公开提供了一种训练文本生成方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为语音识别和自然语言处理技术领域。具体实现方案为:对音频进行识别处理,以得到初始语音文本和参考语音文本,确定初始语音文本和参考语音文本之间的相似度信息,根据相似度信息,从初始语音文本之中确定出第一目标语音文本,以及根据第一目标语音文本和参考语音文本,生成训练文本。由此,可以实现联合初始语音文本与参考语音文本生成音频对应的训练文本,降低训练文本生成的出错率,有效提升生成的训练文本的样本质量和样本准确性,有效提升训练文本的产出率。训练文本的产出率。训练文本的产出率。

【技术实现步骤摘要】
训练文本生成方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,具体涉及语音识别和自然语言处理
,尤其涉及一种训练文本生成方法、装置、电子设备及存储介质。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术,以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]相关技术中,在采用有字幕视频中的音频生成语音训练文本时,通常会受到视频画面中非字幕信息以及字幕错别字的干扰,导致训练文本生成效果不佳。

技术实现思路

[0004]本公开提供了一种训练文本生成方法、装置、电子设备、存储介质及计算机程序产品。
[0005]根据本公开的第一方面,提供了一种训练文本生成方法,包括:对音频进行识别处理,以得到初始语音文本和参考语音文本;确定所述初始语音文本和所述参考语音文本之间的相似度信息;根据所述相似度信息,从所述初始语音文本之中确定出第一目标语音文本;以及根据所述第一目标语音文本和所述参考语音文本,生成训练文本。
[0006]根据本公开的第二方面,提供了一种训练文本生成装置,包括:识别模块,用于对音频进行识别处理,以得到初始语音文本和参考语音文本;第一确定模块,用于确定所述初始语音文本和所述参考语音文本之间的相似度信息;第二确定模块,用于根据所述相似度信息,从所述初始语音文本之中确定出第一目标语音文本;以及生成模块,用于根据所述第一目标语音文本和所述参考语音文本,生成训练文本。
[0007]根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开第一方面实施例的训练文本生成方法。
[0008]根据本公开的第四方面,提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行本公开第一方面实施例的训练文本生成方法。
[0009]根据本公开的第五方面,提出了一种计算机程序产品,包括计算机程序,当计算机程序由处理器执行时实现本公开第一方面实施例的训练文本生成方法。
[0010]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0012]图1是根据本公开第一实施例的示意图;
[0013]图2是根据本公开第二实施例的示意图;
[0014]图3是本公开实施例中的训练文本生成流程示意图;
[0015]图4是根据本公开第三实施例的示意图;
[0016]图5是本公开实施例中的置信度模型结构示意图;
[0017]图6是根据本公开第四实施例的示意图;
[0018]图7是根据本公开第五实施例的示意图;
[0019]图8示出了可以用来实施本公开的实施例的训练文本生成方法的示例电子设备的示意性框图。
具体实施方式
[0020]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0021]图1是根据本公开第一实施例的示意图。
[0022]其中,需要说明的是,本实施例的训练文本生成方法的执行主体为训练文本生成装置,该装置可以由软件和/或硬件的方式实现,该装置可以配置在电子设备中,电子设备可以包括但不限于终端、服务器端等。
[0023]本公开实施例涉及人工智能
,具体涉及语音识别和自然语言处理

[0024]其中,人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
[0025]语音识别,是指让机器通过识别和理解过程把语音信号转变为相应的文本或命令,将语音中的词汇内容转化为计算机可读的输入,将话语中的语音信息转化为计算机中的文字信息。
[0026]自然语言处理(Natural Language Processing,NLP),即计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。是以语言为对象,利用计算机技术来分析、理解和处理自然语言,即把计算机作为语言研究工具,在计算机的支持下对语言信息进行定量化的研究处理,并提供可供人与计算机之间能共同使用的语言描写。
[0027]如图1所示,该训练文本生成方法,包括:
[0028]S101:对音频进行识别处理,以得到初始语音文本和参考语音文本。
[0029]其中,待对其进行识别处理的音频可以为视频中的音轨文件,在获取待对其进行识别处理的音频文件时,可以获取多个视频数据,并对视频数据进行音轨抽取处理,以获得视频中的音轨文件作为待对其进行识别处理的音频。
[0030]本公开实施例中,在获取待对其进行音轨抽取的视频数据时,可以在预先在训练文本生成装置上配置视频数据采集装置,利用视频数据采集装置从网络上下载多个带有字
幕的视频文件,或者可以在训练文本生成装置上配置数据传输接口,经由该数据传输接口接收其他电子设备传输的包含字幕的视频文件作为待对其进行音轨抽取的视频数据。
[0031]其中,初始语音文本是指对视频中的视频帧进行字符识别处理后得到的文本数据。
[0032]其中,参考语音文本是指对音频进行语音识别处理后得到的文本数据,参考语音文本可以被用于对初始语音文本进行优化调整处理。
[0033]本公开实施例中,初始语音文本是利用光学字符识别技术对视频帧图像中的所有字符提取得到的文本数据,初始语音文本可以被视为视觉信息,利用初始语音文本中包含视频帧中的字幕文字信息,还可以包含视频帧中的电视台标中的文字信息,而参考语音文本则是对视频帧中字幕对应的音频片段进行语音识别处理得到的文本数据,参考语音文本可以被视为声学信息。
[0034]举例而言,对一段视频中的一帧图像进行光学字符识别处理,提取图像中的文本数据为“影视频道他们今天心晴不错”,对视频帧所在的音频片段进行语音识别处理,提取音频片段中的文字数据为“她们今天心情不错”,则提取到的“影视频道他们今天心晴不错”的图像文本数据,即可以为初始语音文本,提取到的“她们今天心情不错”的音频文本数据即可以作为参考语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练文本生成方法,包括:对音频进行识别处理,以得到初始语音文本和参考语音文本;确定所述初始语音文本和所述参考语音文本之间的相似度信息;根据所述相似度信息,从所述初始语音文本之中确定出第一目标语音文本;以及根据所述第一目标语音文本和所述参考语音文本,生成训练文本。2.根据权利要求1所述的方法,其中,所述根据所述相似度信息,从所述初始语音文本之中确定出第一目标语音文本,包括:基于所述相似度信息,对所述初始语音文本和所述参考语音文本进行对齐处理;从对齐处理后的所述初始语音文本之中确定出所述第一目标语音文本。3.根据权利要求2所述的方法,所述初始语音文本包括:多个初始子文本,所述参考语音文本包括:多个参考子文本;其中,所述基于所述相似度信息,对所述初始语音文本和所述参考语音文本进行对齐处理,包括:基于所述相似度信息,对所述初始子文本和所述参考子文本进行对齐处理;其中,所述从对齐处理后的所述初始语音文本之中确定出所述第一目标语音文本,包括:确定对齐处理后的所述初始语音文本和所述参考语音文本的对齐边界;对所述初始语音文本中位于所述对齐边界之外的部分所述初始子文本进行删除处理,并将所述初始语音文本中剩余的初始子文本共同作为所述第一目标语音文本。4.根据权利要求3所述的方法,其中,所述确定所述初始语音文本和所述参考语音文本之间的相似度信息,包括:确定所述初始子文本分别与所述多个参考子文本之间的多个初始编辑距离;从所述多个初始编辑距离之中确定出目标编辑距离;将与所述多个初始子文本分别对应的多个目标编辑距离共同作为所述相似度信息。5.根据权利要求4所述的方法,其中,所述从所述多个初始编辑距离之中确定出目标编辑距离,包括:从所述多个初始编辑距离之中确定出距离最小的所述初始编辑距离,并将所述距离最小的所述初始编辑距离作为所述目标编辑距离。6.根据权利要求3所述的方法,在所述根据所述相似度信息,从所述初始语音文本之中确定出第一目标语音文本之后,还包括:根据所述第一目标语音文本对所述参考语音文本进行纠错处理,以得到第二目标语音文本;其中,所述根据所述第一目标语音文本和所述参考语音文本,生成训练文本,包括:根据所述第一目标语音文本和所述第二目标语音文本,生成所述训练文本。7.根据权利要求6所述的方法,其中,所述根据所述第一目标语音文本和所述第二目标语音文本,生成所述训练文本,包括:确定所述第一目标语音文本之中所述初始子文本的第一置信度;确定所述第二目标语音文本之中与所述初始子文本相对齐的所述参考子文本的第二置信度;
根据所述第一置信度和所述第二置信度确定训练子文本,其中,所述训练子文本是所述初始子文本,或者是与所述初始子文本相对齐的所述参考子文本;根据多个所述训练子文本,生成所述训练文本。8.根据权利要求7所述的方法,其中,如果所述第一置信度大于所述第二置信度,则所述训练子文本是所述初始子文本;如果所述第一置信度小于所述第二置信度,则所述训练子文本是与所述初始子文本相对齐的所述参考子文本;如果所述第一置信度等于所述第二置信度,则所述训练子文本是所述初始子文本,或者是与所述初始子文本相对齐的所述参考子文本。9.一种训练文本生成装置,包括:识别模块,用于对音频进行识别处理,以得到初始语音文本和参考语音文本;第一确定模块,用于确定所述初始语音文本和所述参考语音文本之间的相似度信息;第二确定模块,用于根据所述相似度信息,从所...

【专利技术属性】
技术研发人员:刘兵陈武臣王佳伟臧启光吴震付晓寅
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1