【技术实现步骤摘要】
训练文本生成方法、装置、电子设备及存储介质
[0001]本公开涉及人工智能
,具体涉及语音识别和自然语言处理
,尤其涉及一种训练文本生成方法、装置、电子设备及存储介质。
技术介绍
[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术,以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]相关技术中,在采用有字幕视频中的音频生成语音训练文本时,通常会受到视频画面中非字幕信息以及字幕错别字的干扰,导致训练文本生成效果不佳。
技术实现思路
[0004]本公开提供了一种训练文本生成方法、装置、电子设备、存储介质及计算机程序产品。
[0005]根据本公开的第一方面,提供了一种训练文本生成方法,包括:对音频进行识别处理,以得到初始语音文本和参考语音文本;确定所述初始语音文本和所述参考语音文本之间的相似度信息;根据所述相似度信息,从所述初始语音文本之中确定出第一目标语音文本;以及根据所述第一目标语音文本和所述参考语音文本,生成训练文本。
[0006]根据本公开的第二方面,提供了一种训练文本生成装置,包括:识别模块,用于对音频进行识别处理,以得到初始语音文本和参考语音文本;第一确定模块,用于确定所述初始语音文本和 ...
【技术保护点】
【技术特征摘要】
1.一种训练文本生成方法,包括:对音频进行识别处理,以得到初始语音文本和参考语音文本;确定所述初始语音文本和所述参考语音文本之间的相似度信息;根据所述相似度信息,从所述初始语音文本之中确定出第一目标语音文本;以及根据所述第一目标语音文本和所述参考语音文本,生成训练文本。2.根据权利要求1所述的方法,其中,所述根据所述相似度信息,从所述初始语音文本之中确定出第一目标语音文本,包括:基于所述相似度信息,对所述初始语音文本和所述参考语音文本进行对齐处理;从对齐处理后的所述初始语音文本之中确定出所述第一目标语音文本。3.根据权利要求2所述的方法,所述初始语音文本包括:多个初始子文本,所述参考语音文本包括:多个参考子文本;其中,所述基于所述相似度信息,对所述初始语音文本和所述参考语音文本进行对齐处理,包括:基于所述相似度信息,对所述初始子文本和所述参考子文本进行对齐处理;其中,所述从对齐处理后的所述初始语音文本之中确定出所述第一目标语音文本,包括:确定对齐处理后的所述初始语音文本和所述参考语音文本的对齐边界;对所述初始语音文本中位于所述对齐边界之外的部分所述初始子文本进行删除处理,并将所述初始语音文本中剩余的初始子文本共同作为所述第一目标语音文本。4.根据权利要求3所述的方法,其中,所述确定所述初始语音文本和所述参考语音文本之间的相似度信息,包括:确定所述初始子文本分别与所述多个参考子文本之间的多个初始编辑距离;从所述多个初始编辑距离之中确定出目标编辑距离;将与所述多个初始子文本分别对应的多个目标编辑距离共同作为所述相似度信息。5.根据权利要求4所述的方法,其中,所述从所述多个初始编辑距离之中确定出目标编辑距离,包括:从所述多个初始编辑距离之中确定出距离最小的所述初始编辑距离,并将所述距离最小的所述初始编辑距离作为所述目标编辑距离。6.根据权利要求3所述的方法,在所述根据所述相似度信息,从所述初始语音文本之中确定出第一目标语音文本之后,还包括:根据所述第一目标语音文本对所述参考语音文本进行纠错处理,以得到第二目标语音文本;其中,所述根据所述第一目标语音文本和所述参考语音文本,生成训练文本,包括:根据所述第一目标语音文本和所述第二目标语音文本,生成所述训练文本。7.根据权利要求6所述的方法,其中,所述根据所述第一目标语音文本和所述第二目标语音文本,生成所述训练文本,包括:确定所述第一目标语音文本之中所述初始子文本的第一置信度;确定所述第二目标语音文本之中与所述初始子文本相对齐的所述参考子文本的第二置信度;
根据所述第一置信度和所述第二置信度确定训练子文本,其中,所述训练子文本是所述初始子文本,或者是与所述初始子文本相对齐的所述参考子文本;根据多个所述训练子文本,生成所述训练文本。8.根据权利要求7所述的方法,其中,如果所述第一置信度大于所述第二置信度,则所述训练子文本是所述初始子文本;如果所述第一置信度小于所述第二置信度,则所述训练子文本是与所述初始子文本相对齐的所述参考子文本;如果所述第一置信度等于所述第二置信度,则所述训练子文本是所述初始子文本,或者是与所述初始子文本相对齐的所述参考子文本。9.一种训练文本生成装置,包括:识别模块,用于对音频进行识别处理,以得到初始语音文本和参考语音文本;第一确定模块,用于确定所述初始语音文本和所述参考语音文本之间的相似度信息;第二确定模块,用于根据所述相似度信息,从所...
【专利技术属性】
技术研发人员:刘兵,陈武臣,王佳伟,臧启光,吴震,付晓寅,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。