语音文件切分方法、装置及计算机设备制造方法及图纸

技术编号:21478010 阅读:17 留言:0更新日期:2019-06-29 04:54
本申请公开了一种语音文件切分方法、装置及计算机设备,该方法包括:获取配音文本文件及配音的语音文件;转换出该配音文本文件中各条配音文本的拼音序列;将该语音文件拆分为多个语音段;针对待处理的目标语音段,确定目标语音段对应的第二拼音序列,及最近一个语音段组对应的第三拼音序列;依据多条配音文本的第一拼音序列,该第二拼音序列以及该第三拼音序列,确定该目标语音段与该配音文本文件中配音文本的第一匹配度,及目标语音段组与配音文本文件中配音文本的第二匹配度;如第二匹配度小于第一匹配度,将最近一个语音段组的结束位置确定为文件切分点,以切分该语音文件。本申请的方案可以更为精准、合理的对配音的语音文件进行切分。

【技术实现步骤摘要】
语音文件切分方法、装置及计算机设备
本申请涉及语音处理
,尤其涉及一种语音文件切分方法、装置及计算机设备。
技术介绍
配音语音文件是配音人员依据配音文本文件配音出的语音文件。一般情况下,配音人员会根据配音文本文件中的多条配音文本进行连续录音,从而使得配音语音文件是针对多条配音文本的连续多条语句。而为了使得配音语音文件可以应用于视频等场景中,需要依据配音文本文件中的多条配音文本,将配音语音文件切分为分别对应不同配音文本的语音文件分片。然而,目前的对配音语音文件的切分仅仅适用于每条配音文本都是一个单句的情况。而很多情况下,一条配音文本可能会包含不仅包含多条语句文本,这样就增加了对配音语音文件切分的难度,对于该种情况下,目前尚未很好的解决方法。因此,在配音文本可能包含多个语句的情况下,如何将配音语音文件切分为对应不同配音文本的多个分片是本领域技术人员迫切需要解决的技术问题。
技术实现思路
有鉴于此,本申请提供了一种语音文件切分方法、装置及计算机设备,以实现更为精准、合理的对配音的语音文件进行切分。为实现上述目的,一方面,本申请提供了一种语音文件切分方法,包括:获取配音文本文件以及语音文件,所述配音文本文件包括多条配音文本,所述语音文件为基于所述配音文本文件配音出的语音文件;分别转换出所述配音文本文件中各条配音文本的第一拼音序列;将所述语音文件拆分为具有先后顺序的多个语音段,其中,相邻语音段之间具有语音停顿;从所述多个语音段中,确定顺序最靠前且尚未被处理的目标语音段;确定所述目标语音段转换出的语音文本对应的第二拼音序列,以及最近一个语音段组转换出的语音文本对应的第三拼音序列,所述最近一个语音段组由处于所述目标语音段之前最近一个文件切分点与所述目标语音段的起始位置之间的至少一个语音段组成;依据所述配音文本文件中多条配音文本的第一拼音序列,所述第二拼音序列以及所述第三拼音序列,确定所述目标语音段与所述配音文本文件中的配音文本的第一匹配度,以及,目标语音段组与所述配音文本文件中的配音文本的第二匹配度,所述目标语音段组由所述最近一个语音段组中至少一个语音段与目标语音段组成;在所述第二匹配度小于所述第一匹配度的情况下,将所述最近一个语音段组的结束位置确定为文件切分点,以便基于确定出的文件切分点切分所述语音文件。优选的,所述依据所述配音文本文件中多条配音文本的第一拼音序列,所述第二拼音序列以及所述第三拼音序列,确定所述目标语音段与所述配音文本文件中的配音文本的第一匹配度,以及,目标语音段组与所述配音文本文件中的配音文本的第二匹配度,包括:依据所述目标语音段与所述最近一个语音段组中至少一个语音段之间的先后顺序,将所述目标语音段对应的第二拼音序列与所述最近一个语音段组对应的第三拼音序列拼接为第四拼音序列,其中,所述第四拼音序列用于表征由所述目标语音段与所述最近一个语音段组中至少一个语音段按照先后顺序拼接出的目标语音段组所对应的拼音序列;针对所述配音文本文件中每条配音文本,计算该目标语音段对应的第二拼音序列与该配音文本的第一拼音序列之间的编辑距离,并基于该编辑距离确定所述目标语音段与该配音文本之间的匹配度;确定所述配音文本文件中与该目标语音段的匹配度最高的第一配音文本,并得到该第一配音文本与该目标语音段之间的第一匹配度;针对所述配音文本文件中每条配音文本,计算该第四拼音序列与该配音文本的第一拼音序列之间的编辑距离,并基于该编辑距离确定所述目标语音段组与该配音文本之间的匹配度;确定所述配音文本文件中与该目标语音段组的匹配度最高的第二配音文本,并得到该第二配音文本与该目标语音段组之间的第二匹配度。又一方面,本申请还提供了一种语音文件切分装置,包括:文件获取单元,用于获取配音文本文件以及语音文件,所述配音文本文件包括多条配音文本,所述语音文件为基于所述配音文本文件配音出的语音文件;第一拼音确定单元,用于分别转换出所述配音文本文件中各条配音文本的第一拼音序列;文件段拆分单元,用于将所述语音文件拆分为具有先后顺序的多个语音段,其中,相邻语音段之间具有语音停顿;语音段选取单元,用于从所述多个语音段中,确定顺序最靠前且尚未被处理的目标语音段;第二拼音确定单元,用于确定所述目标语音段转换出的语音文本对应的第二拼音序列,以及最近一个语音段组转换出的语音文本对应的第三拼音序列,所述最近一个语音段组由处于所述目标语音段之前最近一个文件切分点与所述目标语音段的起始位置之间的至少一个语音段组成;匹配度确定单元,用于依据所述配音文本文件中多条配音文本的第一拼音序列,所述第二拼音序列以及所述第三拼音序列,确定所述目标语音段与所述配音文本文件中的配音文本的第一匹配度,以及,目标语音段组与所述配音文本文件中的配音文本的第二匹配度,所述目标语音段组由所述最近一个语音段组中至少一个语音段与目标语音段组成;文件切分确定单元,用于在所述第二匹配度小于所述第一匹配度的情况下,将所述最近一个语音段组的结束位置确定为文件切分点,以便基于确定出的文件切分点切分所述语音文件。又一方面,本申请还提供了一种计算机设备,包括:处理器和存储器;所述处理器,用于调用并执行所述存储器中存储的程序;所述存储器用于存储所述程序,所述程序至少用于:获取配音文本文件以及语音文件,所述配音文本文件包括多条配音文本,所述语音文件为基于所述配音文本文件配音出的语音文件;分别转换出所述配音文本文件中各条配音文本的第一拼音序列;将所述语音文件拆分为具有先后顺序的多个语音段,其中,相邻语音段之间具有语音停顿;从所述多个语音段中,确定顺序最靠前且尚未被处理的目标语音段;确定所述目标语音段转换出的语音文本对应的第二拼音序列,以及最近一个语音段组转换出的语音文本对应的第三拼音序列,所述最近一个语音段组由处于所述目标语音段之前最近一个文件切分点与所述目标语音段的起始位置之间的至少一个语音段组成;依据所述配音文本文件中多条配音文本的第一拼音序列,所述第二拼音序列以及所述第三拼音序列,确定所述目标语音段与所述配音文本文件中的配音文本的第一匹配度,以及,目标语音段组与所述配音文本文件中的配音文本的第二匹配度,所述目标语音段组由所述最近一个语音段组中至少一个语音段与目标语音段组成;在所述第二匹配度小于所述第一匹配度的情况下,将所述最近一个语音段组的结束位置确定为文件切分点,以便基于确定出的文件切分点切分所述语音文件。可见,本申请实施例,在将基于配音文本文件配音出的语音文件拆分为多个语音段之后,会按照该多个语音段的先后顺序确定出当前待处理的目标语音段。针对当前待处理的目标语音段,依据配音文本文件中各条配音文本的拼音序列、该目标语音段对应的拼音序列以及该目标语音段之前尚未确定结束位置的最近一个语音段组对应的拼音序列,确定该目标语音段与该配音文本文件中的配音文本的第一匹配度,以及目标语音段与最近一个语音段组组成的目标语音段组与该配音文本文件中的配音文本的第二匹配度。由于基于一条配音文本配音出的语音信号所转换出的拼音序列与该配音文本的拼音序列具有相似性,因此,如果第二匹配度小于第一匹配度,则说明该目标语音段与最近一个语音段组拼接后属于某一条配音文本的配音语音的可能性相对较低,即,该目标语音段与该最近一个语音段组与不同本文档来自技高网...

【技术保护点】
1.一种语音文件切分方法,其特征在于,包括:获取配音文本文件以及语音文件,所述配音文本文件包括多条配音文本,所述语音文件为基于所述配音文本文件配音出的语音文件;分别转换出所述配音文本文件中各条配音文本的第一拼音序列;将所述语音文件拆分为具有先后顺序的多个语音段,其中,相邻语音段之间具有语音停顿;从所述多个语音段中,确定顺序最靠前且尚未被处理的目标语音段;确定所述目标语音段转换出的语音文本对应的第二拼音序列,以及最近一个语音段组转换出的语音文本对应的第三拼音序列,所述最近一个语音段组由处于所述目标语音段之前最近一个文件切分点与所述目标语音段的起始位置之间的至少一个语音段组成;依据所述配音文本文件中多条配音文本的第一拼音序列,所述第二拼音序列以及所述第三拼音序列,确定所述目标语音段与所述配音文本文件中的配音文本的第一匹配度,以及,目标语音段组与所述配音文本文件中的配音文本的第二匹配度,所述目标语音段组由所述最近一个语音段组中至少一个语音段与目标语音段组成;在所述第二匹配度小于所述第一匹配度的情况下,将所述最近一个语音段组的结束位置确定为文件切分点,以便基于确定出的文件切分点切分所述语音文件...

【技术特征摘要】
1.一种语音文件切分方法,其特征在于,包括:获取配音文本文件以及语音文件,所述配音文本文件包括多条配音文本,所述语音文件为基于所述配音文本文件配音出的语音文件;分别转换出所述配音文本文件中各条配音文本的第一拼音序列;将所述语音文件拆分为具有先后顺序的多个语音段,其中,相邻语音段之间具有语音停顿;从所述多个语音段中,确定顺序最靠前且尚未被处理的目标语音段;确定所述目标语音段转换出的语音文本对应的第二拼音序列,以及最近一个语音段组转换出的语音文本对应的第三拼音序列,所述最近一个语音段组由处于所述目标语音段之前最近一个文件切分点与所述目标语音段的起始位置之间的至少一个语音段组成;依据所述配音文本文件中多条配音文本的第一拼音序列,所述第二拼音序列以及所述第三拼音序列,确定所述目标语音段与所述配音文本文件中的配音文本的第一匹配度,以及,目标语音段组与所述配音文本文件中的配音文本的第二匹配度,所述目标语音段组由所述最近一个语音段组中至少一个语音段与目标语音段组成;在所述第二匹配度小于所述第一匹配度的情况下,将所述最近一个语音段组的结束位置确定为文件切分点,以便基于确定出的文件切分点切分所述语音文件。2.根据权利要求1所述的语音文件切分方法,其特征在于,所述依据所述配音文本文件中多条配音文本的第一拼音序列,所述第二拼音序列以及所述第三拼音序列,确定所述目标语音段与所述配音文本文件中的配音文本的第一匹配度,以及,目标语音段组与所述配音文本文件中的配音文本的第二匹配度,包括:依据所述目标语音段与所述最近一个语音段组中至少一个语音段之间的先后顺序,将所述目标语音段对应的第二拼音序列与所述最近一个语音段组对应的第三拼音序列拼接为第四拼音序列,其中,所述第四拼音序列用于表征由所述目标语音段与所述最近一个语音段组中至少一个语音段按照先后顺序拼接出的目标语音段组所对应的拼音序列;针对所述配音文本文件中每条配音文本,计算该目标语音段对应的第二拼音序列与该配音文本的第一拼音序列之间的编辑距离,并基于该编辑距离确定所述目标语音段与该配音文本之间的匹配度;确定所述配音文本文件中与该目标语音段的匹配度最高的第一配音文本,并得到该第一配音文本与该目标语音段之间的第一匹配度;针对所述配音文本文件中每条配音文本,计算该第四拼音序列与该配音文本的第一拼音序列之间的编辑距离,并基于该编辑距离确定所述目标语音段组与该配音文本之间的匹配度;确定所述配音文本文件中与该目标语音段组的匹配度最高的第二配音文本,并得到该第二配音文本与该目标语音段组之间的第二匹配度。3.根据权利要求1或2所述的语音文件切分方法,其特征在于,所述配音文本文件中每条配音文本对应唯一的一个标识号;在将所述最近一个语音段组的结束位置确定为文件切分点之后,还包括:从所述配音文本文件中确定与所述最近一个语音段组的匹配度最高的第三配音文本;将所述第三配音文本确定为与所述最近一个语音段组对应的语音文件切片匹配的配音文本,并基于所述第三配音文本的标识号确定所述最近一个语音段组对应的语音文件切片的文件切片名称。4.根据权利要求1或2所述的语音文件切分方法,其特征在于,还包括:确定所述最近一个语音段组与所述配音文本文件中的配音文本的第三匹配度,所述第三匹配度为基于所述最近一个语音段组的第三拼音序列以及所述配音文本文件中多条配音文本的第一拼音序列得到的;所述在所述第二匹配度小于所述第一匹配度的情况下,将所述最近一个语音段组的结束位置确定为文件切分点,包括:在所述第二匹配度小于所述第一匹配度或者第三匹配度的情况下,将所述最近一个语音段组的结束位置确定为文件切分点。5.根据权利要求4所述的语音文件切分方法,其特征在于,还包括:在所述第二匹配度不小于所述第一匹配度和第三匹配度的情况下,按照所述目标语音段与所述最近一个语音段组中至少一个语音段之间的先后顺序,将所述目标语音段与所述最近一个语音段组中的至少一个语音段拼接为所述目标语音段组。6.根据权利要求1所述的语音文件切分方法,其特征在于,所述将所述语音文件拆分为具有先后顺序的多个语音段,包括:对所述语音文件进行分帧处理,得到多帧语音信号;确定所述多帧语音信号中的静音帧;基于确定出的静音帧,将所述语音文件拆分为具有先后顺序的多个语音段。7.根据权利要求1所述的语音文件切分方法,其特征在于,在确定所述目标语音段与所述配音文...

【专利技术属性】
技术研发人员:周小星洪国军
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1