基于人工智能的语音转换方法、装置、计算机设备及介质制造方法及图纸

技术编号:38573147 阅读:11 留言:0更新日期:2023-08-22 21:07
本发明专利技术适用于语音转换技术领域,尤其涉及一种基于人工智能的语音转换方法、装置、计算机设备及介质。本发明专利技术确定音素序列中的M个边界帧及其对应的持续时长,提取文本序列的第一文本韵律特征序列,并根据边界帧对应的目标位置对应的特征值,构建对应边界帧的持续时长的特征值序列,并按顺序将所有边界帧对应的特征值序列组成第二文本韵律特征序列,根据文本序列、第二文本韵律特征和目标音色重构得到目标重构语音,通过提取第一文本韵律特征序列并进行特征值修正,提高了对语义信息和韵律信息的表征准确性,降低了待转换语音中的说话人信息对重构语音的影响,提高了语音转换的准确性,在金融场景中提高了机器人客服的自然性、表现力和服务质量。力和服务质量。力和服务质量。

【技术实现步骤摘要】
基于人工智能的语音转换方法、装置、计算机设备及介质


[0001]本专利技术适用于语音转换
,尤其涉及一种基于人工智能的语音转换方法、装置、计算机设备及介质。

技术介绍

[0002]语音转换是在不改变话语内容信息的情况下,让某个人说的话听起来像是另一个人说的,在驾驶导航、视频制作等多个领域中具有很强的应用价值。
[0003]现有语音转换方法通常提取待转换语音的文本语义信息以及目标说话人的目标说话人信息,然后对文本语义信息和目标说话人信息进行融合和映射,得到转换后的重构语音。但是,语音韵律信息作为人类自然语言的一个典型特征,可以通过音高、强度以及时间等特性对语言和情绪进行表征,在语音转换任务中对于重构语音的自然性、表现力等方面具有重要的指导作用,上述语音转换方法无法准确地对待转换语音中的文本语义信息、语音韵律信息和原始说话人信息进行解耦和提取,导致转换后的目标语音受到原始说话人信息以及低质量的语音韵律信息的干扰,降低了重构语音的准确率。
[0004]因此,在语音转换
中,如何提高语音转换方法的准确率成为亟待解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供了一种基于人工智能的语音转换方法、装置、计算机设备及介质,以解决现有语音转换方法中重构语音的准确性较低的问题。
[0006]第一方面,本专利技术实施例提供一种基于人工智能的语音转换方法,所述语音转换方法包括:
[0007]获取待转换语音的音素序列和文本序列,根据所述音素序列,确定M个边界帧和每个边界帧对应的持续时长,M为大于0的整数;
[0008]对所述文本序列进行韵律特征的提取,得到第一文本韵律特征序列,将所述第一文本韵律特征序列与所述音素序列对齐,确定每个边界帧在所述第一文本韵律特征序列中对应的目标位置;
[0009]根据所述边界帧在所述第一文本韵律特征序列中对应的目标位置对应的特征值,构建对应所述边界帧的持续时长的特征值序列;
[0010]按照所有边界帧在所述音素序列中的顺序,将所有边界帧对应的特征值序列组成第二文本韵律特征序列;
[0011]获取目标音色,根据所述文本序列、所述第二文本韵律特征序列和所述目标音色进行语音重构,得到目标重构语音。
[0012]第二方面,本专利技术实施例提供一种基于人工智能的语音转换装置,所述语音转换装置包括:
[0013]边界帧确定模块,用于获取待转换语音的音素序列和文本序列,根据所述音素序
列,确定M个边界帧和每个边界帧对应的持续时长,M为大于0的整数;
[0014]特征提取模块,用于对所述文本序列进行韵律特征的提取,得到第一文本韵律特征序列,将所述第一文本韵律特征序列与所述音素序列对齐,确定每个边界帧在所述第一文本韵律特征序列中对应的目标位置;
[0015]序列构建模块,用于根据所述边界帧在所述第一文本韵律特征序列中对应的目标位置对应的特征值,构建对应所述边界帧的持续时长的特征值序列;
[0016]序列组成模块,用于按照所有边界帧在所述音素序列中的顺序,将所有边界帧对应的特征值序列组成第二文本韵律特征序列;
[0017]语音重构模块,用于获取目标音色,根据所述文本序列、所述第二文本韵律特征序列和所述目标音色进行语音重构,得到目标重构语音。
[0018]第三方面,本专利技术实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的语音转换方法。
[0019]第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的语音转换方法。
[0020]本专利技术实施例与现有技术相比存在的有益效果是:根据待转换语音的音素序列,确定M个边界帧和每个边界帧对应的持续时长,对待转换语音的文本序列进行韵律特征的提取,得到第一文本韵律特征序列,将第一文本韵律特征序列与音素序列对齐,确定每个边界帧在第一文本韵律特征序列中对应的目标位置,根据边界帧在第一文本韵律特征序列中对应的目标位置对应的特征值,构建对应边界帧的持续时长的特征值序列,按照所有边界帧在音素序列中的顺序,将所有边界帧对应的特征值序列组成第二文本韵律特征序列,根据文本序列、第二文本韵律特征和获取的目标音色进行语音重构,得到目标重构语音,通过提取待转换语音的第一文本韵律特征序列并进行特征值修正,得到第二文本韵律特征序列,提高了对待转换语音中的语义信息和韵律信息的表征准确性,降低了待转换语音中的说话人信息对重构语音的影响,提高了语音转换的准确性,在金融场景中提高了机器人客服的自然性、表现力、丰富性,提高了金融业务的服务质量。
附图说明
[0021]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本专利技术实施例一提供的一种基于人工智能的语音转换方法的一应用环境示意图;
[0023]图2是本专利技术实施例一提供的一种基于人工智能的语音转换方法的流程示意图;
[0024]图3是本专利技术实施例二提供的一种基于人工智能的语音转换装置的结构示意图;
[0025]图4是本专利技术实施例三提供的一种计算机设备的结构示意图。
具体实施方式
[0026]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。
[0027]应当理解,当在本专利技术说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0028]还应当理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0029]如在本专利技术说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0030]另外,在本专利技术说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的语音转换方法,其特征在于,所述语音转换方法包括:获取待转换语音的音素序列和文本序列,根据所述音素序列,确定M个边界帧和每个边界帧对应的持续时长,M为大于0的整数;对所述文本序列进行韵律特征的提取,得到第一文本韵律特征序列,将所述第一文本韵律特征序列与所述音素序列对齐,确定每个边界帧在所述第一文本韵律特征序列中对应的目标位置;根据所述边界帧在所述第一文本韵律特征序列中对应的目标位置对应的特征值,构建对应所述边界帧的持续时长的特征值序列;按照所有边界帧在所述音素序列中的顺序,将所有边界帧对应的特征值序列组成第二文本韵律特征序列;获取目标音色,根据所述文本序列、所述第二文本韵律特征序列和所述目标音色进行语音重构,得到目标重构语音。2.根据权利要求1所述的语音转换方法,其特征在于,所述根据所述音素序列,确定M个边界帧包括:针对所述音素序列中的第j帧音素,比较所述第j帧音素与第j+1帧音素是否一致,得到比较结果,j=1,2,

,N

1,N为所述音素序列中音素的总数量,N为大于1的整数;若所述比较结果为不一致,则确定所述任一帧音素对应的帧数为边界帧;遍历所述音素序列中的第1,2,

,N

1帧音素,确定所述音素序列对应的M

1个边界帧。3.根据权利要求2所述的语音转换方法,其特征在于,所述根据所述音素序列,确定M个边界帧,还包括:确定所述音素序列中的第N帧音素对应的帧数N为边界帧,得到M个边界帧。4.根据权利要求3所述的语音转换方法,其特征在于,根据所述音素序列,确定每个边界帧对应的持续时长包括:按照所述M个边界帧对应的帧数,对所述M个边界帧进行排序;针对第i个边界帧,计算所述第i个边界帧和第i

1个边界帧之间的帧数差值,将所述差值确定为所述第i个边界帧对应的持续时长,i=2,3,

,M。5.根据权利要求4所述的语音转换方法,其特征在于,根据所述音素序列,确定每个边界帧对应的持续时长,还包括:针对第一个边界帧,将所述边界帧对应的帧数确定为所述边界帧对应的持续时长。6.根据权利要求1所述的语音转换方法,其特征在于,所述根据所述边界帧在所述第一文本韵律特征序列中对应的目标位置对应的特征值...

【专利技术属性】
技术研发人员:张旭龙王健宗程宁唐怀朕
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1