显示设备及声音克隆方法技术

技术编号：40876428 阅读：2 留言：0更新日期：2024-04-08 16:45

本申请提供了一种显示设备及声音克隆方法，显示设备包括显示器、音频组件和控制器，控制器被配置为：响应于进入语音交互设置界面的用户操作，生成并控制显示器显示语音交互设置界面；响应于语言设置控件的触发操作，生成并控制显示器显示语言选择控件，获取用户触发的语言选择控件对应的语言标识，设置显示设备的播报语言为语言标识对应的语言；响应于连续命令控件的触发操作，生成并控制显示器显示音色选择控件，获取用户触发的音色选择控件对应的音色标识，设置显示设备的播报音色为音色标识对应的音色；控制音频组件通过播报语言播放音色标识对应音色的播报样例。本申请提高了跨语言声音克隆效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音交互，尤其涉及一种显示设备及声音克隆方法。

技术介绍

1、在语音交互场景中，语音助手的音色是影响语音交互体验的重要因素，符合用户偏好的音色，能给用户带来良好的交互体验，有利于语音交互场景的推广和应用。由于不同的用户对语音助手的音色偏好存在差别，为适应不同用户，相关技术中，语音助手的设置界面设置了多种音色供用户选择，然而，这些音色通常是单一语言，即默认语言的音色，不能满足用户对多语言音色的追求。

技术实现思路

1、为解决上述技术问题，本申请提供了一种显示设备及声音克隆方法。

2、第一方面，本申请提供了一种显示设备，所述显示设备包括：

3、显示器；

4、音频组件；

5、控制器，与所述显示器和音频组件通信连接，所述控制器被配置为：

6、响应于进入语音交互设置界面的用户操作，生成并控制所述显示器显示所述语音交互设置界面，所述语音交互设置界面包括语言设置控件和连续命令控件；

7、响应于所述语言设置控件的触发操作，生成并控制所述显示器显示语言选择控件，获取用户触发的语言选择控件对应的语言标识，设置所述显示设备的播报语言为所述语言标识对应的语言；

8、响应于所述连续命令控件的触发操作，生成并控制所述显示器显示音色选择控件，获取用户触发的音色选择控件对应的音色标识，设置所述显示设备的播报音色为所述音色标识对应的音色；

9、控制所述音频组件通过所述播报语言播放所述音色标识对应音色的播报样例。

10、在一些实施例中，所述语音交互设置界面包括语音反馈控件，所述控制器被配置为：

11、在所述语音反馈控件为开启状态时，设置所述音色选择控件包括开启状态和关闭状态；

12、在所述语音反馈控件为关闭状态时，设置所述音色选择控件包括所述关闭状态，不包括所述开启状态。

13、在一些实施例中，所述控制器还被配置为：

14、响应于用户输入的语音指令，获取所述语音指令对应的播报文本；

15、控制所述音频组件通过所述播报语言播放所述音色标识对应音色的所述播报文本。

16、在一些实施例中，所述控制所述音频组件通过所述播报语言播放所述音色标识对应音色的所述播报文本，包括：

17、获取根据所述音色标识、语言标识和播报文本合成的播报音频；

18、控制所述音频组件播放所述播报音频。

19、在一些实施例中，所述获取根据所述音色标识、语言标识和播报文本合成的播报音频，包括：

20、根据说话人音频对应的音色特征向量和播报文本进行语音合成，得到所述播报音频，其中，所述说话人音频为所述用户触发的音色选择控件对应音色的源音频，所述音色特征向量的获取方法包括：

21、获取音频训练样本的频谱特征；

22、构建包括音频编码器和文本编码器的说话人编码器模型，通过所述音频编码器得到所述频谱特征的第一特征向量和第二特征向量，通过所述文本编码器得到所述文本的特征向量；

23、根据所述文本的特征向量和所述第二特征向量得到第三特征向量；

24、计算所述第一特征向量对应的第一损失函数、所述第三特征向量与所述音频训练样本的语言标识对应的第二损失函数，以及所述第二特征向量相对所述第一特征向量的第三损失函数；

25、对所述说话人编码器模型进行模型训练；

26、将所述说话人音频输入所述音频编码器，得到所述说话人音频对应的音色特征向量。

27、第二方面，本申请提供了一种声音克隆方法，该方法包括：

28、获取音频训练样本的频谱特征；

29、构建包括音频编码器和文本编码器的说话人编码器模型，通过所述音频编码器得到所述频谱特征的第一特征向量和第二特征向量，通过所述文本编码器得到所述文本的特征向量；

30、根据所述文本的特征向量和所述第二特征向量得到第三特征向量；

31、计算所述第一特征向量对应的第一损失函数、所述第三特征向量与所述音频训练样本的语言标识对应的第二损失函数，以及所述第二特征向量相对所述第一特征向量的第三损失函数；

32、对所述说话人编码器模型进行模型训练；

33、将说话人音频输入所述音频编码器，得到所述说话人音频对应的音色特征向量；

34、根据所述音色特征向量和目标语言的文本进行语音合成，得到目标音频。

35、在一些实施例中，所述音频编码器包括第一长短期记忆网络层模块、第一多层感知层模块、第二多层感知层模块、第一relu激活层模块和第二relu激活层模块，其中，所述第一长短期记忆网络层模块的输入端用于输入所述频谱特征，输出端连接所述第一多层感知层模块，所述第一多层感知层模块连接所述第一relu激活层模块，所述第二多层感知层模块连接所述第二relu激活层模块，所述第一特征向量通过所述第一relu激活层模块输出，所述第二特征向量通过所述第二relu激活层模块输出。

36、在一些实施例中，所述第一多层感知层模块和第二多层感知层模块均包括依次连接的线性变换层、relu激活层、线性变换层、relu激活层、线性变换层。

37、在一些实施例中，所述文本编码器包括第二长短期记忆网络层模块、第三多层感知层模块、连接层模块、线性层模块和第三relu激活层模块，其中，所述第二长短期记忆网络层模块用于输入所述音频训练样本对应的文本，输出端连接所述第三多层感知层模块，所述第三多层感知层模块、连接层模块、线性层模块和第三relu激活层模块依次连接，所述连接层模块还与所述第二多层感知层模块连接，所述文本的特征向量通过所述第三多层感知层模块输出。

38、在一些实施例中，所述第一损失函数通过softmax损失函数计算，所述第二损失函数通过余弦相似度损失函数计算，所述第三损失函数通过交叉熵损失函数计算。

39、本申请提供的显示设备及声音克隆方法的有益效果包括：

40、本申请实施例提供的显示设备，语音交互设置界面设置有语言设置控件和音色选择控件，用户可通过语言设置控件设置语音助手的语言，通过音色选择控件设置语音助手的音色，从而通过对语言设置控件和音色选择控件的设置，实现了对语音助手的语言和音色组合方式的自定义，能够满足用户对特定语言和特定音色的需求，提升了语音交互体验；本申请实施例提供的声音克隆方法，构建了解耦音色特征和语言特征的说话人编码器模型，该说话人编码器模型通过音频训练样本的频谱特征进行特征提取得到第一特征向量和第二特征向量，通过将音频训练样本对应的文本进行特征提取得到第三特征向量，通过计算第一特征向量对应的第一损失函数，第三特征向量相对所述第一特征向量的第三损失函数，并通过将第三特征向量、语言标识和第二特征向量进行融合后计算第二损失函数，使得第二损失函数能够表征第一特征向量和第二特征向量的差异性，而第三损失函数能够表征语言特征的损失，从而第一损失函数本文档来自技高网...

【技术保护点】

1.一种显示设备，其特征在于，包括：

2.根据权利要求1所述的显示设备，其特征在于，所述语音交互设置界面包括语音反馈控件，所述控制器被配置为：

3.根据权利要求1所述的显示设备，其特征在于，所述控制器还被配置为：

4.根据权利要求3所述的显示设备，其特征在于，所述控制所述音频组件通过所述播报语言播放所述音色标识对应音色的所述播报文本，包括：

5.根据权利要求4所述的显示设备，其特征在于，所述获取根据所述音色标识、语言标识和播报文本合成的播报音频，包括：

6.一种声音克隆方法，其特征在于，包括：

7.根据权利要求6所述的声音克隆方法，其特征在于，所述音频编码器包括第一长短期记忆网络层模块、第一多层感知层模块、第二多层感知层模块、第一Relu激活层模块和第二Relu激活层模块，其中，所述第一长短期记忆网络层模块的输入端用于输入所述频谱特征，输出端连接所述第一多层感知层模块，所述第一多层感知层模块连接所述第一Relu激活层模块，所述第二多层感知层模块连接所述第二Relu激活层模块，所述第一特征向量通过所述第一Rel

8.根据权利要求7所述的声音克隆方法，其特征在于，所述第一多层感知层模块和第二多层感知层模块均包括依次连接的线性变换层、ReLU激活层、线性变换层、ReLU激活层、线性变换层。

9.根据权利要求8所述的声音克隆方法，其特征在于，所述文本编码器包括第二长短期记忆网络层模块、第三多层感知层模块、连接层模块、线性层模块和第三Relu激活层模块，其中，所述第二长短期记忆网络层模块用于输入所述音频训练样本对应的文本，输出端连接所述第三多层感知层模块，所述第三多层感知层模块、连接层模块、线性层模块和第三Relu激活层模块依次连接，所述连接层模块还与所述第二多层感知层模块连接，所述文本的特征向量通过所述第三多层感知层模块输出。

10.根据权利要求6所述的声音克隆方法，其特征在于，所述第一损失函数通过softmax损失函数计算，所述第二损失函数通过余弦相似度损失函数计算，所述第三损失函数通过交叉熵损失函数计算。

...

【技术特征摘要】

1.一种显示设备，其特征在于，包括：

2.根据权利要求1所述的显示设备，其特征在于，所述语音交互设置界面包括语音反馈控件，所述控制器被配置为：

3.根据权利要求1所述的显示设备，其特征在于，所述控制器还被配置为：

4.根据权利要求3所述的显示设备，其特征在于，所述控制所述音频组件通过所述播报语言播放所述音色标识对应音色的所述播报文本，包括：

5.根据权利要求4所述的显示设备，其特征在于，所述获取根据所述音色标识、语言标识和播报文本合成的播报音频，包括：

6.一种声音克隆方法，其特征在于，包括：

7.根据权利要求6所述的声音克隆方法，其特征在于，所述音频编码器包括第一长短期记忆网络层模块、第一多层感知层模块、第二多层感知层模块、第一relu激活层模块和第二relu激活层模块，其中，所述第一长短期记忆网络层模块的输入端用于输入所述频谱特征，输出端连接所述第一多层感知层模块，所述第一多层感知层模块连接所述第一relu激活层模块，所述第二多层感知层模块连接所述第二relu激活层...

【专利技术属性】
技术研发人员：朱飞，
申请(专利权)人：VIDAA国际控股荷兰公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人