一种显示设备及语音播放方法技术

技术编号：40874379 阅读：3 留言：0更新日期：2024-04-08 16:42

本申请一些实施例示出一种显示设备及语音播放方法，所述方法包括：接收输入文本；将所述输入文本转换为梅尔频谱特征数据；将所述梅尔频谱特征数据切片以获取数个切片数据；确定关联切片数据中的填充数据；将所述填充数据填充到所述切片数据中以获取填充切片数据；将所述填充切片数据输入声码器的对抗网络生成器中以获取填充音频数据；移除所述填充音频数据中填充数据对应的音频数据以获取切片音频数据；控制所述音频输出接口播放所述切片音频数据。本申请实施例在将文本转换成梅尔频谱特征数据后切片，结合当前切片数据的前后数据，通过对抗网络生成器合成声音，减少用户等待时间，同时，能够保证合成高质量的声音，提升用户体验。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及显示设备，尤其涉及一种显示设备及语音播放方法。

技术介绍

1、电视的语音合成技术一直是智能电视的核心功能，在多语言智能问题等交互场景都需要将文本内容转化成语音，与用户进行交流对话。多语言智能问答交互场景是用户输入一段语音进行提问，由智能电视语音识别(asr，automatic speech recognition)成响应的文字，再经过对话引擎进行处理得到回答的文本，最后将要回答的文本由语音合成技术，即文本转语音(tts，text to speech)转成语音进行播报。

2、vits(variational inference with adversarial learning for end-to-endtext-to-speech，具有对抗性学习的端到端文本到语音的变分推理)是一种最常用的端到端的文本转语音模型，也是一种结合变分推理(variational inference)、标准化流(normalizing flows)和对抗训练的高表现力语音合成模型。合成的音频质量在公开数据集ljspeech上与真人发音几乎相当，评级指标mos(mean opinion score，平均主观意见分)达到4.43(mos理论最高值是5)。

3、但是vits模型特点是输入的文本越长，合成响应时间越慢，难以满足多语言交互场景的需求。例如，当前需要合成一段20s的音频，即使能够优化rtf(实时率，real timefactor)到比较低，在中央处理器上rtf能优化到0.1到0.2左右，合成20s音频也需要4s左

技术实现思路

1、本申请一些实施例提供了一种显示设备及语音播放方法，在将文本转换成梅尔频谱特征数据后切片，结合当前切片数据的前后数据，通过对抗神经网络生成器合成声音，只需要等待第一个切片数据合成即可使用户听到合成的声音，减少用户等待时间，提升用户体验。

2、第一方面，本申请一些实施例中提供一种显示设备，包括：

3、显示器；

4、音频输出接口；

5、控制器，被配置为：

6、接收输入文本；

7、将所述输入文本转换为梅尔频谱特征数据；

8、将所述梅尔频谱特征数据切片以获取数个切片数据；

9、确定关联切片数据中的填充数据，所述关联切片数据为所述切片数据相邻的前后切片数据；

10、将所述填充数据填充到所述切片数据中以获取填充切片数据；

11、将所述填充切片数据输入声码器的对抗网络生成器中以获取填充音频数据；

12、移除所述填充音频数据中填充数据对应的音频数据以获取切片音频数据；

13、控制所述音频输出接口播放所述切片音频数据。

14、在一些实施例中，所述显示器用于显示用户界面，所述用户界面包括至少一个控件，以及，指示所述控件被选择的焦点，可通过用户输入而移动所述焦点在所述用户界面中的位置，以选择不同控件；

15、所述控制器执行接收输入文本，被进一步配置为：

16、在开启语音指南功能后，响应于用户输入移动所述焦点的指令，使得所述焦点由第一控件移动至第二空降，获取所述第二控件对应的输入文本。

17、在一些实施例中，所述控制器执行接收输入文本，被进一步配置为：

18、响应于用户输入的问询语音指令，接收服务器发送的与所述问询语音指令对应的输入文本。

19、在一些实施例中，所述控制器执行将所述输入文本转换为梅尔频谱特征数据，被进一步配置为：

20、将所述输入文本输入编码器以获取编码数据；

21、通过时长预测器模块和流模块提取所述编码数据中的特征数据以获取梅尔频谱特征数据。

22、在一些实施例中，所述控制器执行确定关联切片数据中的填充数据，被进一步配置为：

23、如果所述关联切片数据为所述切片数据的前一个切片数据，确定所述第一填充数据为所述关联切片数据中后目标长度的数据；

24、如果所述关联切片数据为所述切片数据的后一个切片数据，确定所述第二填充数据为所述关联切片数据中前目标长度的数据。

25、在一些实施例中，所述控制器执行将所述填充数据填充到所述切片数据中以获取填充切片数据，被进一步配置为：

26、将所述第一填充数据填充至所述切片数据之前；和/或，

27、将所述第二填充数据填充至所述切片数据之后以获取填充切片数据。

28、第二方面，本申请一些实施例中提供一种语音播放方法，包括：

29、接收输入文本；

30、将所述输入文本转换为梅尔频谱特征数据；

31、将所述梅尔频谱特征数据切片以获取数个切片数据；

32、确定关联切片数据中的填充数据，所述关联切片数据为所述切片数据相邻的前后切片数据；

33、将所述填充数据填充到所述切片数据中以获取填充切片数据；

34、将所述填充切片数据输入声码器的对抗网络生成器中以获取填充音频数据；

35、移除所述填充音频数据中填充数据对应的音频数据以获取切片音频数据；

36、控制所述音频输出接口播放所述切片音频数据。

37、在一些实施例中，显示器用于显示用户界面，所述用户界面包括至少一个控件，以及，指示所述控件被选择的焦点，可通过用户输入而移动所述焦点在所述用户界面中的位置，以选择不同控件；

38、所述接收输入文本的步骤，包括：

39、在开启语音指南功能后，响应于用户输入移动所述焦点的指令，使得所述焦点由第一控件移动至第二空降，获取所述第二控件对应的输入文本。

40、在一些实施例中，所述接收输入文本的步骤，包括：

41、响应于用户输入的问询语音指令，接收服务器发送的与所述问询语音指令对应的输入文本。

42、在一些实施例中，所述将所述输入文本转换为梅尔频谱特征数据的步骤，包括：

43、将所述输入文本输入编码器以获取编码数据；

44、通过时长预测器模块和流模块提取所述编码数据中的特征数据以获取梅尔频谱特征数据。

45、本申请的一些实施例提供一种显示设备及语音播放方法。在接收到需要合成语音的文本后，将该文本转换为梅尔频谱特征数据，将该梅尔频谱特征数据切片，得到数个切片数据。将与切片数据前后切片数据填充到该切片数据中，并将填充后的切片数据输入到声码器的对抗网络生成器中，得到填充音频数据。将填充音频数据中前后切片数据对应音频数据移除，只保留切片数据对应的音频数据，将该音频数据由音频输出接口播放。本申请实施例在将文本转换成梅尔频谱特征数据后切片，结合当前切片数据的前后数据，通过对抗神经网络生成器合成声音，只需要等待第一个切片数据合成即可使用户听到合成的声音，减少用户等待时本文档来自技高网...

【技术保护点】

1.一种显示设备，其特征在于，包括：

2.根据权利要求1所述的显示设备，其特征在于，所述显示器用于显示用户界面，所述用户界面包括至少一个控件，以及，指示所述控件被选择的焦点，可通过用户输入而移动所述焦点在所述用户界面中的位置，以选择不同控件；

3.根据权利要求1所述的显示设备，其特征在于，所述控制器执行接收输入文本，被进一步配置为：

4.根据权利要求1所述的显示设备，其特征在于，所述控制器执行将所述输入文本转换为梅尔频谱特征数据，被进一步配置为：

5.根据权利要求1所述的显示设备，其特征在于，所述控制器执行确定关联切片数据中的填充数据，被进一步配置为：

6.根据权利要求5所述的显示设备，其特征在于，所述控制器执行将所述填充数据填充到所述切片数据中以获取填充切片数据，被进一步配置为：

7.一种语音播放方法，其特征在于，包括：

8.根据权利要求7所述的方法，其特征在于，显示器用于显示用户界面，所述用户界面包括至少一个控件，以及，指示所述控件被选择的焦点，可通过用户输入而移动所述焦点在所述用户界面中的位置，以选择不同控件；

9.根据权利要求7所述的方法，所述接收输入文本的步骤，包括：

10.根据权利要求7所述的方法，其特征在于，所述将所述输入文本转换为梅尔频谱特征数据的步骤，包括：

...

【技术特征摘要】

1.一种显示设备，其特征在于，包括：

3.根据权利要求1所述的显示设备，其特征在于，所述控制器执行接收输入文本，被进一步配置为：

4.根据权利要求1所述的显示设备，其特征在于，所述控制器执行将所述输入文本转换为梅尔频谱特征数据，被进一步配置为：

5.根据权利要求1所述的显示设备，其特征在于，所述控制器执行确定关联切片数据中的填充数据，被进一步配...

【专利技术属性】
技术研发人员：周斌，朱飞，陈昶旭，
申请(专利权)人：VIDAA国际控股荷兰公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人