一种语音的转换方法、装置及设备制造方法及图纸

技术编号：33854944 阅读：10 留言：0更新日期：2022-06-18 10:42

本说明书实施例公开了一种语音的转换方法、装置及设备，该方法包括：获取待处理的第一文本信息，对第一文本信息中包含的满足预设条件的词语进行词语转译，以将第一文本信息中包含的满足预设条件的词语转换为具有相同语义的词语，得到转译的第二文本信息，预设条件至少由词语对应的音素的发音基频和/或由预设词语确定，基于第二文本信息，确定将第二文本信息转换为语音数据的转换参数，该转换参数包括语速控制参数、音量控制参数和音调控制参数中的一种或多种，基于该转换参数将第二文本信息转换为语音数据。通过本说明书实施例，可以使得最终转换后的语音数据更易于用户听见和听清，以及对语音内容的理解。以及对语音内容的理解。以及对语音内容的理解。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音的转换方法、装置及设备

[0001]本文件涉及计算机
，尤其涉及一种语音的转换方法、装置及设备。

技术介绍

[0002]对于某些人群(如老年人、听觉能力较弱的人、自然语言的初学者或处于特殊环境下的人等)来说，听力障碍是常见的生活烦恼，另外，由于其中某些人的学习能力减弱，对社会发展变化和对语言自身的发展变化的敏感度也有所下降，而当前的很多语言交流往往简单明快，且会经常夹杂当前热门或流行的网络词语，对于这些人来说往往无法听懂上述网络词语，因此，数字产品服务需要具备更适用于上述人群的特性，也是数字产品服务机构需要支持的方向之一。如何保证文本语音合成系统对用户(尤其是上述人群的用户)更加适用，更加易用户收听和理解成为当前需要解决的重要问题。
[0003]通常，当前由文本到语音的转换，大部分是针对通用的文本到语音的转换需求，针对上述人群的用户听觉和理解能力的文本到语音的转换则很少，这样就需要在上述由文本到语音的转换之后，再通过有一些物理方式改善用户的听力，如，可以再通过助听器改善用户的听力或通过扩增语音能量来改善用户听力等。但是，上述方式仅仅能够单纯的将文本信息转换为语音数据，并不能帮助用户提升语言理解能力，而对于一些通过扩增语音能量来改善用户听力的方式，大音量和噪音会增加人体听力损伤，长期佩戴会影响人们的听力，为此，需要提供一种对用户(尤其是上述人群的用户)更加适用、更加易于用户收听和理解的文本语音合成系统。

技术实现思路

[0004]本说明书实施例的目的是提供一种对用户(尤其是上述人群...

【技术保护点】

【技术特征摘要】
1.一种语音的转换方法，所述方法包括：获取待处理的第一文本信息；对所述第一文本信息中包含的满足预设条件的词语进行词语转译，以将所述第一文本信息中包含的满足预设条件的词语转换为具有相同语义的词语，得到转译的第二文本信息，所述预设条件至少由词语对应的音素的发音基频和/或由预设词语确定；基于所述第二文本信息，确定将所述第二文本信息转换为语音数据的转换参数，所述转换参数包括用于控制语音数据对应的参数，所述控制语音数据对应的参数包括语速控制参数、音量控制参数和音调控制参数中的一种或多种；基于所述转换参数将所述第二文本信息转换为语音数据。2.根据权利要求1所述的方法，所述预设条件由预设词语确定，所述对所述第一文本信息中包含的满足预设条件的词语进行词语转译，得到第二文本信息，包括：检测所述第一文本信息中是否包括所述预设词语；如果检测到所述第一文本信息中包括所述预设词语，则从预设的第一转译关系中获取所述第一文本信息中包括的预设词语对应的第一转译词语，并使用所述第一转译词语替换所述第一文本信息中的预设词语，得到第二文本信息。3.根据权利要求1或2所述的方法，所述预设条件包括词语对应的音素的发音基频大于预设频率阈值，所述对所述第一文本信息中包含的满足预设条件的词语进行词语转译，得到第二文本信息，包括：检测所述第一文本信息中是否包括音素的发音基频大于预设频率阈值的第一词语；如果检测到所述第一文本信息中包括所述第一词语，则从预设的第二转译关系中获取所述第一词语对应的第二转译词语，并使用所述第二转译词语替换所述第一文本信息中的第一词语，得到第二文本信息。4.根据权利要求3所述的方法，所述方法还包括：获取发音基频大于预设频率阈值的声母音素构成的声母集合；基于所述声母集合中的声母音素和预设的韵母集合中的韵母音素，确定包括音素的发音基频大于预设频率阈值的高频词语的高频词集合；确定所述高频词集合中的每个高频词语对应的转译词语，并将所述高频词集合中的每个高频词语及其对应的转译词语存储于所述第二转译关系中，所述转译词语对应的发音基频不高于所述转译词语对应的高频词语对应的发音基频，所述转译词语与所述转译词语对应的高频词语的语义相同。5.根据权利要求4所述的方法，所述检测所述第一文本信息中是否包括音素的发音基频大于预设频率阈值的第一词语，包括：对所述第一文本信息进行分词处理，得到所述第一文本信息对应的分词；基于所述第二转译关系，确定所述第一文本信息中是否包含所述第二转译关系中的高频词语；如果包括，则确定所述第一文本信息中包括音素的发音基频大于预设频率阈值的第一词语。
6.根据权利要求1所述的方法，所述转换参数还包括韵律标记信息，所述基于所述第二文本信息，确定将所述第二文本信息转换为语音数据的转换参数，包括：对所述第二文本信息进行主成分提取，得到所述第二文本信息对应的主成分信息；确定所述第二文本信息对应的主成分信息中的每个词语对应的转换参数；确定所述第二文本信息中除所述主成分信息之外的信息中的每个词语对应的韵律标记信息，并确定所述第二文本信息中除所述主成分信息之外的信息对应的目标参数，所述目标参数包括所述语速控制参数、所述音量控制参数和所述音调控制参数中的一种或多种。7.根据权利要求1所述的方法，所述基于所述转换参数将所述第二文本信息转换为语音数据，包括：将所述转换参数和所述第二文本信息输入到预先训练的语音转换模型中，得...

【专利技术属性】
技术研发人员：乔宏利，王洪斌，蒋宁，吴海英，刘敏，
申请(专利权)人：马上消费金融股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人