一种语音合成方法及装置制造方法及图纸

技术编号：26306094 阅读：31 留言：0更新日期：2020-11-10 20:04

本申请公开了一种语音合成方法及装置。该方法在获取至少一个用户的语音；对至少一个用户的语音进行语种识别，确定每个用户的语音对应的语种，以及对相应用户的语音进行声纹识别，确定每个用户的声纹特征；若确定的语种中存在当前地区的通用语种，则将通用语种确定为目标语种；当前地区为用户当前所处的地区；若确定的语种中不存在通用语种，则将语种占比大于预设占比的语种确定为目标语种；基于每个用户的声纹特征，以目标语种，输出目标合成语音。该方法将确定的目标语种和通过相似度获取的目标声纹特征，得到的合成语音，提高了语音交互系统中语音合成的质量和用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音合成方法及装置
本申请涉及通信
，尤其涉及一种语音合成方法及装置。
技术介绍
语音合成是通过机器将文字转换为声音的技术，又被称为文语转换(Test-To-Speech，TTS)，目前，语音合成技术在国际上已经取得了普遍发展，各种语言都有各自的语音合成系统，为了让系统具有更好的重用性、通用性和扩展性，多语种的语音合成便成为了国内外研究的热点，多语种的语音合成是指能够用一个语音合成系统取得不同说话人、不同语种的合成语音。目前，智能终端的语音交互系统应用了语音合成技术，以实现与用户的沟通交流。然而，在智能终端的语音交互系统中，若用户语音采用的语种与语音交互系统默认输出的语种不同，使用户不理解语音交互系统输出的语音的语义，出现对话障碍的问题，且语音交互系统输出的语音的音色一般为默认音色，导致与用户的亲和力不足，降低用户体验。
技术实现思路
本申请实施例提供一种语音合成方法及装置，解决了现有技术存在的上述问题，以提高语音交互系统中语音合成的质量和用户体验。第一方面，提供了一种语音合成方...

【技术保护点】
1.一种语音合成方法，其特征在于，所述方法包括：/n获取至少一个用户的语音；/n对所述至少一个用户的语音进行语种识别，确定每个用户的语音对应的语种，以及对相应用户的语音进行声纹识别，确定所述每个用户的声纹特征；/n若确定的语种中存在当前地区的通用语种，则将所述通用语种确定为目标语种；所述当前地区为所述用户当前所处的地区；/n若确定的语种中不存在所述通用语种，则将语种占比大于预设占比的语种确定为目标语种；/n基于所述每个用户的声纹特征，以所述目标语种，输出目标合成语音。/n

【技术特征摘要】
1.一种语音合成方法，其特征在于，所述方法包括：
获取至少一个用户的语音；
对所述至少一个用户的语音进行语种识别，确定每个用户的语音对应的语种，以及对相应用户的语音进行声纹识别，确定所述每个用户的声纹特征；
若确定的语种中存在当前地区的通用语种，则将所述通用语种确定为目标语种；所述当前地区为所述用户当前所处的地区；
若确定的语种中不存在所述通用语种，则将语种占比大于预设占比的语种确定为目标语种；
基于所述每个用户的声纹特征，以所述目标语种，输出目标合成语音。

2.如权利要求1所述的方法，其特征在于，基于所述每个用户的声纹特征，以所述目标语种，输出目标合成语音，包括：
根据所述每个用户的声纹特征与存储的样本声纹特征的相似度，将满足预设相似度条件的样本声纹特征确定为所述目标合成语音的目标声纹特征；
以所述目标语种和所述目标声纹特征，输出目标合成语音。

3.如权利要求2所述的方法，其特征在于，根据所述每个用户的声纹特征与存储的样本声纹特征的相似度，将满足预设相似度条件的样本声纹特征确定为所述目标合成语音的目标声纹特征，包括：
计算所述每个用户的声纹特征与存储的样本声纹特征的相似度；
若所述相似度中存在至少一个相似度大于第一阈值，则将所述至少一个相似度中最大相似度对应的样本声纹特征确定为所述目标合成语音的目标声纹特征；
若所述相似度中存在至少两个相似度不大于所述第一阈值，且大于第二阈值，则根据所述至少两个相似度对应的样本声纹特征，确定所述目标合成语音的目标声纹特征。

4.如权利要求3所述的方法，其特征在于，根据所述至少两个相似度对应的样本声纹特征，确定所述目标合成语音的目标声纹特征，包括：
按照相似度从大到小的顺序，将所述至少两个相似度进行排序；
获取排序后的所述至少两个相似度中在前的预设数量的相似度；
将所述预设数量的相似度对应的样本声纹特征进行加权运算，得到加权声纹特征；
若所述加权声纹特征与所述用户的声纹特征的相似度大于所述第一阈值，则将所述加权声纹特征确定为所述目标合成语音的目标声纹特征。

5.如权利要求2所述的方法...

【专利技术属性】
技术研发人员：冯大航，陈孝良，
申请(专利权)人：北京声智科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人