语音交互方法、装置、计算机可读存储介质和处理器制造方法及图纸

技术编号：26973588 阅读：29 留言：0更新日期：2021-01-06 00:07

本申请提供了一种语音交互方法、装置、计算机可读存储介质和处理器，该语音交互方法包括获取说话人的语音数据；根据语音数据，确定播报的预定语音音色；采用预定语音音色进行播报。该方法通过根据获取的语音数据确定播报的预定语音音色并采用预定语音音色进行播报，能够实现在与不同的用户进行语音交互时，智能推荐并切换播报音色，实现了对不同说话人采用不同的语音音色播报，同时该方法不需要依赖如活跃型、稳重型、幽默型、可爱型或较真型等语音风格的划分与定义，能较准确的预测和判断说话人对应的预定语音音色，满足对不同人群推荐不同音色的需求，显著地提升了用户在使用过程中的趣味性和个性化体验。

全部详细技术资料下载

【技术实现步骤摘要】
语音交互方法、装置、计算机可读存储介质和处理器
本申请涉及语音交互领域，具体而言，涉及一种语音交互方法、装置、计算机可读存储介质、处理器和语音交互系统。
技术介绍
当前语音交互技术广泛应用在智能机器人、智能音箱、智能车载、智能家居等领域，人们通过语音对话即可操纵设备或系统执行命令或者完成问答对话。但是，设备在进行语音交互时，通常使用一种系统预设的音色进行合成播报，较为单调。为了增加交互的趣味性和个性化，个别设备会设置多个音色库，用户需手动在系统设置中进行切换配置，但也无法满足在实时语音交互时自动切换音色且为不同人群推荐不同音色库的问题。当前的语音交互智能化推荐一般集中在内容推荐上，即为不同人群推荐个性化的内容，比如，音乐、故事或者问答等。在目前的语音交互系统中，用户与设备进行对话可得到系统预设的固定音色播报，即面对不同的用户，机器都会以同一种音色进行合成播报，不能针对不同的用户智能推荐不同的播报音色，无法提供更加个性化的服务。在
技术介绍
部分中公开的以上信息只是用来加强对本文所描述技术的
技术介绍
的理解，...

【技术保护点】
1.一种语音交互方法，其特征在于，包括：/n获取说话人的语音数据；/n根据所述语音数据，确定播报的预定语音音色；/n采用所述预定语音音色进行播报。/n

【技术特征摘要】
1.一种语音交互方法，其特征在于，包括：
获取说话人的语音数据；
根据所述语音数据，确定播报的预定语音音色；
采用所述预定语音音色进行播报。

2.根据权利要求1所述的方法，其特征在于，根据所述语音数据，确定播报的预定语音音色，包括：
提取所述语音数据的声纹特征；
根据所述声纹特征，确定所述预定语音音色。

3.根据权利要求2所述的方法，其特征在于，根据所述声纹特征，确定所述预定语音音色，包括：
确定声纹数据库中的与所述语音数据的声纹特征相匹配的声纹特征为目标声纹特征；
将所述目标声纹特征对应的人员确定为目标人员；
确定所述目标人员对应的预设的语音音色为所述预定语音音色。

4.根据权利要求3所述的方法，其特征在于，确定声纹数据库中的与所述语音数据的声纹特征相匹配的声纹特征为目标声纹特征，包括：
获取所述语音数据的声纹特征与所述声纹数据库中的各个声纹特征的声纹相似度；
确定所述声纹相似度是否大于声纹相似度阈值；
在所述声纹相似度大于所述声纹相似度阈值的情况下，确定最大声纹相似度对应的所述声纹数据库中的声纹特征为所述目标声纹特征。

5.根据权利要求3或4所述的方法，其特征在于，确定所述目标人员对应的预设的语音音色为所述预定语音音色，包括：
在音色库中查找所述目标人员对应的所述预设的语音音色；
确定所述预设的语音音色为所述预定语音音色。

6.根据权利要求1所述的方法，其特征...

【专利技术属性】
技术研发人员：焦金珂，李健，武卫东，陈明，
申请(专利权)人：北京捷通华声科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人