语音交互的方法、语音交互的装置和计算机可读存储介质制造方法及图纸

技术编号：35826413 阅读：18 留言：0更新日期：2022-12-03 13:53

本申请提供了一种语音交互的方法、语音交互的装置和计算机可读存储介质。该方法包括：获取说话者的语音信息；对语音信息进行识别，确定语音信息对应的目标方言；至少根据语音信息，确定与说话者匹配的讲话风格；根据讲话风格和语音信息生成回复信息，并控制音频播报设备播放回复信息对应的语音，控制音频播报设备播放回复信息对应的语音是采用目标方言进行播报的。该方案中，对说话者的语音进行识别，可以生成符合说话者的方言特征的回复信息，这样可以使用说话者的方言与说话者进行交流，并且可以自动匹配合适的讲话风格，这样回答说话者的问题时候回复内容的相似度较低，是个性化的回复，改善了用户的体验效果。改善了用户的体验效果。改善了用户的体验效果。

全部详细技术资料下载

【技术实现步骤摘要】
语音交互的方法、语音交互的装置和计算机可读存储介质

[0001]本申请涉及语音合成
，具体而言，涉及一种语音交互的方法、语音交互的装置和计算机可读存储介质。

技术介绍

[0002]我国地大物博，地区辽阔，现代汉语在不同地区有着语音、语法、习惯用语的众多差异。不同地区的人在使用对话助手系统时，大多需要使用普通话与对话助手进行交互，即使能使用方言与对话助手交流，对话助手也只是将方言转换成普通话后，经过自然语音理解，使用统一的标准话术回复，无法达到人与人之间亲切自然地沟通，在语义理解上，对话助手直接使用方言系统，这样会导致每个方言系统都需要单独训练方言模型，整个系统的扩展性较差，且播报音色大多数为普通话。因此，目前的对话助手中，由于无法使用方言与用户进行交流，回答用户的问题时回复内容的相似度较高，导致用户的体验效果较差。

技术实现思路

[0003]本申请的主要目的在于提供一种语音交互的方法、语音交互的装置和计算机可读存储介质，以解决现有技术中目前的对话助手中，由于无法使用方言与用户进行交流，回答用户的问题时回复内容的相似度较高，导致用户的体验效果较差的问题。
[0004]根据本专利技术实施例的一个方面，提供了一种语音交互的方法，包括：获取说话者的语音信息，所述语音信息是指所述说话者在说话的过程中发出的语音的信息；对所述语音信息进行识别，确定所述语音信息对应的目标方言；至少根据所述语音信息，确定与所述说话者匹配的讲话风格，所述讲话风格是指所述说话者的口语习惯的风格；根据所述讲话风格和所述语音信息...

【技术保护点】

【技术特征摘要】
1.一种语音交互的方法，其特征在于，包括：获取说话者的语音信息，所述语音信息是指所述说话者在说话的过程中发出的语音的信息；对所述语音信息进行识别，确定所述语音信息对应的目标方言；至少根据所述语音信息，确定与所述说话者匹配的讲话风格，所述讲话风格是指所述说话者的口语习惯的风格；根据所述讲话风格和所述语音信息生成回复信息，并控制音频播报设备播放所述回复信息对应的语音，其中，所述回复信息是对应所述说话者的所述语音信息的回复内容的信息，控制所述音频播报设备播放所述回复信息对应的语音是采用所述目标方言进行播报的。2.根据权利要求1所述的方法，其特征在于，对所述语音信息进行识别，确定所述语音信息对应的目标方言，包括：采集初始语音数据，根据所述初始语音数据构建方言库，所述初始语音数据包括多个地区的方言的语音数据，一个所述方言库包括一种方言的语音数据；对所述初始语音数据进行预处理，得到训练语音数据，所述预处理包括以下至少之一：分词处理、过滤非方言数据处理、去停用词处理；构建方言识别模型，其中，所述方言识别模型是使用多组训练数据训练得到的，所述多组训练数据中的每一组训练数据均包括所述训练语音数据和所述训练语音数据对应的方言；将所述语音信息输入至所述方言识别模型中进行识别，得到识别结果，其中，所述识别结果是指所述语音信息对应的所述目标方言。3.根据权利要求2所述的方法，其特征在于，将所述语音信息输入至所述方言识别模型中进行识别，得到识别结果，包括：从多个所述方言中选取出与所述语音信息相似度大于或者等于相似度阈值的多个初始方言；从多个所述初始方言中选取出所述相似度最大的所述目标方言，得到目标识别结果。4.根据权利要求1所述的方法，其特征在于，至少根据所述语音信息，确定与所述说话者匹配的讲话风格，包括：获取预先输入的所述说话者的特征信息，所述特征信息包括以下至少之一：性别、年龄、职业、民族、地区、兴趣；根据所述说话者的所述特征信息构建用户画像；将所述说话者的所述语音信息转换为目标文本信息，所述目标文本信息是指目标语言的所述语音信息对应的文本信息；根据所述用户画像、所述目标文本信息和所述语音信息，确定与所述说话者匹配的所述讲话风格。5.根据权利要求4所述的方法，其特征在于，根据所述用户画像、所述目标文本信息和所述语音信息，确定与所述说话者匹配的所述讲话风格，包括：根据所述目标文本信息进...

【专利技术属性】
技术研发人员：林琦，谢园园，唐雄飞，李健，陈明，武卫东，
申请(专利权)人：北京捷通华声科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人