实现语音交互的方法及系统和服务端、客户端及智能音箱技术方案

技术编号：29794297 阅读：16 留言：0更新日期：2021-08-24 18:14

本申请公开了一种实现语音交互的方法及系统和服务端、客户端及智能音箱，一方面，在模型训练阶段，通过对大量不同发音人的语料的训练，可以得到多种具有不同声音特色的发音人，这样，用户可以在使用语音交互设备时，设置自己喜欢的声音作为发音人来实现与语音交互设备之间的语音交互。而且，在模型训练阶段也生成了多样化的唤醒词，丰富了用户与语音交互设备之间的唤醒操作。另一方面，用户可以按照自己的需求选择自己想要的唤醒词，并且，可以选择自己喜欢的声音作为用户后续与该客户端进行语音交互的发音人，实现了对语音交互产品的个性化设置，提升了用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
实现语音交互的方法及系统和服务端、客户端及智能音箱
本申请涉及但不限于智能语音技术，尤指一种实现语音交互的方法及系统和服务端、客户端及智能音箱。
技术介绍
相关技术中的语音交互产品多采用单角色的实现方案，也就是说，仅能通过一种唤醒方式来实现唤醒。这样，对于使用这些语音交互产品的用户而言，是无法实现个性化的。
技术实现思路
本申请提供一种实现语音交互的方法及系统和服务端、客户端及智能音箱，能够实现对语音交互产品的个性化设置，提升用户体验。本专利技术实施例提供了一种实现语音交互的系统，包括：包括服务端和客户端；其中，服务端包括：语音合成处理模块、语音唤醒处理模块、发布模块；其中，语音合成处理模块，设置为利用包括多个发音人真人录音的语料信息进行语音合成训练，得到语音合成模型；语音唤醒处理模块，设置为利用语音合成模型得到的多个发音人合成的音频数据对定义的唤醒词进行训练，得到语音唤醒模型；发布模块，设置为发布训练得到的对应不同发音人的音频训练数据，以及定义的唤醒词；客户端包括：设置处理模块，交互模块；其中，设置处理模块，设置为根据用户需求，从发布的音频训练数据以及唤醒词中选择当前唤醒词和用于语音交互的发音人；交互模块，设置为接收到来自用户发出的唤醒词，唤醒所在设备；采用用户选择的发音人与用户进行语音交互。本申请实施例还提供一种服务端，包括：语音合成处理模块、语音唤醒处理模块、发布模块；其中，语音合成处理模块，设置为利用包括多个发...

【技术保护点】
1.一种实现语音交互的系统，包括：包括服务端和客户端；其中，/n服务端包括：语音合成处理模块、语音唤醒处理模块、发布模块；其中，/n语音合成处理模块，设置为利用包括多个发音人真人录音的语料信息进行语音合成训练，得到语音合成模型；/n语音唤醒处理模块，设置为利用语音合成模型得到的多个发音人合成的音频数据对定义的唤醒词进行训练，得到语音唤醒模型；/n发布模块，设置为发布训练得到的对应不同发音人的音频训练数据，以及定义的唤醒词；/n客户端包括：设置处理模块，交互模块；其中，/n设置处理模块，设置为根据用户需求，从发布的音频训练数据以及唤醒词中选择当前唤醒词和用于语音交互的发音人；/n交互模块，设置为接收到来自用户发出的唤醒词，唤醒所在设备；采用用户选择的发音人与用户进行语音交互。/n

【技术特征摘要】
1.一种实现语音交互的系统，包括：包括服务端和客户端；其中，
服务端包括：语音合成处理模块、语音唤醒处理模块、发布模块；其中，
语音合成处理模块，设置为利用包括多个发音人真人录音的语料信息进行语音合成训练，得到语音合成模型；
语音唤醒处理模块，设置为利用语音合成模型得到的多个发音人合成的音频数据对定义的唤醒词进行训练，得到语音唤醒模型；
发布模块，设置为发布训练得到的对应不同发音人的音频训练数据，以及定义的唤醒词；
客户端包括：设置处理模块，交互模块；其中，
设置处理模块，设置为根据用户需求，从发布的音频训练数据以及唤醒词中选择当前唤醒词和用于语音交互的发音人；
交互模块，设置为接收到来自用户发出的唤醒词，唤醒所在设备；采用用户选择的发音人与用户进行语音交互。

2.一种服务端，包括：语音合成处理模块、语音唤醒处理模块、发布模块；其中，
语音合成处理模块，设置为利用包括多个发音人真人录音的语料信息进行语音合成训练，得到语音合成模型；
语音唤醒处理模块，设置为利用语音合成模型得到的多个发音人合成的音频数据对定义的唤醒词进行训练，得到语音唤醒模型；
发布模块，设置为发布训练得到的对应不同发音人的音频训练数据，以及定义的唤醒词。

3.一种客户端，包括：设置处理模块，交互模块；其中，
设置处理模块，设置为根据用户需求，从发布的音频训练数据以及唤醒词中选择当前唤醒词和用于语音交互的发音人；
交互模块，设置为接收到来自用户发出的唤醒词，唤醒所在设备；采用用户选择的发音人与用户进行语音交互。

4.一种实现语音交互的方法，包括：
利用包括多个发音人真人录音的语料信息进行语音合成训练，得到语音合成模型；
利用语音合成模型得到的多个发音人合成的音频数据对定义的唤醒词进行训练，得到语音唤醒模型；
发布训练得到的对应不同发音人的音频训练数据，以及定义的唤醒词。

5.一种实现语音交互的方法，包括：
根据用户需求，从发布...

【专利技术属性】
技术研发人员：周光东，
申请(专利权)人：阿里巴巴新加坡控股有限公司，
类型：发明
国别省市：新加坡;SG

全部详细技术资料下载我是这个专利的主人