实现语音交互的方法及系统和服务端、客户端及智能音箱技术方案

技术编号:29794297 阅读:16 留言:0更新日期:2021-08-24 18:14
本申请公开了一种实现语音交互的方法及系统和服务端、客户端及智能音箱,一方面,在模型训练阶段,通过对大量不同发音人的语料的训练,可以得到多种具有不同声音特色的发音人,这样,用户可以在使用语音交互设备时,设置自己喜欢的声音作为发音人来实现与语音交互设备之间的语音交互。而且,在模型训练阶段也生成了多样化的唤醒词,丰富了用户与语音交互设备之间的唤醒操作。另一方面,用户可以按照自己的需求选择自己想要的唤醒词,并且,可以选择自己喜欢的声音作为用户后续与该客户端进行语音交互的发音人,实现了对语音交互产品的个性化设置,提升了用户体验。

【技术实现步骤摘要】
实现语音交互的方法及系统和服务端、客户端及智能音箱
本申请涉及但不限于智能语音技术,尤指一种实现语音交互的方法及系统和服务端、客户端及智能音箱。
技术介绍
相关技术中的语音交互产品多采用单角色的实现方案,也就是说,仅能通过一种唤醒方式来实现唤醒。这样,对于使用这些语音交互产品的用户而言,是无法实现个性化的。
技术实现思路
本申请提供一种实现语音交互的方法及系统和服务端、客户端及智能音箱,能够实现对语音交互产品的个性化设置,提升用户体验。本专利技术实施例提供了一种实现语音交互的系统,包括:包括服务端和客户端;其中,服务端包括:语音合成处理模块、语音唤醒处理模块、发布模块;其中,语音合成处理模块,设置为利用包括多个发音人真人录音的语料信息进行语音合成训练,得到语音合成模型;语音唤醒处理模块,设置为利用语音合成模型得到的多个发音人合成的音频数据对定义的唤醒词进行训练,得到语音唤醒模型;发布模块,设置为发布训练得到的对应不同发音人的音频训练数据,以及定义的唤醒词;客户端包括:设置处理模块,交互模块;其中,设置处理模块,设置为根据用户需求,从发布的音频训练数据以及唤醒词中选择当前唤醒词和用于语音交互的发音人;交互模块,设置为接收到来自用户发出的唤醒词,唤醒所在设备;采用用户选择的发音人与用户进行语音交互。本申请实施例还提供一种服务端,包括:语音合成处理模块、语音唤醒处理模块、发布模块;其中,语音合成处理模块,设置为利用包括多个发音人真人录音的语料信息进行语音合成训练,得到语音合成模型;语音唤醒处理模块,设置为利用语音合成模型得到的多个发音人合成的音频数据对定义的唤醒词进行训练,得到语音唤醒模型;发布模块,设置为发布训练得到的对应不同发音人的音频训练数据,以及定义的唤醒词。本申请实施例还提供一种客户端,包括:设置处理模块,交互模块;其中,设置处理模块,设置为根据用户需求,从发布的音频训练数据以及唤醒词中选择当前唤醒词和用于语音交互的发音人;交互模块,设置为接收到来自用户发出的唤醒词,唤醒所在设备;采用用户选择的发音人与用户进行语音交互。在一种示例性实例中,所述设置处理模块还设置为:从所述发布的音频训练数据以及唤醒词中下载部分或全部到所述客户端。在一种示例性实例中,所述客户端还包括:上传处理模块,设置为按照用户需求,录制用户设定的唤醒词;将录制的唤醒词上传给所述服务端。本申请实施例还提供一种实现语音交互的方法,包括:利用包括多个发音人真人录音的语料信息进行语音合成训练,得到语音合成模型;利用语音合成模型得到的多个发音人合成的音频数据对定义的唤醒词进行训练,得到语音唤醒模型;发布训练得到的对应不同发音人的音频训练数据,以及定义的唤醒词。本申请实施例还提供一种实现语音交互的方法,包括:根据用户需求,从发布的音频训练数据以及唤醒词中选择当前唤醒词和用于语音交互的发音人;根据接收到的唤醒词,唤醒所在设备;采用选择的发音人与用户进行语音交互。在一种示例性实例中,还包括:从所述发布的音频训练数据以及唤醒词中下载部分或全部。在一种示例性实例中,还包括:按照用户需求,录制用户设定的唤醒词;将录制的唤醒词上传给服务端。本申请实施例还提供一种实现语音交互的方法,包括:向用户展示对应不同发音人的音频训练数据以及唤醒词;根据用户的选择,设置用于唤醒语音交互设备的唤醒词和用于与用户进行语音交互的发音人;根据设置的唤醒词和发音人,下载对应的语音合成模型和语音唤醒模型。在一种示例性实例中,所述关键词为所述发音人的名字。在一种示例性实例中,还包括:接收到来自用户的录制指令,录制用户自定义的唤醒词;将录制的唤醒词上传给服务端,以对新的唤醒词进行训练并更新所述语音唤醒模型。本申请实施例还提供一种实现语音交互的方法,包括:收到来自用户的语音信息,根据设置好的唤醒词和下载的语音唤醒模型,判断出来自用户的语音信息与语音唤醒模块匹配时,唤醒语音交互设备;利用下载的语音合成模型,将设置的发音人作为语音唤醒设备的语音助手进行与用户的交互。本申请实施例又提供一种实现语音交互的方法,包括:向用户展示用于实现与语音交互设备进行交互的语音助手的角色列表和唤醒词列表;根据用户的选择确定唤醒词和当前与语音交互设备进行交互的语音助手;接收到来自用用户的唤醒词,唤醒语音交互设备;与用户选定的语音助手进行语音交互。在一种示例性实例中,还包括:接收到来自用户的录制指令,录制用户自定义的唤醒词;将录制的唤醒词上传给服务端,以对新的唤醒词进行训练并更新所述唤醒词列表。本申请实施例还提供一种智能音箱,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上述本申请实施例又提供的实现语音交互的方法的步骤。本申请实施例还提供一种实现语音交互的设备,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上述任一项所述的实现语音交互的方法的步骤。本申请实施例在模型训练阶段,通过对大量不同发音人的语料的训练,可以得到多种具有不同声音特色的发音人,这样,用户可以在使用语音交互设备时,设置自己喜欢的声音作为发音人来实现与语音交互设备之间的语音交互。而且,在模型训练阶段也生成了多样化的唤醒词,丰富了用户与语音交互设备之间的唤醒操作。通过本申请实施例中提供的实现语音交互的系统,用户可以按照自己的需求选择自己想要的唤醒词,并且,可以选择自己喜欢的声音作为用户后续与该客户端进行语音交互的发音人,实现了对语音交互产品的个性化设置,提升了用户体验。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。图1为本申请实施例中实现语音交互的系统的组成结构示意图;图2为本申请实现语音交互的方法的一实施例的流程图;图3为本申请实现语音交互的方法的另一实施例的流程图;图4为本申请实现语音交的方法的应用场景示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在本申请一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久本文档来自技高网...

【技术保护点】
1.一种实现语音交互的系统,包括:包括服务端和客户端;其中,/n服务端包括:语音合成处理模块、语音唤醒处理模块、发布模块;其中,/n语音合成处理模块,设置为利用包括多个发音人真人录音的语料信息进行语音合成训练,得到语音合成模型;/n语音唤醒处理模块,设置为利用语音合成模型得到的多个发音人合成的音频数据对定义的唤醒词进行训练,得到语音唤醒模型;/n发布模块,设置为发布训练得到的对应不同发音人的音频训练数据,以及定义的唤醒词;/n客户端包括:设置处理模块,交互模块;其中,/n设置处理模块,设置为根据用户需求,从发布的音频训练数据以及唤醒词中选择当前唤醒词和用于语音交互的发音人;/n交互模块,设置为接收到来自用户发出的唤醒词,唤醒所在设备;采用用户选择的发音人与用户进行语音交互。/n

【技术特征摘要】
1.一种实现语音交互的系统,包括:包括服务端和客户端;其中,
服务端包括:语音合成处理模块、语音唤醒处理模块、发布模块;其中,
语音合成处理模块,设置为利用包括多个发音人真人录音的语料信息进行语音合成训练,得到语音合成模型;
语音唤醒处理模块,设置为利用语音合成模型得到的多个发音人合成的音频数据对定义的唤醒词进行训练,得到语音唤醒模型;
发布模块,设置为发布训练得到的对应不同发音人的音频训练数据,以及定义的唤醒词;
客户端包括:设置处理模块,交互模块;其中,
设置处理模块,设置为根据用户需求,从发布的音频训练数据以及唤醒词中选择当前唤醒词和用于语音交互的发音人;
交互模块,设置为接收到来自用户发出的唤醒词,唤醒所在设备;采用用户选择的发音人与用户进行语音交互。


2.一种服务端,包括:语音合成处理模块、语音唤醒处理模块、发布模块;其中,
语音合成处理模块,设置为利用包括多个发音人真人录音的语料信息进行语音合成训练,得到语音合成模型;
语音唤醒处理模块,设置为利用语音合成模型得到的多个发音人合成的音频数据对定义的唤醒词进行训练,得到语音唤醒模型;
发布模块,设置为发布训练得到的对应不同发音人的音频训练数据,以及定义的唤醒词。


3.一种客户端,包括:设置处理模块,交互模块;其中,
设置处理模块,设置为根据用户需求,从发布的音频训练数据以及唤醒词中选择当前唤醒词和用于语音交互的发音人;
交互模块,设置为接收到来自用户发出的唤醒词,唤醒所在设备;采用用户选择的发音人与用户进行语音交互。


4.一种实现语音交互的方法,包括:
利用包括多个发音人真人录音的语料信息进行语音合成训练,得到语音合成模型;
利用语音合成模型得到的多个发音人合成的音频数据对定义的唤醒词进行训练,得到语音唤醒模型;
发布训练得到的对应不同发音人的音频训练数据,以及定义的唤醒词。


5.一种实现语音交互的方法,包括:
根据用户需求,从发布...

【专利技术属性】
技术研发人员:周光东
申请(专利权)人:阿里巴巴新加坡控股有限公司
类型:发明
国别省市:新加坡;SG

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1