语音模型更新、语音数据处理方法、设备及存储介质技术

技术编号：29136552 阅读：29 留言：0更新日期：2021-07-02 22:32

本申请实施例提供一种语音模型更新、语音数据处理方法、设备及存储介质。在本申请的一些实施例中，利用用户自身的语音数据对语音模型进行训练，从而获得与用户适配的新的语音模型，用户使用与自己适配的语音模型，有利于提高模型运算结果的精度。

全部详细技术资料下载

【技术实现步骤摘要】
语音模型更新、语音数据处理方法、设备及存储介质
本申请涉及数据处理
，尤其涉及一种语音模型更新方法、语音数据处理方法、设备及存储介质。
技术介绍
神经网络模型是人工智能的基础。随着人工智能的发展，使用神经网络模型的产品越来越多。神经网络模型可分为有监督的和无监督的两种类型。有监督的神经网络模型利用标记数据来指导聚类过程，可以得到更好的效果。目前，主流的语音类产品或硬件多为服务提供商在云端统一部署一个大模型，大量用户使用语音类产品时，向云端并发请求获取信息；因此，云端需要超大资源，且支持高并发、高可靠性的语音引擎和服务。云端大模型的训练一般需要适配所有用户的语言特性和习惯，在模型的使用过程中也会存在精度低等问题。
技术实现思路
本申请的多个方面提供一种语音模型更新方法，数据处理方法，设备及存储介质，用以提高模型训练的效率以及模型在使用过程中的精度。本申请实施例提供一种语音模型更新方法，适用于语音设备，所述方法包括：对用户的语音数据进行标注，以获得标注数据集，所述用户是语音设备的使用用户；将所述标注数据集发送至服务器，以供服务器根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得为所述用户提供语音服务的新的语音模型；接收服务器下发的新的语音模型，并利用新的语音模型更新当前使用的语音模型。本申请实施例还提供一种语音模型更新方法，适用于服务器，包括：服务器接收语音设备发送的标注数据集，所述标注数据集是对语音设备的使用用户的语音...

【技术保护点】
1.一种语音模型更新方法，适用于语音设备，其特征在于，所述方法包括：/n对用户的语音数据进行标注，以获得标注数据集，所述用户是语音设备的使用用户；/n将所述标注数据集发送至服务器，以供服务器根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得为所述用户提供语音服务的新的语音模型；/n接收服务器下发的新的语音模型，并利用新的语音模型更新当前使用的语音模型。/n

【技术特征摘要】
1.一种语音模型更新方法，适用于语音设备，其特征在于，所述方法包括：
对用户的语音数据进行标注，以获得标注数据集，所述用户是语音设备的使用用户；
将所述标注数据集发送至服务器，以供服务器根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得为所述用户提供语音服务的新的语音模型；
接收服务器下发的新的语音模型，并利用新的语音模型更新当前使用的语音模型。

2.根据权利要求1所述的方法，其特征在于，对用户的语音数据进行标注，以获得标注数据集，包括：
展示第一界面，所述第一界面上显示有参考文本数据，以供用户输入相应语音数据；
响应用户的语音输入操作，获取用户的语音数据；
利用所述参考文本数据，对所述语音数据进行标注，得到标注数据集。

3.根据权利要求2所述的方法，其特征在于，在展示第一界面之前，还包括：
显示第二界面，第二界面包含文本输入控件；
响应用户通过所述文本输入控件发起的输入操作，获取用户输入的参考文本数据。

4.根据权利要求2所述的方法，其特征在于，利用所述参考文本数据，对所述语音数据进行标注，得到标注数据集，包括：
利用当前使用的语音模型将所述语音数据转换为对应的第一文本数据；
计算第一文本数据与所述参考文本数据之间的匹配度；
若所述匹配度大于或等于设定阈值，将所述第一文本数据作为所述语音数据的标注结果，得到所述标注数据集。

5.根据权利要求4所述的方法，其特征在于，还包括：
若所述匹配度小于设定阈值，发出提醒信息，以提醒用户重新输入与所述参考文本数据对应的语音数据。

6.根据权利要求1所述的方法，其特征在于，还包括：
获取非参考文本数据，将所述非参考文本数据上传至服务器，以供所述服务器结合所述非参考文本数据和所述标注数据集训练出新的语音模型。

7.根据权利要求6所述的方法，其特征在于，获取非参考文本数据，包括：
获取语音设备本地保存的联系人、歌曲列表和热词列表中的至少一种数据作为所述非参考文本数据。

8.一种语音模型更新方法，适用于服务器，其特征在于，包括：
服务器接收语音设备发送的标注数据集，所述标注数据集是对语音设备的使用用户的语音数据进行标注获得的；
根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得新的语音模型；
将所述新的语音模型下发至语音设备，以供语音设备更新当前使用的语音模型。

9.根据权利要求8所述的方法，其特征在于，根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得新的语音模型，包括以下至少一种操作：
响应收集标注数据集的周期到达事件，根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得新的语音模型；
响应用户通过终端设备发出的模型训练指令，根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得新的语音模型；
响应标注数据集的容量达到预设容量，根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得新的语音模型。

10.根据权利要求8所述的方法，其特征在于，还包括：
接收语音设备发送的实际语音数据，对所述新的语音模型进行更新，所述实际语音数据是语音设备的使用用户修正后的语音数据。

11.根据权利要求8所述的方法，其特征在于，在根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得新的语音模型之前，还包括：
计算第一标注数据的最大似然比的置信度，其中，第一标注数据为所述标注数据集中的任一条标注数据；
若第一标注数据的置信度大于等于设定阈值，则采用所述标注数据对语音设备当前使用的语音模型进行训练。

12.根据权利要求11所述的方法，其特征在于，还包括：
若第一标注数据的置信度小于设定阈值，则丢弃所述第一标注数据。

13.根据权利要求8-12任一项所述的方法，其特征在于，在根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得新的语音模型之前，还包括：
根据设定的应用场景，对用户的语音数据进行扩展，得到扩展后的语音数据；
对扩展后的语音数据进行标注，生成所述标注数据集。

14.根据权利要求13所述的方法，其特征在于，根据设定的应用场景，对用户的语音数据进行扩展，得到扩展后的语音数据，包括：
对任一语音数据，为所述语音数据进行在噪声、回声、安静场景下的语音信号处理，得到扩展后的语音数据。

15.一种语音设备，其特征在于，包括：存储器和处理器；
所述存储器，用于存储一条或多条计算机指令；
所述处理器，用于执行所述一条或多条计算机指令以用于：
对用户的语音数据进行标注，以获得标注数据集，所述用户是语音设备的使用用户；
将所述标注数据集发送至服务器，以供服务器根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得为所述用户提供语音服务的新的语音模型；
接收服务器下发的新的语音模型，并利用新的语音模型更新当前使用的语音模型。

16.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行包括以下的动作：
对用户的语音数据进行标注，以获得标注数据集，所述用户是语音设备的使用用户；
将所述标注数据集发送至服务器，以供服务器根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得为所述用户提供语音服务的新的语音模型；
接收服务器下发的新的语音模型，并利用新的语音模型更新当前使用的语音模型。

17.一种服务器，其特征在于，包括：存储器和处理器；
所述存储器，用于存储一条或多条计算机指令；
所述处理器，用于执行所述一条或多条计算机指令以用于：
服务器接收语音设备发送的标注数据集，所述标注数据集是对语音设备的使用用户的语音数据进行标注获得的；
根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得新的语音模型；
将所述新的语音模型下发至语音设备，以供语音设备更新当前使用的语音模型。

18.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行包括以下的动作：
服务器接收语音设备发送的标注数据集，所述标注数据集是对语音设备的使用用户的语音数据进行标注获得的；
根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得新的语音模型；
将所述新的语音模型下发至语音设备，以供语音设备更新当前使用的语音模型。

19.一种语音模型更新方法，适用于语音设备，其特征在于，包括：
对使用语音设备的用户的语音数据进行标注，以获得标注数据集；
根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得为所述用户提供语音服务的新的语音模型；
将当前使用的语音模型替换为新的语音模型。

20.根据权利要求19所述的方法，其特征在于，根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得为所述用户提供语音服务的新的语音模型，包括以下至少一种操作：
响应收集标注数据集的周期到达事件，根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得为所述用户提供语音服务的新的语音模型；
响应用户通过终端设备发出的模型训练指令，根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得为所述用户提供语音服务的新的语音模型；
响应标注数据集的容量达到预设容量，根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得为所述用户提供语音服务的新的语音模型；
响应用户以语音方式发出的模型训练指令，根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得为所述用户提供语音服务的新的语音模型。

21.一种语音设备，其特征在于，包括：存储器和处理器；
所述存储器，用于存储一条或多条计算机指令；
所述处理器，用于执行所述一条或多条计算机指令以用于：
对使用语音设备的用户的语音数据进行标注，以获得标注数据集；
根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得为所述用户提供语音服务的新的语音模型；
将当前使用的语音模型替换为新的语音模型。

22.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器执行包括以下的动作：
对使用语音设备的用户的语音数据进行标注，以获得标注数据集；
根据所述标注数据集对语音设备当前使用的语音模型进行训练，以获得为所述用户提供语音服务的新的语音模型；
将当前使用的语音模型替换为新的语音模型。

23.一种语音模型更新方法，适用于语音设备，其特征在于，包括：
展示第一界面，所述第一界面中展示有标注数据集，其中，所述标注数据集是对语音设备的使用用户的语音数据进行标注获得的；
响应训练数据选择操作，从所述标注数据集中选择出训练样本集；
将所述训练样本集发送至...

【专利技术属性】
技术研发人员：史鹏腾，万玉龙，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人