语音数据处理方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:31171373 阅读:34 留言:0更新日期:2021-12-04 13:34
本申请提供一种语音数据处理方法、装置、设备、存储介质及程序产品,所述方法包括:获取采集到的待处理语音数据;获取更新后的识别模型,更新后的识别模型由终端根据个性训练数据集对初始识别模型进行更新得到,初始识别模型由服务端基于公共训练数据训练得到,个性训练数据集至少包括采集到的语音数据;将待处理语音数据输入至更新后的识别模型进行识别,得到识别结果;确定识别结果对应的控制指令,并执行控制指令。如此,在确保用户语音数据不出本地、确保用户隐私不被泄露的前提下,实现个性化、识别准确率高的语音识别服务。识别准确率高的语音识别服务。识别准确率高的语音识别服务。

【技术实现步骤摘要】
语音数据处理方法、装置、设备、存储介质及程序产品


[0001]本申请涉及人工智能
,涉及但不限于一种语音数据处理方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]随着人工智能、智能硬件等领域的发展,基于语音识别的人机交互方式越来越得到用户的认可。尤其在车载场景中,驾驶员通过语音唤醒车载智能交互系统,即可通过语音下达控制指令,既方便又安全。
[0003]相关技术中车载智能交互系统中的语音识别服务提供两种方式:一种是云语音识别服务,车载终端将用户的语音上传至云服务商服务器,云服务商服务器上的语音识别软件将语音转译成文字回传给用户,云服务语音识别服务的优势是计算能力强、可以持续的更新模型,在用户无感的状态下完成效果的提升,功能强大,但前提是必须联网,断网后语音识别服务不可用,并且需要上传用户语音,存在泄露用户声纹信息的风险,无法确保用户身份等隐私信息安全;另一种是通过车载终端私有化部署的语音识别服务将用户语音转译成文本,优点是无需联网,不存在隐私泄露问题,但受限于语音识别技术、终端计算及存储能力、复杂指令逻辑、复杂背景声音、用户口音等因素影响,导致识别能力较弱,识别成功率较低,并且需用户配合(包括使用标准普通话、声音大点、背景环境安静)才能完成识别,给用户带来不便。

技术实现思路

[0004]本申请实施例提供一种语音数据处理方法、装置、设备、计算机可读存储介质及计算机程序产品,不仅能够保护用户隐私安全,而且能够实现个性化、识别准确率高的语音识别服务。
[0005]本申请实施例的技术方案是这样实现的:
[0006]本申请实施例提供一种语音数据处理方法,所述方法应用于终端,所述方法包括:
[0007]获取采集到的待处理语音数据;
[0008]获取更新后的识别模型,所述更新后的识别模型由所述终端根据个性训练数据集对初始识别模型进行更新得到,所述初始识别模型由服务端基于公共训练数据训练得到,所述个性训练数据集至少包括采集到的语音数据;
[0009]将所述待处理语音数据输入至所述更新后的识别模型进行识别,得到识别结果;
[0010]确定所述识别结果对应的控制指令,并执行所述控制指令。
[0011]本申请实施例提供一种语音数据处理装置,所述装置包括:
[0012]第一获取模块,用于获取采集到的待处理语音数据;
[0013]第二获取模块,用于获取更新后的识别模型,所述更新后的识别模型由所述终端根据个性训练数据集对初始识别模型进行更新得到,所述初始识别模型由服务端基于公共训练数据训练得到,所述个性训练数据集至少包括采集到的语音数据;
[0014]识别模块,用于将所述待处理语音数据输入至所述更新后的识别模型进行识别,得到识别结果;
[0015]执行模块,用于确定所述识别结果对应的控制指令,并执行所述控制指令。
[0016]本申请实施例提供一种语音数据处理设备,所述设备包括:
[0017]存储器,用于存储可执行指令;
[0018]处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的语音数据处理方法。
[0019]本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的语音数据处理方法。
[0020]本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本申请实施例提供的语音数据处理方法。
[0021]本申请实施例具有以下有益效果:
[0022]在本申请实施例提供的语音数据处理方法中,服务端基于公共训练数据训练得到初始识别模型,将初始识别模型发送至终端,终端根据个性训练数据集对初始识别模型进行更新得到更新后的识别模型,该个性训练数据集至少包括采集到的语音数据。当终端获取采集到的待处理语音数据;将待处理语音数据输入至更新后的识别模型进行识别,得到识别结果;最后确定识别结果对应的控制指令,并执行控制指令。如此,在确保用户语音数据不出本地、确保用户隐私不被泄露的前提下,实现个性化、识别准确率高的语音识别服务。
附图说明
[0023]图1为本申请实施例提供的语音数据处理系统的一种网络架构示意图;
[0024]图2是本申请实施例提供的电子设备的一种组成结构示意图;
[0025]图3为本申请实施例提供的语音数据处理方法的一种实现流程示意图;
[0026]图4为本申请实施例提供的语音数据处理方法的另一种实现流程示意图;
[0027]图5为本申请实施例提供的语音识别服务自学习方法的实现流程图;
[0028]图6为本申请实施例提供的自学习引擎根据用户数据进行迁移学习的一种实现流程示意图。
具体实施方式
[0029]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0030]在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
[0031]在以下的描述中,所涉及的术语“第一\第二\第三”仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序
实施。
[0032]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
[0033]对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
[0034]1)迁移学习,是一种机器学习方法,就是把为任务A开发的模型作为初始点,重新使用在为任务B开发模型的过程中。
[0035]2)弱监督学习(weak supervised learning),是机器学习领域中的一个分支,与传统的监督学习相比,其使用有限的、含有噪声的或者标注不准确的数据来进行模型参数的训练。
[0036]基于上述对本申请实施例中涉及的名词和术语的解释,首先对本申请实施例提供的语音数据处理系统进行说明,参见图1,图1是本申请实施例提供的语音数据处理系统的一种网络架构示意图,该语音数据处理系统包括终端100、服务端200和网络300,其中终端100至少为一个,图1中以1个终端100为例示出。终端100通过网络300连接服务端200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。
[0037]在一些实施例中,终端100可以是智能本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音数据处理方法,其特征在于,所述方法应用于终端,所述方法包括:获取采集到的待处理语音数据;获取更新后的识别模型,所述更新后的识别模型由所述终端根据个性训练数据集对初始识别模型进行更新得到,所述初始识别模型由服务端基于公共训练数据训练得到,所述个性训练数据集至少包括采集到的语音数据;将所述待处理语音数据输入至所述更新后的识别模型进行识别,得到识别结果;确定所述识别结果对应的控制指令,并执行所述控制指令。2.根据权利要求1所述的方法,其特征在于,所述获取更新后的识别模型,包括:获取所述服务端发送的所述初始识别模型,并获取训练数据集,所述训练数据集还包括所述语音数据对应的文本数据;基于所述语音数据和所述文本数据,对所述初始识别模型进行迁移学习,得到迁移模型;基于所述迁移模型对所述初始识别模型进行更新,得到更新后的识别模型。3.根据权利要求2所述的方法,其特征在于,所述获取训练数据集包括:获取采集到的第一语音数据;当参考数据集中不存在与所述第一语音数据对应的目标参考数据时,获取预设时长内采集到的第二语音数据,所述参考数据集由所述服务端确定并发送至所述终端;当所述参考数据集中存在与所述第二语音数据对应的目标参考数据时,基于所述第一语音数据和所述第二语音数据确定一组训练数据;基于多次确定得到的多组训练数据构建训练数据集。4.根据权利要求3所述的方法,其特征在于,所述获取采集到的第一语音数据之后,所述方法还包括:基于所述初始识别模型对所述第一语音数据进行识别,得到第一文本数据;确定所述第一文本数据与各参考文本数据的匹配度,所述参考数据集中各参考数据包括参考语音数据和参考文本数据;当所述参考数据集中不存在匹配度大于预设匹配度阈值的参考文本数据时,确定所述参考数据集中不存在与所述第一语音数据对应的目标参考数据;当所述参考数据集中存在匹配度大于预设匹配度阈值的参考文本数据时,确定所述参考数据集中存在与所述第一语音数据对应的目标参考数据;所述目标参考数据为包括目标参考文本数据的参考数据,所述目标参考文本数据为匹配度大于预设匹配度阈值的参考文本数据。5.根据权利要求4所述的方法,其特征在于,所述基于所述第一语音数据和所述第二语音数据确定一组训练数据,包括:基于所述初始识别模型对所述第二语音数据进行识别,得到第二文本数据;将所述第一语音数据、所述第一文本数据、所述第二语音数据和所述第二文本数据确定为一组训练数据。6.根据权利要求2所述的方法,其特征在于,所述基于所述语音数据和所述文本数据,对所述初始识别模型进行迁移学习,得到迁移模型,包括:获取所述训练数据集包括的训练数据的数量;
当所述训练数据的数量达到第一数量阈值时,对所述训练数据集进行预处理,得到目标训练数据集,所述目标训练数据集包括目标训练数据;根据所述目标训练数据集对所述初始识别模型进行迁移学习,得到至少一个迁移模型。7.根据权利要求6所述的方法,其特征在于,所述对所述训练数据集进行预处理,得到目标训练数据集,包括:获取所述终端的状态信息,所述状态信息包括运行状态和剩余电能,所述运行状态包括空闲状态和工作状态;当所述运行状态为空闲状态、且所述剩余电能大于预设电能阈值时,对所述训练数据集中的各组训练数据进行预处理,得到各组训练数据对应的目标训练数据;基于所述各组训练数据对应的目标训练数据,确定目标训练数据集。8.根据权利要求7所述的方法,其特征在于,对所述训练数据集中的一组训练数据进行预处理,得到所述一组训练数据对应的目标训练数据,包括:分别确定所述一组训练数据包括的各第一文本数据与所述一组训练数据包括的第二文本数据的相似度;将相似度大于预设相似度阈值的每一第一文本数据确定为一个目标第一文本数据;将各个目标第一文本数据、所述各个目标第一文本数据对应的第一语音数据,确定为所述一组训练数据对应的目标训练数据。...

【专利技术属性】
技术研发人员:赵伟伟姜迪
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1