语音数据处理方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号：31171373 阅读：34 留言：0更新日期：2021-12-04 13:34

本申请提供一种语音数据处理方法、装置、设备、存储介质及程序产品，所述方法包括：获取采集到的待处理语音数据；获取更新后的识别模型，更新后的识别模型由终端根据个性训练数据集对初始识别模型进行更新得到，初始识别模型由服务端基于公共训练数据训练得到，个性训练数据集至少包括采集到的语音数据；将待处理语音数据输入至更新后的识别模型进行识别，得到识别结果；确定识别结果对应的控制指令，并执行控制指令。如此，在确保用户语音数据不出本地、确保用户隐私不被泄露的前提下，实现个性化、识别准确率高的语音识别服务。识别准确率高的语音识别服务。识别准确率高的语音识别服务。

全部详细技术资料下载

【技术实现步骤摘要】
语音数据处理方法、装置、设备、存储介质及程序产品

[0001]本申请涉及人工智能
，涉及但不限于一种语音数据处理方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]随着人工智能、智能硬件等领域的发展，基于语音识别的人机交互方式越来越得到用户的认可。尤其在车载场景中，驾驶员通过语音唤醒车载智能交互系统，即可通过语音下达控制指令，既方便又安全。
[0003]相关技术中车载智能交互系统中的语音识别服务提供两种方式：一种是云语音识别服务，车载终端将用户的语音上传至云服务商服务器，云服务商服务器上的语音识别软件将语音转译成文字回传给用户，云服务语音识别服务的优势是计算能力强、可以持续的更新模型，在用户无感的状态下完成效果的提升，功能强大，但前提是必须联网，断网后语音识别服务不可用，并且需要上传用户语音，存在泄露用户声纹信息的风险，无法确保用户身份等隐私信息安全；另一种是通过车载终端私有化部署的语音识别服务将用户语音转译成文本，优点是无需联网，不存在隐私泄露问题，但受限于语音识别技术、终端计算及存储能力、复杂指令逻辑、复杂背景声音、用户口音等因素影响，导致识别能力较弱，识别成功率较低，并且需用户配合(包括使用标准普通话、声音大点、背景环境安静)才能完成识别，给用户带来不便。

技术实现思路

[0004]本申请实施例提供一种语音数据处理方法、装置、设备、计算机可读存储介质及计算机程序产品，不仅能够保护用户隐私安全，而且能够实现个性化、识别准确率高的语音识别服务。
[0005]本申请实施...

【技术保护点】

【技术特征摘要】
1.一种语音数据处理方法，其特征在于，所述方法应用于终端，所述方法包括：获取采集到的待处理语音数据；获取更新后的识别模型，所述更新后的识别模型由所述终端根据个性训练数据集对初始识别模型进行更新得到，所述初始识别模型由服务端基于公共训练数据训练得到，所述个性训练数据集至少包括采集到的语音数据；将所述待处理语音数据输入至所述更新后的识别模型进行识别，得到识别结果；确定所述识别结果对应的控制指令，并执行所述控制指令。2.根据权利要求1所述的方法，其特征在于，所述获取更新后的识别模型，包括：获取所述服务端发送的所述初始识别模型，并获取训练数据集，所述训练数据集还包括所述语音数据对应的文本数据；基于所述语音数据和所述文本数据，对所述初始识别模型进行迁移学习，得到迁移模型；基于所述迁移模型对所述初始识别模型进行更新，得到更新后的识别模型。3.根据权利要求2所述的方法，其特征在于，所述获取训练数据集包括：获取采集到的第一语音数据；当参考数据集中不存在与所述第一语音数据对应的目标参考数据时，获取预设时长内采集到的第二语音数据，所述参考数据集由所述服务端确定并发送至所述终端；当所述参考数据集中存在与所述第二语音数据对应的目标参考数据时，基于所述第一语音数据和所述第二语音数据确定一组训练数据；基于多次确定得到的多组训练数据构建训练数据集。4.根据权利要求3所述的方法，其特征在于，所述获取采集到的第一语音数据之后，所述方法还包括：基于所述初始识别模型对所述第一语音数据进行识别，得到第一文本数据；确定所述第一文本数据与各参考文本数据的匹配度，所述参考数据集中各参考数据包括参考语音数据和参考文本数据；当所述参考数据集中不存在匹配度大于预设匹配度阈值的参考文本数据时，确定所述参考数据集中不存在与所述第一语音数据对应的目标参考数据；当所述参考数据集中存在匹配度大于预设匹配度阈值的参考文本数据时，确定所述参考数据集中存在与所述第一语音数据对应的目标参考数据；所述目标参考数据为包括目标参考文本数据的参考数据，所述目标参考文本数据为匹配度大于预设匹配度阈值的参考文本数据。5.根据权利要求4所述的方法，其特征在于，所述基于所述第一语音数据和所述第二语音数据确定一组训练数据，包括：基于所述初始识别模型对所述第二语音数据进行识别，得到第二文本数据；将所述第一语音数据、所述第一文本数据、所述第二语音数据和所述第二文本数据确定为一组训练数据。6.根据权利要求2所述的方法，其特征在于，所述基于所述语音数据和所述文本数据，对所述初始识别模型进行迁移学习，得到迁移模型，包括：获取所述训练数据集包括的训练数据的数量；
当所述训练数据的数量达到第一数量阈值时，对所述训练数据集进行预处理，得到目标训练数据集，所述目标训练数据集包括目标训练数据；根据所述目标训练数据集对所述初始识别模型进行迁移学习，得到至少一个迁移模型。7.根据权利要求6所述的方法，其特征在于，所述对所述训练数据集进行预处理，得到目标训练数据集，包括：获取所述终端的状态信息，所述状态信息包括运行状态和剩余电能，所述运行状态包括空闲状态和工作状态；当所述运行状态为空闲状态、且所述剩余电能大于预设电能阈值时，对所述训练数据集中的各组训练数据进行预处理，得到各组训练数据对应的目标训练数据；基于所述各组训练数据对应的目标训练数据，确定目标训练数据集。8.根据权利要求7所述的方法，其特征在于，对所述训练数据集中的一组训练数据进行预处理，得到所述一组训练数据对应的目标训练数据，包括：分别确定所述一组训练数据包括的各第一文本数据与所述一组训练数据包括的第二文本数据的相似度；将相似度大于预设相似度阈值的每一第一文本数据确定为一个目标第一文本数据；将各个目标第一文本数据、所述各个目标第一文本数据对应的第一语音数据，确定为所述一组训练数据对应的目标训练数据。...

【专利技术属性】
技术研发人员：赵伟伟，姜迪，
申请(专利权)人：深圳前海微众银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人