用户语音数据处理方法、装置及电子设备制造方法及图纸

技术编号：33089499 阅读：36 留言：0更新日期：2022-04-15 11:00

本申请涉及一种用户语音数据处理方法、装置、电子设备及计算机可读介质。该方法包括：获取来自用户的语音数据；将所述语音数据输入声学模型中，生成多个音素数据；将所述音素数据输入发音模型中，生成多维字符查询矩阵，所述多维字符查询矩阵中包括多个维度，每个维度均包括多个字符和其对应的概率值；将所述多维字符查询矩阵输入语言模型中，生成语义文本；基于所述语义文本生成响应数据以反馈给所述用户。本申请涉及的用户语音数据处理方法、装置、电子设备及计算机可读介质，能够快速准确的对用户的语音数据进行识别，从而更加顺畅的和用户进行交互，快速响应用户的指令，提升用户整体满意度、提升业务处理效率。提升业务处理效率。提升业务处理效率。

全部详细技术资料下载

【技术实现步骤摘要】
用户语音数据处理方法、装置及电子设备

[0001]本申请涉及计算机信息处理领域，具体而言，涉及一种用户语音数据处理方法、装置、电子设备及计算机可读介质。

技术介绍

[0002]智能语音机器人基于语音识别与合成、机器学习和自然语言理解等技术，根据业务场景自动发起智能语音机器人电话外呼任务，通过人与机器人的语音对话交互收集业务结果，并对数据加以统计处理，获取用户反馈。智能语音机器人是面向开发者的会话智能语音机器人，可在不同的消息端上实现基于自然语言处理的智能会话，如网站、APP及实体机器人等。用户可以配置自己特有的知识库实现智能问答，也可以通过多轮对话与第三方API集成实现自助服务，如：订单查询，物流跟踪，自助退货机器人等。智能语音机器人能实现从对话录音或者对话文本中，基于智能规则，分析对话内容，挖掘对话中可能存在的问题和机会。能帮助企业提升服务质量、监控舆情风险、优化服务策略，典型应用场景有智能客服质检、销售机会分析等。
[0003]智能语音机器技术落地商业用途时，往往是针对某一个场景仿真训练，进而生成语义识别类的机器学习模型解决问题。而在落地时，现实生活往往会使机器学习模型出现长尾问题。长尾问题的出现一部分原因是模型训练数据的覆盖不完整，另一部分原因是模型设计之初并未考虑到某种场景，这些场景可以包括识别环境的噪声非常大，亦或是多人讨论，再或者是待识别场景出现大量不常见的专用名词(例如原发性高草尿酸症1型，诺西那生钠等)等。针对第一部分原因，研究者可以采取扩充数据集的做法来解决，这往往是解决长尾问题的首选方案，...

【技术保护点】

【技术特征摘要】
1.一种用户语音数据处理方法，其特征在于，包括：获取来自用户的语音数据；将所述语音数据输入声学模型中，生成多个音素数据；将所述音素数据输入发音模型中，生成多维字符查询矩阵，所述多维字符查询矩阵中包括多个维度，每个维度均包括多个字符和其对应的概率值；将所述多维字符查询矩阵输入语言模型中，生成语义文本；基于所述语义文本生成响应数据以反馈给所述用户。2.如权利要求1所述的方法，其特征在于，还包括：基于多个历史语音数据对语音识别模型进行训练以生成所述声学模型；基于多个历史音素数据对3
‑
gram模型进行训练以生成所述发音模型；基于多个历史多维字符查询矩阵对GRU模型进行训练以生成所述语言模型。3.如权利要求1所述的方法，其特征在于，将所述音素数据输入发音模型中，生成多维字符查询矩阵，包括：将所述音素数据输入发音模型；所述发音模型将所述音素数据切分为多个短音频；对所述多个短音频的出现频率进行统计，生成多组统计结果；根据多组统计结果为多维初始查询矩阵中的字符赋值以生成所述多维字符查询矩阵；其中所述多维初始查询矩阵中的字符值为0。4.如权利要求1所述的方法，其特征在于，将所述多维字符查询矩阵输入语言模型中，生成语义文本，包括：将所述多维字符查询矩阵输入语言模型；所述语言模型中的更新门函数、重置门函数基于所述多维字符查询矩阵生成多个更新值、多个重置值；根据所述多个更新值和所述多个重置值生成多个字符文本和其对应的评分；将评分最高的字符文本作为所述语音文本。5.如权利要求1所述的方法，其特征在于，基于所述语义文本生成响应数据以反馈给所述用户，包括：基于所述语义文本生成智能语音机器人的响应数据以与所述用户进行智能语音对话；和/或基于所述语义文本生成用户指令，基于所述用户指令生成响应数据以反馈给所述用户。6.如权利要求2所述的方法，其特征在于，基于多个历史音素数据对3
‑
gram模型进行训练以生成所述发音模型，包括：将多个历史音素数据分别切分为多个短音频，生成多个短音频组；为所述多个短音频组中每个短音频设置字符标签；基于带有字符标签的多个短音频组分别对3
‑
gram模型进行训练以生成所述发音模型。7.如权利要求6所述的方法，其特征在于，基于带有字符标签的多个短音频组分别对3
‑
gram模型进行训练以生成所述发音模型，包括：基于字符...

【专利技术属性】
技术研发人员：郑渊中，叶峰，朱小波，疏北平，
申请(专利权)人：上海淇玥信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人