用户语音数据处理方法、装置及电子设备制造方法及图纸

技术编号:33089499 阅读:36 留言:0更新日期:2022-04-15 11:00
本申请涉及一种用户语音数据处理方法、装置、电子设备及计算机可读介质。该方法包括:获取来自用户的语音数据;将所述语音数据输入声学模型中,生成多个音素数据;将所述音素数据输入发音模型中,生成多维字符查询矩阵,所述多维字符查询矩阵中包括多个维度,每个维度均包括多个字符和其对应的概率值;将所述多维字符查询矩阵输入语言模型中,生成语义文本;基于所述语义文本生成响应数据以反馈给所述用户。本申请涉及的用户语音数据处理方法、装置、电子设备及计算机可读介质,能够快速准确的对用户的语音数据进行识别,从而更加顺畅的和用户进行交互,快速响应用户的指令,提升用户整体满意度、提升业务处理效率。提升业务处理效率。提升业务处理效率。

【技术实现步骤摘要】
用户语音数据处理方法、装置及电子设备


[0001]本申请涉及计算机信息处理领域,具体而言,涉及一种用户语音数据处理方法、装置、电子设备及计算机可读介质。

技术介绍

[0002]智能语音机器人基于语音识别与合成、机器学习和自然语言理解等技术,根据业务场景自动发起智能语音机器人电话外呼任务,通过人与机器人的语音对话交互收集业务结果,并对数据加以统计处理,获取用户反馈。智能语音机器人是面向开发者的会话智能语音机器人,可在不同的消息端上实现基于自然语言处理的智能会话,如网站、APP及实体机器人等。用户可以配置自己特有的知识库实现智能问答,也可以通过多轮对话与第三方API集成实现自助服务,如:订单查询,物流跟踪,自助退货机器人等。智能语音机器人能实现从对话录音或者对话文本中,基于智能规则,分析对话内容,挖掘对话中可能存在的问题和机会。能帮助企业提升服务质量、监控舆情风险、优化服务策略,典型应用场景有智能客服质检、销售机会分析等。
[0003]智能语音机器技术落地商业用途时,往往是针对某一个场景仿真训练,进而生成语义识别类的机器学习模型解决问题。而在落地时,现实生活往往会使机器学习模型出现长尾问题。长尾问题的出现一部分原因是模型训练数据的覆盖不完整,另一部分原因是模型设计之初并未考虑到某种场景,这些场景可以包括识别环境的噪声非常大,亦或是多人讨论,再或者是待识别场景出现大量不常见的专用名词(例如原发性高草尿酸症1型,诺西那生钠等)等。针对第一部分原因,研究者可以采取扩充数据集的做法来解决,这往往是解决长尾问题的首选方案,但过多数据往往会使得模型计算复杂度增加;针对第二方面原因,更多是从业务逻辑和业务场景去解决,并没有一个很好的解决方案。
[0004]因此,需要一种新的用户语音数据处理方法、装置、电子设备及计算机可读介质。
[0005]在所述
技术介绍
部分公开的上述信息仅用于加强对本申请的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]有鉴于此,本申请提供一种用户语音数据处理方法、装置、电子设备及计算机可读介质,能够快速准确的对用户的语音数据进行识别,从而更加顺畅的和用户进行交互,快速响应用户的指令,提升用户整体满意度、提升业务处理效率。
[0007]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0008]根据本申请的一方面,提出一种用户语音数据处理方法,该方法包括:获取来自用户的语音数据;将所述语音数据输入声学模型中,生成多个音素数据;将所述音素数据输入发音模型中,生成多维字符查询矩阵,所述多维字符查询矩阵中包括多个维度,每个维度均包括多个字符和其对应的概率值;将所述多维字符查询矩阵输入语言模型中,生成语义文
本;基于所述语义文本生成响应数据以反馈给所述用户。
[0009]可选地,还包括:基于多个历史语音数据对语音识别模型进行训练以生成所述声学模型;基于多个历史音素数据对3

gram模型进行训练以生成所述发音模型;基于多个历史多维字符查询矩阵对GRU模型进行训练以生成所述语言模型。
[0010]可选地,将所述音素数据输入发音模型中,生成多维字符查询矩阵,包括:将所述音素数据输入发音模型;所述发音模型将所述音素数据切分为多个短音频;对所述多个短音频的出现频率进行统计,生成多组统计结果;根据多组统计结果为多维初始查询矩阵中的字符赋值以生成所述多维字符查询矩阵;其中所述多维初始查询矩阵中的字符值为0。
[0011]可选地,将所述多维字符查询矩阵输入语言模型中,生成语义文本,包括:将所述多维字符查询矩阵输入语言模型;所述语言模型中的更新门函数、重置门函数基于所述多维字符查询矩阵生成多个更新值、多个重置值;根据所述多个更新值和所述多个重置值生成多个字符文本和其对应的评分;将评分最高的字符文本作为所述语音文本。
[0012]可选地,基于所述语义文本生成响应数据以反馈给所述用户,包括:基于所述语义文本生成智能语音机器人的响应数据以与所述用户进行智能语音对话;和/或基于所述语义文本生成用户指令,基于所述用户指令生成响应数据以反馈给所述用户。
[0013]可选地,基于多个历史音素数据对3

gram模型进行训练以生成所述发音模型,包括:将多个历史音素数据分别切分为多个短音频,生成多个短音频组;为所述多个短音频组中每个短音频设置字符标签;基于带有字符标签的多个短音频组分别对3

gram模型进行训练以生成所述发音模型。
[0014]可选地,基于带有字符标签的多个短音频组分别对3

gram模型进行训练以生成所述发音模型,包括:基于字符标签生成多维初始查询矩阵;带有字符标签的多个短音频组分别输入3

gram模型;根据3

gram模型的计算结果生成多个历史多维字符查询矩阵;根据多个历史多维字符查询矩阵对所述3

gram模型的3

gram模型参数进行调整;在3

gram模型参数收敛时,生成所述发音模型。
[0015]可选地,基于字符标签生成多维初始查询矩阵,包括:确定所述多维初始查询矩阵的维度;基于所述字符标签的哈希值将所述字符标签映射到所述多维初始查询矩阵中。
[0016]可选地,基于多个历史多维字符查询矩阵对GRU模型进行训练以生成所述语言模型,包括:为所述多个历史多维字符查询矩阵分别设置文本标签;基于带有文本标签的所述多个历史多维字符查询矩阵对GRU模型进行训练,基于训练结果生成GRU模型参数;在GRU模型参数收敛时,生成所述语言模型。
[0017]根据本申请的一方面,提出一种用户语音数据处理装置,该装置包括:语音模块,用于获取来自用户的语音数据;音素模块,用于将所述语音数据输入声学模型中,生成多个音素数据;字符模块,用于将所述音素数据输入发音模型中,生成多维字符查询矩阵,所述多维字符查询矩阵中包括多个维度,每个维度均包括多个字符和其对应的概率值;文本模块,用于将所述多维字符查询矩阵输入语言模型中,生成语义文本;反馈模块,用于基于所述语义文本生成响应数据以反馈给所述用户。
[0018]可选地,还包括:声学模型模块,用于基于多个历史语音数据对语音识别模型进行训练以生成所述声学模型;发音模型模块,用于基于多个历史音素数据对3

gram模型进行训练以生成所述发音模型;语言模型模块,用于基于多个历史多维字符查询矩阵对GRU模型
进行训练以生成所述语言模型。
[0019]根据本申请的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
[0020]根据本申请的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户语音数据处理方法,其特征在于,包括:获取来自用户的语音数据;将所述语音数据输入声学模型中,生成多个音素数据;将所述音素数据输入发音模型中,生成多维字符查询矩阵,所述多维字符查询矩阵中包括多个维度,每个维度均包括多个字符和其对应的概率值;将所述多维字符查询矩阵输入语言模型中,生成语义文本;基于所述语义文本生成响应数据以反馈给所述用户。2.如权利要求1所述的方法,其特征在于,还包括:基于多个历史语音数据对语音识别模型进行训练以生成所述声学模型;基于多个历史音素数据对3

gram模型进行训练以生成所述发音模型;基于多个历史多维字符查询矩阵对GRU模型进行训练以生成所述语言模型。3.如权利要求1所述的方法,其特征在于,将所述音素数据输入发音模型中,生成多维字符查询矩阵,包括:将所述音素数据输入发音模型;所述发音模型将所述音素数据切分为多个短音频;对所述多个短音频的出现频率进行统计,生成多组统计结果;根据多组统计结果为多维初始查询矩阵中的字符赋值以生成所述多维字符查询矩阵;其中所述多维初始查询矩阵中的字符值为0。4.如权利要求1所述的方法,其特征在于,将所述多维字符查询矩阵输入语言模型中,生成语义文本,包括:将所述多维字符查询矩阵输入语言模型;所述语言模型中的更新门函数、重置门函数基于所述多维字符查询矩阵生成多个更新值、多个重置值;根据所述多个更新值和所述多个重置值生成多个字符文本和其对应的评分;将评分最高的字符文本作为所述语音文本。5.如权利要求1所述的方法,其特征在于,基于所述语义文本生成响应数据以反馈给所述用户,包括:基于所述语义文本生成智能语音机器人的响应数据以与所述用户进行智能语音对话;和/或基于所述语义文本生成用户指令,基于所述用户指令生成响应数据以反馈给所述用户。6.如权利要求2所述的方法,其特征在于,基于多个历史音素数据对3

gram模型进行训练以生成所述发音模型,包括:将多个历史音素数据分别切分为多个短音频,生成多个短音频组;为所述多个短音频组中每个短音频设置字符标签;基于带有字符标签的多个短音频组分别对3

gram模型进行训练以生成所述发音模型。7.如权利要求6所述的方法,其特征在于,基于带有字符标签的多个短音频组分别对3

gram模型进行训练以生成所述发音模型,包括:基于字符...

【专利技术属性】
技术研发人员:郑渊中叶峰朱小波疏北平
申请(专利权)人:上海淇玥信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1