语音消息处理方法及装置制造方法及图纸

技术编号:36535780 阅读:12 留言:0更新日期:2023-02-01 16:21
本发明专利技术公开了一种语音消息处理方法及装置,涉及人工智能,该方法包括:接收用户发出的语音消息;将语音消息转化为对应的数字信号,对数字信号进行预处理后输入语言识别模型,输出语音消息的识别结果,所述语言识别模型是深度强化学习智能体对Bi

【技术实现步骤摘要】
语音消息处理方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种语音消息处理方法及装置。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]近年来,随着大数据、人工智能技术的飞速发展,机器学习的深度学习方法逐渐成熟,且已被广泛应用在多个领域,如手机银行中快速检索中的语音识别等。但在面向老年用户群体及带方言口音的用户群体时,目前语音识别方法的准确率不高,影响为用户办理业务的效率,使得用户体验不佳。
[0004]针对上述问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供一种语音消息处理方法,用以加强语音识别的准确率,提高为用户办理业务的效率,改善用户体验,该方法包括:
[0006]接收用户发出的语音消息;
[0007]将语音消息转化为对应的数字信号,对数字信号进行预处理;
[0008]将预处理后的数字信号输入语言识别模型,输出语音消息的识别结果,其中识别结果表征待执行的操作行为,所述语言识别模型是深度强化学习智能体对双向长短时记忆网络Bi

LSTM进行训练和测试得到的;所述深度强化学习智能体是由深度强化学习环境创建的,所述深度强化学习环境中定义有状态参数、行为参数和反馈参数,所述状态参数记录不同用户的语音消息录音,所述行为参数记录根据不同用户的语音消息执行的操作行为,所述反馈参数记录由操作行为导致操作结果的变化;其中用户包括不同年龄段和/或不同地区的用户;
[0009]根据语音消息的识别结果,完成待执行的操作行为。
[0010]本专利技术实施例还提供一种语音消息处理装置,用以加强语音识别的准确率,提高为用户的办理业务效率,改善用户体验,该装置包括:
[0011]接收模块,用于接收用户发出的语音消息;
[0012]预处理模块,用于将语音消息转化为对应的数字信号,对数字信号进行预处理;
[0013]语音消息识别模块,用于将预处理后的数字信号输入语言识别模型,输出语音消息的识别结果,其中识别结果表征待执行的操作行为,所述语言识别模型是深度强化学习智能体对双向长短时记忆网络Bi

LSTM进行训练和测试得到的;所述深度强化学习智能体是由深度强化学习环境创建的,所述深度强化学习环境中定义有状态参数、行为参数和反馈参数,所述状态参数记录不同用户的语音消息录音,所述行为参数记录根据不同用户的语音消息执行的操作行为,所述反馈参数记录由操作行为导致操作结果的变化;其中用户包括不同年龄段和/或不同地区的用户;
[0014]操作行为完成模块,用于根据语音消息的识别结果,完成待执行的操作行为。
[0015]本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音消息处理方法。
[0016]本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音消息处理方法。
[0017]本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述语音消息处理方法。
[0018]本专利技术实施例中,接收用户发出的语音消息;将语音消息转化为对应的数字信号,对数字信号进行预处理;将预处理后的数字信号输入语言识别模型,输出语音消息的识别结果,其中识别结果表征待执行的操作行为,所述语言识别模型是深度强化学习智能体对双向长短时记忆网络Bi

LSTM进行训练和测试得到的;所述深度强化学习智能体是由深度强化学习环境创建的,所述深度强化学习环境中定义有状态参数、行为参数和反馈参数,所述状态参数记录不同用户的语音消息录音,所述行为参数记录根据不同用户的语音消息执行的操作行为,所述反馈参数记录由操作行为导致操作结果的变化;其中用户包括不同年龄段和/或不同地区的用户;根据语音消息的识别结果,完成待执行的操作行为,可以加强语音识别的准确率,提高为用户的办理业务效率,改善用户体验。
附图说明
[0019]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0020]图1为本专利技术实施例中语音消息处理方法的处理流程图;
[0021]图2为本专利技术实施例中对Bi

LSTM进行训练的方法流程图;
[0022]图3为本专利技术实施例中对Bi

LSTM进行测试的方法流程图;
[0023]图4为本专利技术实施例中语音消息处理装置的结构示意图;
[0024]图5为本专利技术实施例中语音消息处理装置的一具体实例结构示意图;
[0025]图6为本专利技术一实施例的计算机设备结构示意图。
具体实施方式
[0026]为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。
[0027]首先,对本专利技术实施例中的技术名词进行介绍:
[0028]双向长短时记忆网络(Bi

directional Long Short

Term Memory,Bi

LSTM):Bi

LSTM神经网络结构模型分为2个独立的LSTM,输入序列分别以正序和逆序输入至2个LSTM神经网络进行特征提取,将2个输出向量(即提取后的特征向量)进行拼接后形成的词向量作为该词的最终特征表达。Bi

LSTM的模型设计理念是使t时刻所获得特征数据同时拥有过去
和将来之间的信息,实验证明,这种神经网络结构模型对文本特征提取效率和性能要优于单个LSTM结构模型。
[0029]深度强化学习(Deep Reinforcement Learning,DRL):DRL是一种端对端(end

to

end)的感知与控制系统,具有很强的通用性.其学习过程可以描述为:(1)在每个时刻智能体agent与环境交互得到一个高维度的观察,并利用DL方法来感知观察,以得到具体的状态特征表示;(2)基于预期回报来评价各动作的价值函数,并通过某种策略将当前状态映射为相应的动作;(3)环境对此动作做出反应,并得到下一个观察.通过不断循环以上过程,最终可以得到实现目标的最优策略。
[0030]专利技术人发现,在现有技术中,无法有效提取不同语音消息中由特定方言或老年人用户的音素信息构成的语音发音底层特征,导致提取特征时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音消息处理方法,其特征在于,包括:接收用户发出的语音消息;将语音消息转化为对应的数字信号,对数字信号进行预处理;将预处理后的数字信号输入语言识别模型,输出语音消息的识别结果,其中识别结果表征待执行的操作行为,所述语言识别模型是深度强化学习智能体对双向长短时记忆网络Bi

LSTM进行训练和测试得到的;所述深度强化学习智能体是由深度强化学习环境创建的,所述深度强化学习环境中定义有状态参数、行为参数和反馈参数,所述状态参数记录不同用户的语音消息录音,所述行为参数记录根据不同用户的语音消息执行的操作行为,所述反馈参数记录由操作行为导致操作结果的变化;其中用户包括不同年龄段和/或不同地区的用户;根据语音消息的识别结果,完成待执行的操作行为。2.如权利要求1所述的方法,其特征在于,在将语音消息转化为对应的数字信号之前,还包括:去除语音消息中的噪声干扰。3.如权利要求1所述的方法,其特征在于,对数字信号进行预处理,包括:对数字信号进行预加重和分帧加窗处理。4.如权利要求1所述的方法,其特征在于,对双向长短时记忆网络Bi

LSTM进行训练,包括:基于深度强化学习环境,将每一用户的语音消息录音输入双向长短时记忆网络Bi

LSTM,输出每一语音消息录音对应的操作行为;根据由每一语音消息录音对应的操作行为获得的反馈参数,更新双向长短时记忆网络Bi

LSTM的参数。5.如权利要求1所述的方法,其特征在于,对双向长短时记忆网络Bi

LSTM进行测试,包括:建立测试数据集,所述测试数据集中包括不同用户的语音消息录音及对应的操作行为和反馈参数;利用所述测试数据集对双向长短时记忆网络Bi

LSTM进行测试。6.一种语音消息处理装置,其特征在于,包括:接收模块,用于接收用户发出的语音消息;预处理模块,用于将语音消息转化为对应的数字信号,对数字信号进行预处理;语音消息识别模块,用于将预处理后的数字信号输入语言识别模型,输出语音消息的识别结果,其中识别结果表征待执行的操作行为,所述语言识别模型是深度强化学习智能体对双...

【专利技术属性】
技术研发人员:张海峰王碧琳李斌
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1