语音数据处理方法及装置、存储介质、电子设备制造方法及图纸

技术编号:18528063 阅读:22 留言:0更新日期:2018-07-25 13:42
本公开提供一种语音数据处理方法及装置、存储介质、电子设备。该方法包括:获取当前语音数据以及所述当前语音数据对应的历史语音数据;提取对话环境特征,所述对话环境特征用于表示所述当前语音数据与所述历史语音数据形成对话的可能性;由预先构建的语音判别模型,基于所述对话环境特征、所述当前语音数据的文本特征、以及所述历史语音数据的文本特征进行模型处理,确定所述当前语音数据是否为真实业务交互请求。如此方案,有助于防止智能设备被误触发。

【技术实现步骤摘要】
语音数据处理方法及装置、存储介质、电子设备
本公开涉及语音信号处理
,具体地,涉及一种语音数据处理方法及装置、存储介质、电子设备。
技术介绍
随着人工智能技术的进步,智能人机交互已逐渐进入普及阶段,语音作为人机之间最自然的交互方式,被广泛应用于智能人机交互过程中。具体地,智能设备可以从环境中拾取语音数据,通过语音识别理解出用户意图,并生成用户意图对应的响应。为了提高用户体验,智能设备从单轮指令方式开始向多轮自由对话方式发展,即,通过单次指令识别用户意图,逐渐发展为通过多轮人机对话识别用户意图,使设备更为智能化、交互更为自由,与此同时又不希望设备在不需要时被误触发。结合实际应用,智能设备从环境中拾取的语音数据主要有四种类型,下面以视频点播为例,对四种类型的语言数据进行举例说明:前3种类型的语音数据均与视频点播业务没有关系,属于干扰,如果被智能设备接收并响应,则属于误触发。为了防止误触发,目前主要采用以下两种方案:方案一,先唤醒后触发。用户每次与智能设备交互,需要先说出唤醒词或者先按下唤醒键,以此唤醒智能设备之后,再发出表示用户意图的交互指令,触发设备执行相关操作。如此方案,虽可在一定程度上解决误触发问题,但却需要用户频繁进行唤醒操作,智能化程度较低,用户体验较差。方案二,多模态交互方式。在拾取语音数据的同时,还可以通过图像采集设备拍摄用户图像,如果经图像分析确定用户在发出指令时是面向智能设备的,则可判定该指令是用户发出的真实业务交互请求,并非误触发。如此方案,需要用户姿态上进行相应配合,限制了用户自由度,用户体验较差;此外,在某些场景下,例如被遮挡、黑暗环境等,这种方案的识别效果并不理想。
技术实现思路
本公开的主要目的是提供一种语音数据处理方法及装置、存储介质、电子设备,有助于防止智能设备被误触发。为了实现上述目的,本公开提供一种语音数据处理方法,所述方法包括:获取当前语音数据以及所述当前语音数据对应的历史语音数据;提取对话环境特征,所述对话环境特征用于表示所述当前语音数据与所述历史语音数据形成对话的可能性;由预先构建的语音判别模型,基于所述对话环境特征、所述当前语音数据的文本特征、以及所述历史语音数据的文本特征进行模型处理,确定所述当前语音数据是否为真实业务交互请求。可选地,获取所述当前语音数据对应的历史语音数据,包括:本次唤醒持续期间,在所述当前语音数据之前采集到的未被智能设备响应的至少一条语音数据,确定为所述当前语音数据对应的历史语音数据;和/或,本次唤醒持续期间,在所述当前语音数据之前采集到的、未被智能设备响应且与所述当前语音数据的采集时间之差符合预设时长的至少一条语音数据,确定为所述当前语音数据对应的历史语音数据;和/或,本次唤醒持续期间,在所述当前语音数据之前采集到的、未被智能设备响应且与所述当前语音数据的交互轮次之差符合预设轮次的至少一条语音数据,确定为所述当前语音数据对应的历史语音数据。可选地,所述对话环境特征包括声纹匹配特征,则提取所述对话环境特征包括:提取所述当前语音数据的声纹特征,以及所述历史语音数据的声纹特征;计算所述当前语音数据的声纹特征与所述历史语音数据的声纹特征之间的相似度,作为所述声纹匹配特征;和/或,所述对话环境特征包括时间间隔特征,则提取所述对话环境特征包括:获取所述当前语音数据的采集时间、以及所述历史语音数据的采集时间;计算所述当前语音数据的采集时间与所述历史语音数据的采集时间之间的时间差,作为所述时间间隔特征;和/或,所述对话环境特征包括轮次间隔特征,则提取所述对话环境特征包括:获取所述当前语音数据在本次交互过程中的交互轮次、以及所述历史语音数据在本次交互过程中的交互轮次;计算所述当前语音数据的交互轮次与所述历史语音数据的交互轮次之间的轮次差,作为所述轮次间隔特征。可选地,所述由预先构建的语音判别模型,基于所述对话环境特征、所述当前语音数据的文本特征、以及所述历史语音数据的文本特征进行模型处理,确定所述当前语音数据是否为真实业务交互请求,包括:所述语音判别模型获取所述对话环境特征、所述当前语音数据的文本特征、以及所述历史语音数据的文本特征;所述语音判别模型对所述当前语音数据的文本特征以及所述历史语音数据的文本特征进行编码处理,获得每条历史语音数据对应的联合编码特征;并利用所述对话环境特征计算每条历史语音数据对应的权重值;所述语音判别模型利用每条历史语音数据对应的联合编码特征以及权重值进行加权和计算;所述语音判别模型利用加权和计算结果,确定所述当前语音数据是否为真实业务交互请求。可选地,获取所述当前语音数据的文本特征的方式为:将所述当前语音数据转换为当前文本,提取所述当前文本的句子向量,作为所述当前语音数据的文本特征。可选地,获取所述历史语音数据的文本特征的方式为:从记忆队列中读取预先保存的所述历史语音数据的文本特征。可选地,所述方法还包括:判断所述当前语音数据是否为有效语音数据;如果所述当前语音数据为有效语音数据,再执行所述提取对话环境特征的步骤。本公开提供一种语音数据处理装置,所述装置包括:语音数据获取模块,用于获取当前语音数据以及所述当前语音数据对应的历史语音数据;对话环境特征提取模块,用于提取对话环境特征,所述对话环境特征用于表示所述当前语音数据与所述历史语音数据形成对话的可能性;模型处理模块,用于由预先构建的语音判别模型,基于所述对话环境特征、所述当前语音数据的文本特征、以及所述历史语音数据的文本特征进行模型处理,确定所述当前语音数据是否为真实业务交互请求。可选地,所述语音数据获取模块,用于将本次唤醒持续期间,在所述当前语音数据之前采集到的未被智能设备响应的至少一条语音数据,确定为所述当前语音数据对应的历史语音数据;和/或,本次唤醒持续期间,在所述当前语音数据之前采集到的、未被智能设备响应且与所述当前语音数据的采集时间之差符合预设时长的至少一条语音数据,确定为所述当前语音数据对应的历史语音数据;和/或,本次唤醒持续期间,在所述当前语音数据之前采集到的、未被智能设备响应且与所述当前语音数据的交互轮次之差符合预设轮次的至少一条语音数据,确定为所述当前语音数据对应的历史语音数据。可选地,所述对话环境特征包括声纹匹配特征,则所述对话环境特征提取模块,用于提取所述当前语音数据的声纹特征,以及所述历史语音数据的声纹特征;计算所述当前语音数据的声纹特征与所述历史语音数据的声纹特征之间的相似度,作为所述声纹匹配特征;和/或,所述对话环境特征包括时间间隔特征,则所述对话环境特征提取模块,用于获取所述当前语音数据的采集时间、以及所述历史语音数据的采集时间;计算所述当前语音数据的采集时间与所述历史语音数据的采集时间之间的时间差,作为所述时间间隔特征;和/或,所述对话环境特征包括轮次间隔特征,则所述对话环境特征提取模块,用于获取所述当前语音数据在本次交互过程中的交互轮次、以及所述历史语音数据在本次交互过程中的交互轮次;计算所述当前语音数据的交互轮次与所述历史语音数据的交互轮次之间的轮次差,作为所述轮次间隔特征。可选地,所述模型处理模块包括:特征获取模块,用于获取所述对话环境特征、所述当前语音数据的文本特征、以及所述历史语音数据的文本特征;编码处理模块,用于对所述本文档来自技高网
...

【技术保护点】
1.一种语音数据处理方法,其特征在于,所述方法包括:获取当前语音数据以及所述当前语音数据对应的历史语音数据;提取对话环境特征,所述对话环境特征用于表示所述当前语音数据与所述历史语音数据形成对话的可能性;由预先构建的语音判别模型,基于所述对话环境特征、所述当前语音数据的文本特征、以及所述历史语音数据的文本特征进行模型处理,确定所述当前语音数据是否为真实业务交互请求。

【技术特征摘要】
1.一种语音数据处理方法,其特征在于,所述方法包括:获取当前语音数据以及所述当前语音数据对应的历史语音数据;提取对话环境特征,所述对话环境特征用于表示所述当前语音数据与所述历史语音数据形成对话的可能性;由预先构建的语音判别模型,基于所述对话环境特征、所述当前语音数据的文本特征、以及所述历史语音数据的文本特征进行模型处理,确定所述当前语音数据是否为真实业务交互请求。2.根据权利要求1所述的方法,其特征在于,获取所述当前语音数据对应的历史语音数据,包括:本次唤醒持续期间,在所述当前语音数据之前采集到的未被智能设备响应的至少一条语音数据,确定为所述当前语音数据对应的历史语音数据;和/或,本次唤醒持续期间,在所述当前语音数据之前采集到的、未被智能设备响应且与所述当前语音数据的采集时间之差符合预设时长的至少一条语音数据,确定为所述当前语音数据对应的历史语音数据;和/或,本次唤醒持续期间,在所述当前语音数据之前采集到的、未被智能设备响应且与所述当前语音数据的交互轮次之差符合预设轮次的至少一条语音数据,确定为所述当前语音数据对应的历史语音数据。3.根据权利要求1所述的方法,其特征在于,所述对话环境特征包括声纹匹配特征,则提取所述对话环境特征包括:提取所述当前语音数据的声纹特征,以及所述历史语音数据的声纹特征;计算所述当前语音数据的声纹特征与所述历史语音数据的声纹特征之间的相似度,作为所述声纹匹配特征;和/或,所述对话环境特征包括时间间隔特征,则提取所述对话环境特征包括:获取所述当前语音数据的采集时间、以及所述历史语音数据的采集时间;计算所述当前语音数据的采集时间与所述历史语音数据的采集时间之间的时间差,作为所述时间间隔特征;和/或,所述对话环境特征包括轮次间隔特征,则提取所述对话环境特征包括:获取所述当前语音数据在本次交互过程中的交互轮次、以及所述历史语音数据在本次交互过程中的交互轮次;计算所述当前语音数据的交互轮次与所述历史语音数据的交互轮次之间的轮次差,作为所述轮次间隔特征。4.根据权利要求1所述的方法,其特征在于,所述由预先构建的语音判别模型,基于所述对话环境特征、所述当前语音数据的文本特征、以及所述历史语音数据的文本特征进行模型处理,确定所述当前语音数据是否为真实业务交互请求,包括:所述语音判别模型获取所述对话环境特征、所述当前语音数据的文本特征、以及所述历史语音数据的文本特征;所述语音判别模型对所述当前语音数据的文本特征以及所述历史语音数据的文本特征进行编码处理,获得每条历史语音数据对应的联合编码特征;并利用所述对话环境特征计算每条历史语音数据对应的权重值;所述语音判别模型利用每条历史语音数据对应的联合编码特征以及权重值进行加权和计算;所述语音判别模型利用加权和计算结果,确定所述当前语音数据是否为真实业务交互请求。5.根据权利要求4所述的方法,其特征在于,获取所述当前语音数据的文本特征的方式为:将所述当前语音数据转换为当前文本,提取所述当前文本的句子向量,作为所述当前语音数据的文本特征。6.根据权利要求4所述的方法,其特征在于,获取所述历史语音数据的文本特征的方式为:从记忆队列中读取预先保存的所述历史语音数据的文本特征。7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:判断所述当前语音数据是否为有效语音数据;如果所述当前语音数据为有效语音数据,再执行所述提取对话环境特征的步骤。8.一种语音数据处理装置,其特征在于,所述装置包括:语音数据获取模块,用于获取当前语音数据以及所...

【专利技术属性】
技术研发人员:周维陈志刚胡国平胡郁
申请(专利权)人:上海科大讯飞信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1