垃圾指令识别方法及装置制造方法及图纸

技术编号:28452358 阅读:20 留言:0更新日期:2021-05-15 21:15
公开了一种垃圾指令识别方法及装置。该方法应包括获取音频信息;将所述音频信息转换为文字信息;提取所述音频信息的音频特征生成音频特征集合;利用预训练的文本模型获取所述文本信息的特征向量;将所述音频特征集合和所述特征向量作为深度神经网络分类器输入,根据所述深度神经网络的输出确定所述音频信息是否为垃圾指令。为垃圾指令。为垃圾指令。

【技术实现步骤摘要】
垃圾指令识别方法及装置


[0001]本申请涉及自然语言处理
,尤其涉及一种垃圾指令识别方法及装置。

技术介绍

[0002]目前,大部分智能设备都具备语音识别功能,且智能设备的语音识别状态有两种,一种是免唤醒状态,一种是唤醒状态。免唤醒状态与唤醒状态最大的不同在于,唤醒状态是用户先说唤醒词将智能设备唤醒,在智能设备被唤醒之后紧接着说出指令。智能设备在被唤醒之后接收到的用户语音即可以认为是有效的指令,从而直接进行指令内容的功能性识别(如查天气、播音乐等)。而智能设备在免唤醒的状态下,一次唤醒即可实现连续对话的状态,不需要每次对话的时候都说一次唤醒词,从而能够获得更好的用户体验。
[0003]但是在免唤醒状态下,需要智能设备能够识别接收到的音频是不是给它的指令,过滤掉无效干扰信息,再做出反应。因此,如何高质量的识别出接收到的音频是否为垃圾指令的问题亟待解决。

技术实现思路

[0004]为解决上述问题,本专利技术提供一种垃圾指令识别方法及装置,能够高质量的识别出接收到的音频是否为垃圾指令,从而提高智能设备在免唤醒状态下对音频识别的正确率,提升用户体验。
[0005]为了实现上述目的,在第一方面,本专利技术实施例提供了一种垃圾指令识别方法,该方法包括:
[0006]获取音频信息;
[0007]将所述音频信息转换为文字信息;
[0008]提取所述音频信息的音频特征生成音频特征集合;
[0009]利用预训练的文本模型获取所述文本信息的特征向量;
[0010]将所述音频特征集合和所述特征向量作为深度神经网络分类器输入,根据所述深度神经网络的输出确定所述音频信息是否为垃圾指令。
[0011]优选地,在所述获取音频信息之后,所述方法还包括:如果所述音频信息无法转换为文字信息,则确定所述音频信息为垃圾指令,并丢弃所述音频信息。
[0012]优选地,在所述将所述音频特征集合和所述特征向量作为深度神经网络分类器输入,根据所述深度神经网络的输出确定所述音频信息是否为垃圾指令之后,所述方法还包括:如果所述音频信息不是垃圾指令,则对所述文本信息进行自然语言理解,并执行所述音频信息对应的动作;如果所述音频信息是垃圾指令,则丢弃所述音频信息。
[0013]优选地,所述将所述音频特征集合和所述特征向量作为深度神经网络分类器输入,根据所述深度神经网络的输出确定所述音频信息是否为垃圾指令,包括:将所述音频特征集合和所述特征向量合成为一维特征,并将所述一维特征作为深度神经网络分类器输入,根据所述深度神经网络的输出确定所述音频信息是否为垃圾指令。
[0014]优选地,所述音频特征包括:语音音频特征、语音文本特征及语音时长。
[0015]在第二方面,本专利技术实施例提供了一种垃圾指令识别装置,该装置包括:
[0016]第一获取单元,用于获取音频信息;
[0017]转换单元,用于将所述音频信息转换为文字信息;
[0018]生成单元,用于提取所述音频信息的音频特征生成音频特征集合;
[0019]第二获取单元,利用预训练的文本模型获取所述文本信息的特征向量;
[0020]确定单元,将所述音频特征集合和所述特征向量作为深度神经网络分类器输入,根据所述深度神经网络的输出确定所述音频信息是否为垃圾指令。
[0021]优选地,所述装置还包括:丢弃单元,用于如果所述音频信息无法转换为文字信息,则确定所述音频信息为垃圾指令,并丢弃所述音频信息。
[0022]优选地,所述装置还包括:执行单元,用于如果所述音频信息不是垃圾指令,则对所述文本信息进行自然语言理解,并执行所述音频信息对应的动作;丢弃单元,用于如果所述音频信息是垃圾指令,则丢弃所述音频信息。
[0023]优选地,所述确定单元具体用于:将所述音频特征集合和所述特征向量合成为一维特征,并将所述一维特征作为深度神经网络分类器输入,根据所述深度神经网络的输出确定所述音频信息是否为垃圾指令。
[0024]优选地,所述音频特征包括:语音音频特征、语音文本特征及语音时长。
[0025]在第三方面,本专利技术实施例提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述第一方面所述的垃圾指令识别方法。
[0026]在第四方面,本专利技术实施例提供了一种电子设备,包括:
[0027]处理器;
[0028]用于存储所述处理器可执行指令的存储器;
[0029]所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述第一方面所述的垃圾指令识别方法。
[0030]利用本专利技术提供的垃圾指令识别方法及装置,将接收到的音频信息的音频特征和音频信息对应的文本信息的特征进行结合,同时将音频特征和文本特征作为深度神经网络分类器的输入,利用深度神经网络分类器进行识别,可高质量的识别出接收到的音频是否是垃圾指令,从而使得智能设备在免唤醒状态下,能够有效地过滤无效内容,准确地识别用户指令,更好地提升用户体验。
附图说明
[0031]通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
[0032]图1为本申请示例性实施例提供的一种垃圾指令识别方法的流程示意图;
[0033]图2为本申请示例性实施例提供的一种垃圾指令识别装置的结构图;
[0034]图3为本申请示例性实施例提供的另一种垃圾指令识别装置的结构图;
[0035]图4为本申请示例性实施例提供的电子设备的结构图。
具体实施方式
[0036]下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
[0037]图1为本申请实施例示出的一种垃圾指令识别方法的流程示意图。该垃圾指令识别方法可应用于电子设备,如图1所示,该方法包括:
[0038]步骤101,获取音频信息。
[0039]在一个例子中,本垃圾指令识别方法的应用场景为电子设备处于免唤醒状态下,在该场景下,获取到的音频信息可以包括:背景音或人声,其中,人声可能是有效指令,也可能是用户闲聊的内容。
[0040]步骤102,将该音频信息转换为文字信息。
[0041]具体的,可以利用电子设备中的自动语音识别(Automatic Speech Recognition,ASR)模块对该音频信息进行识别,并将该音频信息转换为文字信息。
[0042]可以理解的是,不是所有的音频信息都可以识别并转换为文字信息,如嘈杂的背景音,那么如果接收到的音频信息无法转换为文字信息,则可以认为该音频信息为垃圾指令。基于此,该方法还本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种垃圾指令识别方法,其特征在于,所述方法包括:获取音频信息;将所述音频信息转换为文字信息;提取所述音频信息的音频特征生成音频特征集合;利用预训练的文本模型获取所述文本信息的特征向量;将所述音频特征集合和所述特征向量作为深度神经网络分类器输入,根据所述深度神经网络的输出确定所述音频信息是否为垃圾指令。2.根据权利要求1所述的方法,其特征在于,在所述获取音频信息之后,所述方法还包括:如果所述音频信息无法转换为文字信息,则确定所述音频信息为垃圾指令,并丢弃所述音频信息。3.根据权利要求1所述的方法,其特征在于,在所述将所述音频特征集合和所述特征向量作为深度神经网络分类器输入,根据所述深度神经网络的输出确定所述音频信息是否为垃圾指令之后,所述方法还包括:如果所述音频信息不是垃圾指令,则对所述文本信息进行自然语言理解,并执行所述音频信息对应的动作;如果所述音频信息是垃圾指令,则丢弃所述音频信息。4.根据权利要求1所述的方法,其特征在于,所述将所述音频特征集合和所述特征向量作为深度神经网络分类器输入,根据所述深度神经网络的输出确定所述音频信息是否为垃圾指令,包括:将所述音频特征集合和所述特征向量合成为一维特征,并将所述一维特征作为深度神经网络分类器输入,根据所述深度神经网络的输出确定所述音频信息是否为垃圾指令。5.根据权利要求1所述的方法,其特征在于,所述音频特征包括:语音音频特征、语音文本特征及语音时长。6.一种垃圾指令识别装置,其特征在于,所述装置包括:第一获取单元,用于获取音频信息;转换单元,用于将所述音频信息转换为文字信息;生...

【专利技术属性】
技术研发人员:胡晓慧孟振南雷欣李志飞
申请(专利权)人:出门问问武汉信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1