一种识别用户目标请求的方法、装置、系统及存储介质制造方法及图纸

技术编号:20567645 阅读:17 留言:0更新日期:2019-03-14 09:56
本发明专利技术实施例涉及语音处理技术领域,具体公开了一种识别用户目标请求的方法、装置、系统及存储介质,该方法包括:接收智能语音交互设备传输的声音信号;将其分别输入至预建立的声音分类器、语音识别处理模型以及解码器语言模型,获取声音置信度、语言置信度以及文本信息;将文本信息输入至文本分类器模型中,获取文本置信度;将声音置信度、语言置信度以及文本置信度进行融合处理,获取目标请求置信度;根据目标请求置信度,确定声音信号是否为用户目标请求。通过上述方式,不会对用户造成不必要的困扰,大大提升用户体验度。

【技术实现步骤摘要】
一种识别用户目标请求的方法、装置、系统及存储介质
本专利技术实施例涉及语音处理
,具体涉及一种识别用户目标请求的方法、装置、系统及存储介质。
技术介绍
现有的智能语音交互设备其原理是通过实时监听外界的声音信号。一旦监听到声音信号中包含唤醒词,就会被唤醒。采集外界的声音信号。在采集到外界的声音信号后,将声音信号传输至服务器,由服务器进行语音识别处理,获取文本信息。然后将文本信息匹配唤醒词汇,一旦存在就执行相应的语音指令。并将执行结果反馈至语音交互设备,通过语音交互设备以语音的形式播报给用户。虽然,通常用户只需要通过语音输入,就可以得到服务器反馈的响应信息,操作简单方便。但是,传统技术中服务器并不能区分哪一句语音是用户的目标请求,哪些是外界环境中发出的声音,例如电视机中正在说话,或者外界噪音等,都有可能被误识别,然后作为用户的目标请求进行执行。这种情况下,用户会在毫无准备的情况下收到智能语音设备发出的反馈语音,容易让人遭受惊吓,若是用户正处于休息状态,则这种情况更加严重,这会用户将会造成很大的困扰。那么,如何才能避免服务器接收到“误唤醒”声音后做出反馈响应,进而避免给用户带来的不必要困扰,成为本申请所要解决的技术问题。
技术实现思路
为此,本专利技术实施例提供一种识别用户目标请求的方法、装置、系统及存储介质,以解决现有技术中由于服务器接收到“误唤醒”的声音后做出反馈响应,而给用户带来不必要困扰的问题。为了实现上述目的,本专利技术的实施方式提供如下技术方案:在本专利技术的实施方式的第一方面中,提供了一种识别用户目标请求的方法,包括:接收智能语音交互设备传输的声音信号;将声音信号分别输入至预建立的声音分类器、语音识别处理模型以及解码器语言模型中,获取经过声音分类器对声音信号进行处理后生成的声音置信度;获取经过解码器语言模型对声音信号进行处理后生成的语言置信度;以及获取语音识别处理模型对声音信号进行处理后生成的文本信息;将文本信息输入至文本分类器模型中,获取经过文本分类器对文本信息进行分类后生成的文本置信度;将声音置信度、语言置信度以及文本置信度进行融合处理,获取目标请求置信度;根据目标请求置信度,确定声音信号是否为用户目标请求。在本专利技术的一个实施例中,声音分类器对声音信号进行处理,具体包括:利用长短期记忆(LongShort-TermMemory,简称LSTM)循环神经网络对声音信号进行处理,获取预设数量的隐藏向量;将预设数量的隐藏向量代入至sigmoid函数中,得到声音置信度,声音置信度大于或者等于0,且小于或者等于1。在本专利技术的另一实施例中,解码器语言模型对声音信号进行处理,具体包括:在预建立的搜索空间中,通过维特比搜索方法获取与声音信号对应的最佳词串以及语言置信度,语言置信度为最佳词串中所有词汇的置信度乘积,搜索空间由声学模型、声学上下文、发音词典以及语言模型中的知识源构成。在本专利技术的又一个实施例中,文本分类器对文本信息进行分类,具体包括:将文本信息进行分词处理,获取至少两个文本分词;将至少两个文本分词转换为词向量后,作为卷积神经网络算法的输入,经过卷积神经网络算法的处理后,获取文本置信度。在本专利技术的再一个实施例中,将声音置信度、语言置信度以及文本置信度进行融合处理,获取目标请求置信度,具体包括:将声音置信度、语言置信度以及文本置信度构成一维向量后输入至逻辑回归模型,获取目标请求置信度。在本专利技术的再一个实施例中,根据目标请求置信度,确定声音信号是否为用户目标请求,具体包括:将目标请求置信度与预设置信度阈值进行比较;当目标请求置信度大于或者等于预设置信度阈值时,确定声音信号为用户目标请求;否则,确定声音信号为非用户目标请求。在本专利技术的实施方式的第二方面中,提供了一种识别用户目标请求的装置,包括:接收单元,用于接收智能语音交互设备传输的声音信号;处理单元,用于将声音信号分别输入至预建立的声音分类器、语音识别处理模型以及解码器语言模型中,获取经过声音分类器对声音信号进行处理后生成的声音置信度;获取经过解码器语言模型对声音信号进行处理后生成的语言置信度;以及获取语音识别处理模型对声音信号进行处理后生成的文本信息;将文本信息输入至文本分类器模型中,获取经过文本分类器对文本信息进行分类后生成的文本置信度;将声音置信度、语言置信度以及文本置信度进行融合处理,获取目标请求置信度;判定单元,用于根据目标请求置信度,确定声音信号是否为用户目标请求。在本专利技术的一个实施例中,声音分类器对声音信号进行处理,具体包括:利用LSTM循环神经网络对声音信号进行处理,获取预设数量的隐藏向量;将预设数量的隐藏向量代入至sigmoid函数中,得到声音置信度,声音置信度大于或者等于0,且小于或者等于1。在本专利技术的另一实施例中,解码器语言模型对声音信号进行处理,具体包括:在预建立的搜索空间中,通过维特比搜索方法获取与声音信号对应的最佳词串以及语言置信度,语言置信度为最佳词串中所有词汇的置信度乘积,搜索空间由声学模型、声学上下文、发音词典以及语言模型中的知识源构成。在本专利技术的又一个实施例中,文本分类器对文本信息进行分类,具体包括:将文本信息进行分词处理,获取至少两个文本分词;将至少两个文本分词转换为词向量后,作为卷积神经网络算法的输入,经过卷积神经网络算法的处理后,获取文本置信度。在本专利技术的再一个实施例中,处理单元具体用于:将声音置信度、语言置信度以及文本置信度构成一维向量后输入至逻辑回归模型,获取目标请求置信度。在本专利技术的再一个实施例中,判定单元具体用于:将目标请求置信度与预设置信度阈值进行比较;当目标请求置信度大于或者等于预设置信度阈值时,确定声音信号为用户目标请求;否则,确定声音信号为非用户目标请求。在本专利技术的实施方式的第三方面中,提供了一种识别用户目标请求的系统,包括:语音接收器、存储器以及处理器;语音接收器,用于接收智能语音交互设备传输的声音信号;存储器,用于存储一个或多个程序指令;一个或多个程序指令被处理器运行,用以执行如上所述的一种识别用户目标请求的方法中任一方法步骤。在本专利技术的实施方式的第四方面中,提供了一种计算机存储介质,计算机存储介质中包含一个或多个程序指令,一个或多个程序指令用于被一种识别用户目标请求的系统执行如上一种识别用户目标请求的方法中的任一方法步骤。根据本专利技术的实施方式,具有如下优点:当接收到智能语音设备传输的声音信号后,服务器并非像传统技术那样执行语音识别后直接匹配唤醒词。一旦匹配到唤醒词就将声音信号作为目标请求,执行与之对应的操作,并将操作结果反馈至智能语音交互设备。而是对声音信号进行一系列的处理,包括利用声音分类器对声音信号进行处理获取声音置信度,用以判定声音信号是否属于人类发出的声音,或者是外界环境中的声音。利用解码器语言模型对声音信号进行处理,获取语音置信度,用以确定即使是人类发出的声音,那么是否是系统可以识别的语言。防止并非是预设定的语言,造成文本匹配时出现识别错误而导致的误唤醒情况。通过语音识别处理模型对声音信号进行处理后,再经过文本分类器进行分类处理获取文本置信度,进一步确定文本内容的准确性。将声音置信度、语言置信度以及文本置信度进行融合处理,获取目标请求置信度,综合置信度必然是更准确的存在。因此,可本文档来自技高网...

【技术保护点】
1.一种识别用户目标请求的方法,其特征在于,所述方法包括:接收智能语音交互设备传输的声音信号;将所述声音信号分别输入至预建立的声音分类器、语音识别处理模型以及解码器语言模型中,获取经过所述声音分类器对所述声音信号进行处理后生成的声音置信度;获取经过所述解码器语言模型对所述声音信号进行处理后生成的语言置信度;以及获取语音识别处理模型对所述声音信号进行处理后生成的文本信息;将所述文本信息输入至文本分类器模型中,获取经过所述文本分类器对所述文本信息进行分类后生成的文本置信度;将所述声音置信度、语言置信度以及文本置信度进行融合处理,获取目标请求置信度;根据所述目标请求置信度,确定所述声音信号是否为用户目标请求。

【技术特征摘要】
1.一种识别用户目标请求的方法,其特征在于,所述方法包括:接收智能语音交互设备传输的声音信号;将所述声音信号分别输入至预建立的声音分类器、语音识别处理模型以及解码器语言模型中,获取经过所述声音分类器对所述声音信号进行处理后生成的声音置信度;获取经过所述解码器语言模型对所述声音信号进行处理后生成的语言置信度;以及获取语音识别处理模型对所述声音信号进行处理后生成的文本信息;将所述文本信息输入至文本分类器模型中,获取经过所述文本分类器对所述文本信息进行分类后生成的文本置信度;将所述声音置信度、语言置信度以及文本置信度进行融合处理,获取目标请求置信度;根据所述目标请求置信度,确定所述声音信号是否为用户目标请求。2.根据权利要求1所述的方法,其特征在于,所述声音分类器对所述声音信号进行处理,具体包括:利用LSTM循环神经网络对所述声音信号进行处理,获取预设数量的隐藏向量;将所述预设数量的隐藏向量代入至sigmoid函数中,得到声音置信度,所述声音置信度大于或者等于0,且小于或者等于1。3.根据权利要求1所述的方法,其特征在于,所述解码器语言模型对所述声音信号进行处理,具体包括:在预建立的搜索空间中,通过维特比搜索方法获取与所述声音信号对应的最佳词串以及语言置信度,所述语言置信度为所述最佳词串中所有词汇的置信度乘积,所述搜索空间由声学模型、声学上下文、发音词典以及语言模型中的知识源构成。4.根据权利要求1所述的方法,其特征在于,所述文本分类器对所述文本信息进行分类,具体包括:将所述文本信息进行分词处理,获取至少两个文本分词;将所述至少两个文本分词转换为词向量后,作为卷积神经网络算法的输入,经过所述卷积神经网络算法的处理后,获取文本置信度。5.根据权利要求1任一项所述的方法,其特征在于,所述将所述声音置信度、语言置信度以及文本置信度进行融合处理,获取目标请求置信度,具体包括:将所述声音置信度、语言置信度以及文本置信...

【专利技术属性】
技术研发人员:许文卿张瀚林士翔
申请(专利权)人:出门问问信息科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1