语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号:21161569 阅读:27 留言:0更新日期:2019-05-22 08:27
本申请提供一种语音识别方法、装置、设备及存储介质,包括:服务器接收智能语音设备发送的第一语音,服务器提取第一语音的语音特征,服务器根据语音特征确定第一语音的置信度,服务器向智能语音设备发送第一语音的置信度,智能语音设备根据第一语音的置信度确定第一语音是否为语音查询请求。即通过该语音识别方法可以从本质上区分获取到的语音是语音查询请求还是噪声,从而可以提高智能语音设备的语音识别的准确率。

Speech recognition methods, devices, devices and storage media

This application provides a speech recognition method, device, device and storage medium, including: the server receives the first voice sent by the intelligent voice device, the server extracts the voice characteristics of the first voice, the server determines the confidence of the first voice according to the voice characteristics, the server transmits the confidence of the first voice to the intelligent voice device, and the intelligent voice device according to the confidence of the first voice. Confidence determines whether the first voice is a voice query request. That is to say, the speech recognition method can essentially distinguish whether the acquired speech is voice query request or noise, so as to improve the accuracy of speech recognition of intelligent voice equipment.

【技术实现步骤摘要】
语音识别方法、装置、设备及存储介质
本申请实施例涉及语音
,尤其涉及一种语音识别方法、装置、设备及存储介质。
技术介绍
随着科学技术的不断发展,越来越多的智能语音设备出现在人们的生活中。目前,大多数智能语音设备都需要用户对其进行唤醒,在唤醒智能语音设备之后,用户才能正常发起语音查询(query)请求,即用户与智能语音设备进行对话。这种用户每次在发起语音查询请求之前,都必须唤醒智能语音设备的情况,造成用户体验感较差的问题。基于此,现有技术还提供一种免唤醒的技术方案:其中智能语音设备预先存储有一个语音查询请求集合,该集合中包括:多条语音查询请求,当智能语音设备在获取到语音时,智能语音设备将该语音与语音查询请求集合中的各个语音查询请求进行比对,若比对成功,则智能语音设备可以直接推送该语音对应的响应消息。然而,上述免唤醒的技术方案存在如下弊端:由于语音查询请求集合中的语音查询请求有限,可能会造成当智能语音设备获取到真实的语音查询请求时,智能语音设备并不能推送相应的响应消息,即现有技术并不能从本质上区分获取到的语音是语音查询请求还是噪声,从而造成智能语音设备的语音识别的准确率较低的问题。
技术实现思路
本申请实施例提供一种语音识别方法、装置、设备及存储介质。通过本申请技术方案可以从本质上区分获取到的语音是语音查询请求还是噪声,从而可以提高智能语音设备的语音识别的准确率。第一方面,本申请提供一种语音识别方法,包括:服务器接收智能语音设备发送的第一语音。服务器提取第一语音的语音特征。服务器根据语音特征确定第一语音的置信度。服务器向智能语音设备发送第一语音的置信度,第一语音的置信度用于确定第一语音是否为语音查询请求。在一种可能的设计中,语音特征包括以下至少一项:第一语音与其他语音的语义相似性特征、第一语音与其他语音的语义连续性特征、第一语音的语言规范性特征、第一语音与其他语音之间的状态转移概率、第一语音与其他语音的拼音相似性特征、第一语音与其他语音的文本相似性特征、第一语音的语义结果特征、在第一语音之前的免唤醒对话轮数。在一种可能的设计中,服务器提取第一语音的语音特征,包括:服务器确定第一语音与第二语音的语义相似度,第二语音为第一语音之前的任一条语音。服务器根据第一语音与第二语音的语义相似度、第一语音、第二语音确定第一语音与第二语音的语义连续性特征。在一种可能的设计中,服务器确定第一语音与第二语音的语义相似度,包括:服务器通过第一神经网络层获取第一语音中的每个词以及第二语音中的每个词。服务器通过第一神经网络层将第一语音中的每个词转换为向量,并将第二语音中的每个词转换为向量,其中第一语音中所有词对应的向量构成第一矩阵,第二语音中所有词对应的向量构成第二矩阵。服务器通过第二神经网络层将第一矩阵转换为第一向量,并将第二矩阵转换为第二向量。服务器计算第一向量和第二向量的余弦相似度,将余弦相似度确定为第一语音与第二语音的语义相似度。在一种可能的设计中,服务器根据第一语音与第二语音的语义相似度、第一语音、第二语音确定第一语音与第二语音的语义连续性特征,包括:服务器计算第一向量与语义相似度的乘积,得到第一向量在第二向量上的投影。服务器计算第一向量在第二向量上的投影与第二向量的和,得到目标向量。服务器根据目标向量确定第一语音与第二语音的语义连续性特征。在一种可能的设计中,服务器提取第一语音的语音特征,包括:服务器获取第一语音的M个N元组,并对M个N元组进行排序,M为大于1的整数,N为大于或等于1的整数。服务器从M个N元组中第二个N元组开始计算每个N元组的条件概率,每个N元组的条件概率为在其之前的至少一个N元组出现时该N元组的出现概率。服务器计算M个N元组中从第二个N元组至第M个N元组的条件概率的乘积,得到目标条件概率。服务器根据目标条件概率确定第一语音的语言规范性特征。在一种可能的设计中,服务器根据目标条件概率确定第一语音的语言规范性特征,包括:若目标条件概率小于预设条件概率,则服务器确定第一语音不规范。若目标条件概率大于或等于预设条件概率,则服务器确定第一语音规范。在一种可能的设计中,服务器提取第一语音的语音特征,包括:服务器根据第一语音中的每个词,确定每个词的下一个词。服务器根据每个词的下一个词,确定第一语音的语言规范性特征。在一种可能的设计中,服务器提取第一语音的语音特征,包括:服务器确定第一语音所属的领域信息以及第二语音所属的领域信息。服务器获取日志,日志包括:领域信息之间的状态转移概率。服务器根据日志确定第一语音所属的领域信息到第二语音所属的领域信息的状态转移概率。在一种可能的设计中,服务器提取第一语音的语音特征,包括:服务器将第一语音转换为第一拼音字符串,并将第二语音转换为第二拼音字符串。服务器将第一拼音字符串和第二拼音字符串作为两个向量,并确定两个向量的距离。服务器根据两个向量的距离确定第一语音和第二语音的拼音相似性特征。在一种可能的设计中,若两个向量的距离越小,则第一语音和第二语音的拼音相似性越高。若两个向量的距离越大,则第一语音和第二语音的拼音相似性越低。在一种可能的设计中,服务器提取第一语音的语音特征,包括:服务器将第一语音转换为第一文本,将第二语音转换为第二文本。服务器确定第一文本与第二文本的相似度,以得到第一语音与第二语音的文本相似度特征。在一种可能的设计中,服务器提取第一语音的语音特征,包括:服务器分析第一语音表示的意图。若服务器未分析出第一语音表示的意图,则确定第一语音的语义结果为噪声,并向智能语音设备发送提示信息,以提示用户第一语音为噪声。在一种可能的设计中,还包括:若在第一语音之前的免唤醒对话轮数大于预设轮数,则服务器向智能语音设备发送提示信息,以提示用户第一语音为语音查询请求。第二方面,本申请提供一种语音识别方法,包括:智能语音设备向服务器发送第一语音,以使服务器提取第一语音的语音特征,并根据语音特征确定第一语音的置信度。智能语音设备接收服务器发送的第一语音的置信度。智能语音设备根据第一语音的置信度确定第一语音是否为语音查询请求。在一种可能的设计中,智能语音设备根据第一语音的置信度确定第一语音是否为语音查询请求,包括:若第一语音的置信度大于预设置信度,则智能语音设备确定第一语音为语音查询请求。若第一语音的置信度小于或等于预设置信度,则智能语音设备确定第一语音为噪音。在一种可能的设计中,还包括:智能语音设备根据第一语音的置信度推送响应消息。在一种可能的设计中,智能语音设备根据第一语音的置信度推送响应消息,包括:智能语音设备获取至少一个语音的置信度与至少一个响应消息的对应关系,至少一个语音的置信度包括第一语音的置信度。智能语音设备根据对应关系和第一语音的置信度推送响应消息。第三方面,本申请提供一种语音识别装置,包括:接收模块,用于接收智能语音设备发送的第一语音。提取模块,用于提取第一语音的语音特征。确定模块,用于根据语音特征确定第一语音的置信度。发送模块,用于向智能语音设备发送第一语音的置信度,第一语音的置信度用于确定第一语音是否为语音查询请求。第三方面,本申请提供一种语音识别装置,包括:发送模块,用于向服务器发送第一语音,以使服务器提取第一语音的语音特征,并根据语音特征确定第一语音的置本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:服务器接收智能语音设备发送的第一语音;所述服务器提取所述第一语音的语音特征;所述服务器根据所述语音特征确定所述第一语音的置信度;所述服务器向所述智能语音设备发送所述第一语音的置信度,所述第一语音的置信度用于确定所述第一语音是否为语音查询请求。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:服务器接收智能语音设备发送的第一语音;所述服务器提取所述第一语音的语音特征;所述服务器根据所述语音特征确定所述第一语音的置信度;所述服务器向所述智能语音设备发送所述第一语音的置信度,所述第一语音的置信度用于确定所述第一语音是否为语音查询请求。2.根据权利要求1所述的方法,其特征在于,所述语音特征包括以下至少一项:所述第一语音与其他语音的语义相似性特征、所述第一语音与其他语音的语义连续性特征、所述第一语音的语言规范性特征、所述第一语音与其他语音之间的状态转移概率、所述第一语音与其他语音的拼音相似性特征、所述第一语音与其他语音的文本相似性特征、所述第一语音的语义结果特征、在所述第一语音之前的免唤醒对话轮数。3.根据权利要求2所述的方法,其特征在于,所述服务器提取所述第一语音的语音特征,包括:所述服务器确定所述第一语音与第二语音的语义相似度,所述第二语音为第一语音之前的任一条语音;所述服务器根据所述第一语音与所述第二语音的语义相似度、所述第一语音、所述第二语音确定所述第一语音与所述第二语音的语义连续性特征。4.根据权利要求3所述的方法,其特征在于,所述服务器确定所述第一语音与所述第二语音的语义相似度,包括:所述服务器通过第一神经网络层获取所述第一语音中的每个词以及第二语音中的每个词;所述服务器通过所述第一神经网络层将所述第一语音中的每个词转换为向量,并将所述第二语音中的每个词转换为向量,其中所述第一语音中所有词对应的向量构成第一矩阵,所述第二语音中所有词对应的向量构成第二矩阵;所述服务器通过第二神经网络层将所述第一矩阵转换为第一向量,并将所述第二矩阵转换为第二向量;所述服务器计算所述第一向量和所述第二向量的余弦相似度,将所述余弦相似度确定为所述第一语音与所述第二语音的语义相似度。5.根据权利要求4所述的方法,其特征在于,所述服务器根据所述第一语音与所述第二语音的语义相似度、所述第一语音、所述第二语音确定所述第一语音与所述第二语音的语义连续性特征,包括:所述服务器计算所述第一向量与所述语义相似度的乘积,得到所述第一向量在所述第二向量上的投影;所述服务器计算所述第一向量在所述第二向量上的投影与所述第二向量的和,得到目标向量;所述服务器根据所述目标向量确定所述第一语音与所述第二语音的语义连续性特征。6.根据权利要求2所述的方法,其特征在于,所述服务器提取所述第一语音的语音特征,包括:所述服务器获取所述第一语音的M个N元组,并对所述M个N元组进行排序,M为大于1的整数,N为大于或等于1的整数;所述服务器从所述M个N元组中第二个N元组开始计算每个N元组的条件概率,每个N元组的条件概率为在其之前的至少一个N元组出现时该N元组的出现概率;所述服务器计算所述M个N元组中从第二个N元组至第M个N元组的条件概率的乘积,得到目标条件概率;所述服务器根据所述目标条件概率确定所述第一语音的语言规范性特征。7.根据权利要求6所述的方法,其特征在于,所述服务器根据所述目标条件概率确定所述第一语音的语言规范性特征,包括:若所述目标条件概率小于预设条件概率,则所述服务器确定所述第一语音不规范;若所述目标条件概率大于或等于所述预设条件概率,则所述服务器确定所述第一语音规范。8.根据权利要求2所述的方法,其特征在于,所述服务器提取所述第一语音的语音特征,包括:所述服务器根据所述第一语音中的每个词,确定所述每个词的下一个词;所述服务器根据所述每个词的下一个词,确定所述第一语音的语言规范性特征。9.根据权利要求2所述的方法,其特征在于,所述服务器提取所述第一语音的语音特征,包括:所述服务器确定所述第一语音所属的领域信息以及第二语音所属的领域信息,所述第二语音为第一语音之前的任一条语音;所述服务器获取日志,所述日志包括:领域信息之间的状态转移概率;所述服务器根据所述日志确定所述第一语音所属的领域信息到所述第二语音所属的领域信息的状态转移概率。10.根据权利要求2所述的方法,其特征在于,所述服务器提取所述第一语音的语音特征,包括:所述服务器将所述第一语音转换为第一拼音字符串,并将第二语音转换为第二拼音字符串,所述第二语音为第一语音之前的任一条语音;所述服务器将所述第一拼音字符串和所述第二拼音字符串作为两个向量,并确定所述两个向量的距离;所述服务器根据所述两个向量的距离确定所述第一语音和所述第二语音的拼音相似性特征。11.根据权利要求10所述的方法,其特征在于,若所述两个向量的距离越小,则所述第一语音和所述第二语音的拼音相似性越高;若所述两个向量的距离越大,则所述第一语音和所述第二语音的拼音相似性越低。12.根据权利要求2所述的方法,其特征在于,所述服务器提取所述第一语音的语音特征,包括:所述服务器将所述第一语音转换为第一文本,将第二语音转换为第二文本,所述第二语音为第一语音之前的任一条语音;所述服务器确定所述第一文本与所述第二文本的相似度,以得到所述第一语音与所述第二语音的文本相似度特征。13.根据权利要求2所述的方法,其特征在于,所述服务器提取所述第一语音的语音特征,包括:所述服务器分析所述第一语音表示的意图;若所述服务器未分析出所述第一语音表示的意图,则确定所述第一语音的语义结果为噪声,并向所述智能语音设备发送提示信息,以提示用户所述第一语音为噪声。14.根据权利要求2所述的方法,其特征在于,还包括:若在所述第一语音之前的免唤醒对话轮数大于预设轮数,则所述服务器向所述智能语音设备发送提示信息,以提示用户所述第一语音为语音查询请求。15.一种语音识别方法,其特征在于,包括:智能语音设备向服务器发送第一语音,以使所述服务器提取所述第一语音的语音特征,并根据所述语音特征确定所述第一语音的置信度;所述智能语音设备接收所述服务器发送的所述第一语音的置信度;所述智能语音设备根据所述第一语音的置信度确定所述第一语音是否为语音查询请求。16.根据权利要求15所述的方法,其特征在于,所述智能语音设备根据所述第一语音的置信度确定所述第一语音是否为语音查询请求,包括:若所述第一语音的置信度大于预设置信度,则所述智能语音设备确定所述第一语音为语音查询请求;若所述第一语音的置信度小于或等于所述预设置信度,则所述智能语音设备确定所述第一语音为噪音。17.根据权利要求15或16所述的方法,其特征在于,还包括:所述智能语音设备根据所述第一语音的置信度推送响应消息。18.根据权利要求17所述的方法,其特征在于,所述智能语音设备根据所述第一语音的置信度推送响应消息,包括:所述智能语音设备获取至少一个语音的置信度与至少一个响应消息的对应关系,所述至少一个语音的置信度包括所述第一语音的置信度;所述智能语音设备根据所述对应关系和所述第一语音的置信度推送响应消息。19.一种语音识别装置,其特征在于,包括:接收模块,用于接收智能语音设备发...

【专利技术属性】
技术研发人员:周仁泉何晓楠鞠强沈炜张刚刘冲
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1