语音识别方法及装置、存储介质制造方法及图纸

技术编号:28627730 阅读:92 留言:0更新日期:2021-05-28 16:24
本公开是关于一种语音识别方法及装置、存储介质。包括:接收输入的语音数据;确定所述语音数据对应的文本长度是否大于预设长度阈值;若所述语音数据对应的文本长度小于所述预设长度阈值,根据第一规则确定所述语音数据是否为意图不明的语音;若所述语音数据对应的文本长度大于或等于所述预设长度阈值,根据第二规则确定所述语音数据是否为意图不明的语音。通过该方法,能提升意图是否明确判别的准确率。

【技术实现步骤摘要】
语音识别方法及装置、存储介质
本公开涉及智能语音
,尤其涉及一种语音识别方法及装置、存储介质。
技术介绍
随着计算机和人工智能技术的飞速发展,智能语音对话也得到极大的发展。用户通过语音来向智能语音助手(语音设备中的应用)传达自己的需求,例如数值计算、天气查询和智能家居控制等。智能语音助手在接收到用户的语音后,通过自动语音识别(AutomaticSpeechRecognition,ASR)技术,将语音转化为文本,通过后台的自然语言处理(NaturalLanguageProcessing,NLP)技术来对用户的需求进行分析,例如识别用户的意图。
技术实现思路
本公开提供一种语音识别方法及装置、存储介质。根据本公开实施例的第一方面,提供一种语音识别方法,包括:接收输入的语音数据;确定所述语音数据对应的文本长度是否大于预设长度阈值;若所述语音数据对应的文本长度小于所述预设长度阈值,根据第一规则确定所述语音数据是否为意图不明的语音;若所述语音数据对应的文本长度大于或等于所述预设长度阈值,根据第二规则确定所述语音数据是否为意图不明的语音。在一些实施例中,所述若所述语音数据对应的文本长度大于或等于所述预设长度阈值,根据第二规则确定所述语音数据是否为意图不明的语音,包括:若所述文本长度大于或等于所述预设长度阈值,将所述语音数据输入第一语言模型,确定所述语音数据的困惑度值;根据所述困惑度值确定所述语音数据是否为意图不明的语音。在一些实施例中,所述根据所述困惑度值确定所述语音数据是否为意图不明的语音,包括:若所述困惑度值大于预设困惑度阈值,确定所述语音数据为意图不明的语音;或者,若所述困惑度值小于或等于预设困惑度阈值,至少将所述语音数据输入第二语言模型,确定所述语音数据为无意义语音的置信度;根据所述无意义语音的置信度,确定所述语音数据是否为意图不明的语音。在一些实施例中,所述方法还包括:获取所述语音数据对应的文本包括的关键词信息;所述若所述困惑度值小于或等于预设困惑度阈值,至少将所述语音数据输入第二语言模型,确定所述语音数据为无意义语音的置信度,包括:若所述困惑度值小于或等于预设困惑度阈值,将所述关键词信息和/或所述困惑度值,以及所述语音数据输入所述第二语言模型,确定所述语音数据为无意义语音的置信度。在一些实施例中,所述第二语言模型为采用CNN网络训练的模型。在一些实施例中,所述第一语言模型为采用BERT网络训练的模型。在一些实施例中,所述若所述语音数据对应的文本长度小于所述预设长度阈值,根据第一规则确定所述语音数据是否为意图不明的语音,包括:若所述文本长度小于所述预设长度阈值,将所述语音数据输入预设意图不明数据库,确定所述语音数据是否与所述预设意图不明数据库中的数据匹配;若所述语音数据与所述预设意图不明数据库中的数据匹配,确定所述语音数据为意图不明的语音。在一些实施例中,所述方法还包括:对所述语音数据进行意图识别,获取所述语音数据的意图评分值;其中,所述意图评分值表征所述语音数据的意图清晰度;所述若所述语音数据对应的文本长度小于所述预设长度阈值,根据第一规则确定所述语音数据是否为意图不明的语音,包括:若所述文本长度小于所述预设长度阈值,结合所述意图评分值与所述第一规则确定所述语音数据是否为意图不明的语音;所述若所述语音数据对应的文本长度大于或等于所述预设长度阈值,根据第二规则确定所述语音数据是否为意图不明的语音,包括:若所述文本长度大于或等于所述预设长度阈值,结合所述意图评分值与所述第二规则确定所述语音数据是否为意图不明的语音。在一些实施例中,所述方法还包括:若确定所述语音数据为意图不明的语音,输出预设的应答回复。根据本公开实施例的第二方面,提供一种语音识别装置,包括:接收模块,配置为接收输入的语音数据;第一判断模块,配置为确定所述语音数据对应的文本长度是否大于预设长度阈值;第二判断模块,配置为若所述语音数据对应的文本长度小于所述预设长度阈值,根据第一规则确定所述语音数据是否为意图不明的语音;第三判断模块,配置为若所述语音数据对应的文本长度大于或等于所述预设长度阈值,根据第二规则确定所述语音数据是否为意图不明的语音。在一些实施例中,所述第三判断模块,具体配置为若所述文本长度大于或等于所述预设长度阈值,将所述语音数据输入第一语言模型,确定所述语音数据的困惑度值;根据所述困惑度值确定所述语音数据是否为意图不明的语音。在一些实施例中,所述第三判断模块,具体配置为若所述困惑度值大于预设困惑度阈值,确定所述语音数据为意图不明的语音;或者,若所述困惑度值小于或等于预设困惑度阈值,至少将所述语音数据输入第二语言模型,确定所述语音数据为无意义语音的置信度;根据所述无意义语音的置信度,确定所述语音数据是否为意图不明的语音。在一些实施例中,所述装置还包括:第一获取模块,配置为获取所述语音数据对应的文本包括的关键词信息;所述第三判断模块,具体配置为若所述困惑度值小于或等于预设困惑度阈值,将所述关键词信息和/或所述困惑度值,以及所述语音数据输入所述第二语言模型,确定所述语音数据为无意义语音的置信度。在一些实施例中,所述第二语言模型为采用CNN网络训练的模型。在一些实施例中,所述第一语言模型为采用BERT网络训练的模型。在一些实施例中,所述第二判断模块,具体配置为若所述文本长度小于所述预设长度阈值,将所述语音数据输入预设意图不明数据库,确定所述语音数据是否与所述预设意图不明数据库中的数据匹配;若所述语音数据与所述预设意图不明数据库中的数据匹配,确定所述语音数据为意图不明的语音。在一些实施例中,所述装置还包括:第二获取模块,配置为对所述语音数据进行意图识别,获取所述语音数据的意图评分值;其中,所述意图评分值表征所述语音数据的意图清晰度;所述第二判断模块,具体配置为若所述文本长度小于所述预设长度阈值,结合所述意图评分值与所述第一规则确定所述语音数据是否为意图不明的语音;所述第三判断模块,具体配置为若所述文本长度大于或等于所述预设长度阈值,结合所述意图评分值与所述第二规则确定所述语音数据是否为意图不明的语音。在一些实施例中,所述装置还包括:输出模块,配置为若确定所述语音数据为意图不明的语音,输出预设的应答回复。根据本公开实施例的第三方面,提供一种语音识别装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行如上述第一方面中所述的语音识别方法。根据本公开实施例的第四方面,提供一种存储介质,包括:当所述存储介质中的指令由计算机的处理器执行时,使得计算机能够执行如上述第一方面中所述的语音识别方法。本公开本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:/n接收输入的语音数据;/n确定所述语音数据对应的文本长度是否大于预设长度阈值;/n若所述语音数据对应的文本长度小于所述预设长度阈值,根据第一规则确定所述语音数据是否为意图不明的语音;/n若所述语音数据对应的文本长度大于或等于所述预设长度阈值,根据第二规则确定所述语音数据是否为意图不明的语音。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
接收输入的语音数据;
确定所述语音数据对应的文本长度是否大于预设长度阈值;
若所述语音数据对应的文本长度小于所述预设长度阈值,根据第一规则确定所述语音数据是否为意图不明的语音;
若所述语音数据对应的文本长度大于或等于所述预设长度阈值,根据第二规则确定所述语音数据是否为意图不明的语音。


2.根据权利要求1所述的方法,其特征在于,所述若所述语音数据对应的文本长度大于或等于所述预设长度阈值,根据第二规则确定所述语音数据是否为意图不明的语音,包括:
若所述文本长度大于或等于所述预设长度阈值,将所述语音数据输入第一语言模型,确定所述语音数据的困惑度值;
根据所述困惑度值确定所述语音数据是否为意图不明的语音。


3.根据权利要求2所述的方法,其特征在于,所述根据所述困惑度值确定所述语音数据是否为意图不明的语音,包括:
若所述困惑度值大于预设困惑度阈值,确定所述语音数据为意图不明的语音;
或者,
若所述困惑度值小于或等于预设困惑度阈值,至少将所述语音数据输入第二语言模型,确定所述语音数据为无意义语音的置信度;
根据所述无意义语音的置信度,确定所述语音数据是否为意图不明的语音。


4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取所述语音数据对应的文本包括的关键词信息;
所述若所述困惑度值小于或等于预设困惑度阈值,至少将所述语音数据输入第二语言模型,确定所述语音数据为无意义语音的置信度,包括:
若所述困惑度值小于或等于预设困惑度阈值,将所述关键词信息和/或所述困惑度值,以及所述语音数据输入所述第二语言模型,确定所述语音数据为无意义语音的置信度。


5.根据权利要求3所述的方法,其特征在于,所述第二语言模型为采用CNN网络训练的模型。


6.根据权利要求2所述的方法,其特征在于,所述第一语言模型为采用BERT网络训练的模型。


7.根据权利要求1所述的方法,其特征在于,所述若所述语音数据对应的文本长度小于所述预设长度阈值,根据第一规则确定所述语音数据是否为意图不明的语音,包括:
若所述文本长度小于所述预设长度阈值,将所述语音数据输入预设意图不明数据库,确定所述语音数据是否与所述预设意图不明数据库中的数据匹配;
若所述语音数据与所述预设意图不明数据库中的数据匹配,确定所述语音数据为意图不明的语音。


8.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:
对所述语音数据进行意图识别,获取所述语音数据的意图评分值;其中,所述意图评分值表征所述语音数据的意图清晰度;
所述若所述语音数据对应的文本长度小于所述预设长度阈值,根据第一规则确定所述语音数据是否为意图不明的语音,包括:
若所述文本长度小于所述预设长度阈值,结合所述意图评分值与所述第一规则确定所述语音数据是否为意图不明的语音;
所述若所述语音数据对应的文本长度大于或等于所述预设长度阈值,根据第二规则确定所述语音数据是否为意图不明的语音,包括:
若所述文本长度大于或等于所述预设长度阈值,结合所述意图评分值与所述第二规则确定所述语音数据是否为意图不明的语音。


9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若确定所述语音数据为意图不明的语音,输出预设的应答回复。

【专利技术属性】
技术研发人员:谢巧菁崔世起秦斌
申请(专利权)人:北京小米松果电子有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1