语音识别结果的确定方法及装置、存储介质及电子装置制造方法及图纸

技术编号:28559963 阅读:18 留言:0更新日期:2021-05-25 17:54
本发明专利技术提供了一种语音识别结果的确定方法及装置、存储介质及电子装置,其中,上述语音识别结果的确定方法包括:将待识别的语音指令转换为第一文本信息,并将所述第一文本信息转换为第一音素串信息;将所述第一音素串信息输入到编码解码模型中,得到对第二文本信息,其中,所述编码解码模型保存有字或词的时序关系,所述时序关系用于指示所述字后接的出现概率最大的字或词语,以及所述词语后接的出现概率最大的字或词语;确定所述第一文本信息的第一置信度和所述第二文本信息的第二置信度,将所述第一置信度和所述第二置信度中高置信度所对应的文本信息作为所述语音指令的语音识别结果。

【技术实现步骤摘要】
语音识别结果的确定方法及装置、存储介质及电子装置
本专利技术涉及通信领域,具体而言,涉及一种语音识别结果的确定方法及装置、存储介质及电子装置。
技术介绍
在人机语音交互中,用户通过语音下达指令,设备通过理解用户的语义完成相应的指令,并对用户做出语音交互应答。这其中就包括,语音转成文本的过程,以及文本的解析和文本语义的理解。在理解用户的意图,下达相应的指令完成相应动作中,需要每个过程都准确才可以完成交互。单从语音转文本的过程看,经常会出现文本被翻译成近音词的情况。这就导致后面的流程都会出现问题,严重影响用户的体验。现有技术为了解决文本中出现近音词的情况,一种方法是利用预设模板匹配矫正,利用情景推断用户的意图规则进行矫正等,把文本中可疑的词进行矫正,从而理解文本的意图,进而执行相应动作。另一种方法是通过传统的机器学习方式。但是两种上述方法都存在需要人员参与,且工作复杂,语音识别误差较大,效率低下的问题。针对相关技术中,在语音指令识别出现近音词时,设备识别用户语音指令误差较大,效率低下的问题,尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种语音识别结果的确定方法及装置、存储介质及电子装置,以解决相关技术中,在语音指令识别出现近音词时,设备识别用户语音指令误差较大,效率低下的问题。根据本专利技术的一个实施例,提供了一种语音识别结果的确定方法,包括:将待识别的语音指令转换为第一文本信息,并将所述第一文本信息转换为第一音素串信息;将所述第一音素串信息输入到编码解码模型中,得到对第二文本信息,其中,所述编码解码模型保存有字或词的时序关系,所述时序关系用于指示所述字后接的出现概率最大的字或词语,以及所述词语后接的出现概率最大的字或词语;确定所述第一文本信息的第一置信度和所述第二文本信息的第二置信度,将所述第一置信度和所述第二置信度中高置信度所对应的文本信息作为所述语音指令的语音识别结果。可选的,将所述第一音素串信息输入到编码解码模型中,得到对第二文本信息,包括:获取所述编码解码模型中保存的所述时序关系;根据所述时序关系对所述第一音素串信息依次进行编码操作和解码操作,以确定所述第一音素串对应的第二文本信息。可选的,根据所述时序关系对所述第一音素串信息依次进行编码操作和解码操作,以确定所述第一音素串对应的第二文本信息,包括:通过多个长短期记忆网络模型对所述第一音素串信息进行编码操作,得到编码结果,其中,所述编码解码模型包括:所述多个长短期记忆网络,且所述多个长短期记忆网络模型保存有所述时序关系;通过束搜索的方式对所述编码结果进行解码操作,得到所述第二文本信息。可选的,通过束搜索的方式对所述编码结果进行解码操作,得到第二文本,包括:通过束搜索的方式对所述编码结果进行解码操作,得到多个解码结果;通过基于向量点积的注意力机制从所述多个解码结果中确定与所述第一音素串信息相似度最高的目标解码结果作为所述第二文本信息。可选的,将所述第一文本信息转换为第一音素串信息,包括:获取所述第一文本信息;通过自然语言处理NLP技术将所述第一文本信息转换为第一音素串信息。可选的,确定所述第一文本信息的第一置信度和所述第二文本信息的第二置信度,包括:将所述第一文本信息划分为字或词语连接的第三文本信息,以及将所述第二文本信息划分为字或者词连接的第四文本信息;通过困惑度打分机制分别对所述第三文本信息和所述第四文本信息打分,得到所述第一文本信息的第一置信度和所述第二文本信息的第二置信度。根据本专利技术的又一个实施例,提供了一种编码解码模型的训练方法,包括:获取不同领域的音频数据的音素串信息和所述音素串信息对应的文本信息;通过所述音素串信息和所述音素串信息对应的文本信息对所述编码解码模型进行训练,以使所述编码解码模型获取到时序关系,其中,所述时序关系用于指示所述字后接的出现概率最大的字或词语,以及所述词语后接的出现概率最大的字或词语,所述编码解码模型用于输出第一音素串信息对应的第二文本信息,所述第一音素串信息通过以下方式得到:将待识别的语音指令转换为第一文本信息,并将所述第一文本信息转换为第一音素串信息。可选的,通过所述多个音素串信息和所述多个音素串信息对应的文本信息对所述编码解码模型进行训练之前,所述方法还包括:将所述不同领域的音频数据中的每一个音频数据均增加开头标志和结尾标志;使用目标标识替代不同领域的音频数据中的目标词语,其中,所述目标词语的使用频率低于预设阈值。根据本专利技术的又一个实施例,还提供了一种语音识别结果的确定装置,包括:转换模块,用于将待识别的语音指令转换为第一文本信息,并将所述第一文本信息转换为第一音素串信息;输入模块,用于将所述第一音素串信息输入到编码解码模型中,得到对第二文本信息,其中,所述编码解码模型保存有字或词的时序关系,所述时序关系用于指示所述字后接的出现概率最大的字或词语,以及所述词语后接的出现概率最大的字或词语;确定模块,用于所述第一文本信息的第一置信度和所述第二文本信息的第二置信度,将所述第一置信度和所述第二置信度中高置信度所对应的文本信息作为所述语音指令的语音识别结果。可选的,所述输入模块还用于获取所述编码解码模型中保存的所述时序关系;根据所述时序关系对所述第一音素串信息依次进行编码操作和解码操作,以确定所述第一音素串对应的第二文本信息。根据本专利技术的又一个实施例,还提供了一种编码解码模型的训练装置,包括:获取模块,用于获取不同领域的音频数据的音素串信息和所述音素串信息对应的文本信息;训练模块,用于通过所述音素串信息和所述音素串信息对应的文本信息对所述编码解码模型进行训练,以使所述编码解码模型获取到时序关系,其中,所述时序关系用于指示所述字后接的出现概率最大的字或词语,以及所述词语后接的出现概率最大的字或词语,所述编码解码模型用于输出第一音素串信息对应的第二文本信息,所述第一音素串信息通过以下方式得到:将待识别的语音指令转换为第一文本信息,并将所述第一文本信息转换为第一音素串信息。根据本专利技术的又一个实施例,还提供了一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行以上任一项中所述的方法。根据本专利技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行以上任一项中所述的方法。通过本专利技术,将待识别的语音指令转换为第一文本信息,并将所述第一文本信息转换为第一音素串信息;将所述第一音素串信息输入到编码解码模型中,得到对第二文本信息,其中,所述编码解码模型保存有字或词的时序关系,所述时序关系用于指示所述字后接的出现概率最大的字或词语,以及所述词语后接的出现概率最大的字或词语;确定所述第一文本信息的第一置信度和所述第二文本信息的第二置信度,将所述第一置信度和所述第二置信度中高置信度所对应的文本信息作为所述语音指令的语音识别结果。也就是说,将目标设备接收到的语音指令转换为第一文本信息,并获取所述第一文本信息对应的第一音素串信息,将所本文档来自技高网...

【技术保护点】
1.一种语音识别结果的确定方法,其特征在于,包括:/n将待识别的语音指令转换为第一文本信息,并将所述第一文本信息转换为第一音素串信息;/n将所述第一音素串信息输入到编码解码模型中,得到对第二文本信息,其中,所述编码解码模型保存有字或词的时序关系,所述时序关系用于指示所述字后接的出现概率最大的字或词语,以及所述词语后接的出现概率最大的字或词语;/n确定所述第一文本信息的第一置信度和所述第二文本信息的第二置信度,将所述第一置信度和所述第二置信度中高置信度所对应的文本信息作为所述语音指令的语音识别结果。/n

【技术特征摘要】
1.一种语音识别结果的确定方法,其特征在于,包括:
将待识别的语音指令转换为第一文本信息,并将所述第一文本信息转换为第一音素串信息;
将所述第一音素串信息输入到编码解码模型中,得到对第二文本信息,其中,所述编码解码模型保存有字或词的时序关系,所述时序关系用于指示所述字后接的出现概率最大的字或词语,以及所述词语后接的出现概率最大的字或词语;
确定所述第一文本信息的第一置信度和所述第二文本信息的第二置信度,将所述第一置信度和所述第二置信度中高置信度所对应的文本信息作为所述语音指令的语音识别结果。


2.根据权利要求1所述的方法,其特征在于,将所述第一音素串信息输入到编码解码模型中,得到对第二文本信息,包括:
获取所述编码解码模型中保存的所述时序关系;
根据所述时序关系对所述第一音素串信息依次进行编码操作和解码操作,以确定所述第一音素串对应的第二文本信息。


3.根据权利要求2所述的方法,其特征在于,根据所述时序关系对所述第一音素串信息依次进行编码操作和解码操作,以确定所述第一音素串对应的第二文本信息,包括:
通过多个长短期记忆网络模型对所述第一音素串信息进行编码操作,得到编码结果,其中,所述编码解码模型包括:所述多个长短期记忆网络,且所述多个长短期记忆网络模型保存有所述时序关系;
通过束搜索的方式对所述编码结果进行解码操作,得到所述第二文本信息。


4.根据权利要求3所述的方法,其特征在于,通过束搜索的方式对所述编码结果进行解码操作,得到第二文本,包括:
通过束搜索的方式对所述编码结果进行解码操作,得到多个解码结果;
通过基于向量点积的注意力机制从所述多个解码结果中确定与所述第一音素串信息相似度最高的目标解码结果作为所述第二文本信息。


5.根据权利要求1所述的方法,其特征在于,将所述第一文本信息转换为第一音素串信息,包括:
获取所述第一文本信息;
通过自然语言处理NLP技术将所述第一文本信息转换为第一音素串信息。


6.根据权利要求1所述的方法,其特征在于,确定所述第一文本信息的第一置信度和所述第二文本信息的第二置信度,包括:
将所述第一文本信息划分为字或词语连接的第三文本信息,以及将所述第二文本信息划分为字或者词连接的第四文本信息;
通过困惑度打分机制分别对所述第三文本信息和所述第四文本信息打分,得到所述第一文本信息的第一置信度和所述第二文本信息的第二置信度。


7.一种编码解码模型的训练方法,其特征在于,包括:
获取不同领域的音频数据的音素串信息和所述音素串信息对应的文本信息;
通过所述音素串信息和所述音素串信息对应的文本信息对所述编码解码模型进行训练,以使所述编码解码模型获取到时序...

【专利技术属性】
技术研发人员:张卓博苏腾荣赵培孙雨新
申请(专利权)人:青岛海尔科技有限公司海尔智家股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1