语音识别结果的确定方法及装置、存储介质及电子装置制造方法及图纸

技术编号：28559963 阅读：18 留言：0更新日期：2021-05-25 17:54

本发明专利技术提供了一种语音识别结果的确定方法及装置、存储介质及电子装置，其中，上述语音识别结果的确定方法包括：将待识别的语音指令转换为第一文本信息，并将所述第一文本信息转换为第一音素串信息；将所述第一音素串信息输入到编码解码模型中，得到对第二文本信息，其中，所述编码解码模型保存有字或词的时序关系，所述时序关系用于指示所述字后接的出现概率最大的字或词语，以及所述词语后接的出现概率最大的字或词语；确定所述第一文本信息的第一置信度和所述第二文本信息的第二置信度，将所述第一置信度和所述第二置信度中高置信度所对应的文本信息作为所述语音指令的语音识别结果。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别结果的确定方法及装置、存储介质及电子装置
本专利技术涉及通信领域，具体而言，涉及一种语音识别结果的确定方法及装置、存储介质及电子装置。
技术介绍
在人机语音交互中，用户通过语音下达指令，设备通过理解用户的语义完成相应的指令，并对用户做出语音交互应答。这其中就包括，语音转成文本的过程，以及文本的解析和文本语义的理解。在理解用户的意图，下达相应的指令完成相应动作中，需要每个过程都准确才可以完成交互。单从语音转文本的过程看，经常会出现文本被翻译成近音词的情况。这就导致后面的流程都会出现问题，严重影响用户的体验。现有技术为了解决文本中出现近音词的情况，一种方法是利用预设模板匹配矫正，利用情景推断用户的意图规则进行矫正等，把文本中可疑的词进行矫正，从而理解文本的意图，进而执行相应动作。另一种方法是通过传统的机器学习方式。但是两种上述方法都存在需要人员参与，且工作复杂，语音识别误差较大，效率低下的问题。针对相关技术中，在语音指令识别出现近音词时，设备识别用户语音指令误差较大，效率低下的问题，尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种语音识别结果的确定方法及装置、存储介质及电子装置，以解决相关技术中，在语音指令识别出现近音词时，设备识别用户语音指令误差较大，效率低下的问题。根据本专利技术的一个实施例，提供了一种语音识别结果的确定方法，包括：将待识别的语音指令转换为第一文本信息，并将所述第一文本信息转换为第一音素串信息；将所述第一音素串信息输入到编码解码模型中，得到...

【技术保护点】
1.一种语音识别结果的确定方法，其特征在于，包括：/n将待识别的语音指令转换为第一文本信息，并将所述第一文本信息转换为第一音素串信息；/n将所述第一音素串信息输入到编码解码模型中，得到对第二文本信息，其中，所述编码解码模型保存有字或词的时序关系，所述时序关系用于指示所述字后接的出现概率最大的字或词语，以及所述词语后接的出现概率最大的字或词语；/n确定所述第一文本信息的第一置信度和所述第二文本信息的第二置信度，将所述第一置信度和所述第二置信度中高置信度所对应的文本信息作为所述语音指令的语音识别结果。/n

【技术特征摘要】
1.一种语音识别结果的确定方法，其特征在于，包括：
将待识别的语音指令转换为第一文本信息，并将所述第一文本信息转换为第一音素串信息；
将所述第一音素串信息输入到编码解码模型中，得到对第二文本信息，其中，所述编码解码模型保存有字或词的时序关系，所述时序关系用于指示所述字后接的出现概率最大的字或词语，以及所述词语后接的出现概率最大的字或词语；
确定所述第一文本信息的第一置信度和所述第二文本信息的第二置信度，将所述第一置信度和所述第二置信度中高置信度所对应的文本信息作为所述语音指令的语音识别结果。

2.根据权利要求1所述的方法，其特征在于，将所述第一音素串信息输入到编码解码模型中，得到对第二文本信息，包括：
获取所述编码解码模型中保存的所述时序关系；
根据所述时序关系对所述第一音素串信息依次进行编码操作和解码操作，以确定所述第一音素串对应的第二文本信息。

3.根据权利要求2所述的方法，其特征在于，根据所述时序关系对所述第一音素串信息依次进行编码操作和解码操作，以确定所述第一音素串对应的第二文本信息，包括：
通过多个长短期记忆网络模型对所述第一音素串信息进行编码操作，得到编码结果，其中，所述编码解码模型包括：所述多个长短期记忆网络，且所述多个长短期记忆网络模型保存有所述时序关系；
通过束搜索的方式对所述编码结果进行解码操作，得到所述第二文本信息。

4.根据权利要求3所述的方法，其特征在于，通过束搜索的方式对所述编码结果进行解码操作，得到第二文本，包括：
通过束搜索的方式对所述编码结果进行解码操作，得到多个解码结果；
通过基于向量点积的注意力机制从所述多个解码结果中确定与所述第一音素串信息相似度最高的目标解码结果作为所述第二文本信息。

5.根据权利要求1所述的方法，其特征在于，将所述第一文本信息转换为第一音素串信息，包括：
获取所述第一文本信息；
通过自然语言处理NLP技术将所述第一文本信息转换为第一音素串信息。

6.根据权利要求1所述的方法，其特征在于，确定所述第一文本信息的第一置信度和所述第二文本信息的第二置信度，包括：
将所述第一文本信息划分为字或词语连接的第三文本信息，以及将所述第二文本信息划分为字或者词连接的第四文本信息；
通过困惑度打分机制分别对所述第三文本信息和所述第四文本信息打分，得到所述第一文本信息的第一置信度和所述第二文本信息的第二置信度。

7.一种编码解码模型的训练方法，其特征在于，包括：
获取不同领域的音频数据的音素串信息和所述音素串信息对应的文本信息；
通过所述音素串信息和所述音素串信息对应的文本信息对所述编码解码模型进行训练，以使所述编码解码模型获取到时序...

【专利技术属性】
技术研发人员：张卓博，苏腾荣，赵培，孙雨新，
申请(专利权)人：青岛海尔科技有限公司，海尔智家股份有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人