语音识别方法、装置及相关系统和设备制造方法及图纸

技术编号：28562279 阅读：29 留言：0更新日期：2021-05-25 17:57

本申请公开了语音识别方法、装置、相关系统及设备，词库构建方法、装置及设备。其中，语音识别方法包括：通过多语种声学模型，确定多语种混合语音数据的候选发音单元序列；根据第一对应关系集、第二对应关系集和第三对应关系集，确定与候选发音单元序列中第二语种发音单元对应的第一语种文本，形成语音数据的候选的第一语种文本序列；通过第一语种的语言模型，确定候选的第一语种文本序列的第一语种语言得分；根据第一语种语言得分和第三对应关系集，确定与语音数据对应的多语种混合文本序列。采用这种处理方式，使得在第一语种空间解码的方式进行多语种混读语音识别；因此，可以有效提升多语种混合语音识别的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置及相关系统和设备
本申请涉及数据处理
，具体涉及语音交互系统、方法和装置，语音转写系统、方法和装置，语音识别方法和装置，词库构建方法和装置，点餐设备，智能音箱，终端设备，以及电子设备。
技术介绍
随着人工智能时代的到来，一个显著的变化是越来越多的智能物联网(IoT)设备出现在日常生活中，如智能音箱、智能电视、地铁语音购票机、点餐机等等。智能IoT设备的出现极大地方便人们的日常生活，同时也提出一个问题：如何更加便捷地和这些设备进行交互。语音交互是人和人之间最便捷的交互方式，所以关于如何和IoT设备进行交互，也可选择语音交互。对于一个智能的语音交互系统，可以通过语音识别，语义理解，语音合成等模块来完成用语音指令来控制智能设备，从而可以替代传统的手动操作。在这个链路中，语音识别是核心技术模块之一，其功能是将人的语音转化成设备可以识别的文本。关于语音识别的研究由来已久，但是直到2009年深度神经网络在语音识别中的应用，才使得语音识别系统的性能获得极大提升，开始慢慢走向实用化。多语种混读(如中英...

【技术保护点】
1.一种语音识别方法，其特征在于，包括：/n构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；/n通过多语种声学模型，确定待识别的多语种混合语音数据的候选发音单元序列；/n根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；/n通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；/n根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对...

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：
构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；
通过多语种声学模型，确定待识别的多语种混合语音数据的候选发音单元序列；
根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；
通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；
根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列，包括：
根据所述第一语种语言得分，确定与语音数据对应的第一语种文本序列；
根据所述第三对应关系集和所述第一语种文本序列，确定所述多语种混合文本序列。

3.根据权利要求1所述的方法，其特征在于，所述候选的第一语种文本序列，采用如下步骤形成：
根据所述第一对应关系集，确定与所述发音单元序列中第一语种发音单元对应的第一语种文本；以及，根据所述第二对应关系集，确定与所述发音单元序列中第二语种发音单元对应的第二语种文本；
根据所述第三对应关系集，确定与所述第二语种文本对应的第一语种文本；
根据所述第一语种文本，确定所述候选的第一语种文本序列。

4.根据权利要求1所述的方法，其特征在于，
所述第二对应关系，采用如下步骤构建：
确定第一语种的语料集，第一语种语料包括第一语种词和第二语种词；
确定第一语种语料包括的第二语种词；
根据第一语种语料包括的第二语种词，构建所述第二对应关系。

5.根据权利要求4所述的方法，其特征在于，
根据所述第二对应关系，构建所述第三对应关系。

6.根据权利要求4所述的方法，其特征在于，
所述确定第一语种的语料集，包括：
确定至少一个专业领域的所述语料集；
构建各个专业领域的所述第二对应关系；
所述方法还包括：
确定所述语音数据对应的专业领域信息；
根据所述第一对应关系集、所述语音数据对应的专业领域的第二对应关系集和第三对应关系集，形成所述候选的第一语种文本序列。

7.根据权利要求4所述的方法，其特征在于，
所述确定第一语种的语料集，包括：
确定至少一个地域的所述语料集；
构建各个地域的所述第二对应关系；
所述方法还包括：
确定所述语音数据对应的地域信息；
根据所述第一对应关系集、所述语音数据对应的地域的第二对应关系集和第三对应关系集，形成所述候选的第一语种文本序列。

8.一种语音交互系统，其特征在于，包括：
服务端，用于构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收客户端发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音回复信息；向客户端回送所述语音回复信息；
客户端，用于确定所述语音数据，向所述服务端发送所述语音交互请求；接收所述服务端回送的所述语音回复信息，展示所述语音回复信息。

9.一种语音交互方法，其特征在于，包括：
构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；
接收客户端发送的针对多语种混合语音数据的语音交互请求；
通过多语种声学模型，确定所述语音数据的候选发音单元序列；
根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；
通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；
根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；
根据多语种混合文本序列，确定语音回复信息；
向客户端回送所述语音回复信息。

10.一种语音交互方法，其特征在于，包括：
确定多语种混合语音数据；
向服务端发送针对所述语音数据的语音交互请求；
接收所述服务端回送的语音回复信息；
展示所述语音回复信息；
其中，所述语音回复信息采用如下步骤确定：所述服务端构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收客户端发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音回复信息；向客户端回送所述语音回复信息。

11.一种语音交互装置，其特征在于，包括：
词库构建单元，用于构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；
语言模型构建单元，用于构建第一语种的语言模型；
请求接收单元，用于接收客户端发送的针对多语种混合语音数据的语音交互请求；
发音单元确定单元，用于通过多语种声学模型，确定所述语音数据的候选发音单元序列；
第一文本序列确定单元，用于根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；
语言得分确定单元，用于通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；
第二文本序列确定单元，用于根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；
回复信息确定单元，用于根据多语种混合文本序列，确定语音回复信息；
回复信息发送单元，用于向客户端回送所述语音回复信息。

12.一种语音交互装置，其特征在于，包括：
语音数据确定单元，用于确定多语种混合语音数据；
请求发送单元，用于向服务端发送针对所述语音数据的语音交互请求；
回复信息接收单元，用于接收所述服务端回送的语音回复信息；
回复信息展示单元，用于展示所述语音回复信息；
其中，所述语音回复信息采用如下步骤确定：所述服务端构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收客户端发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音回复信息；向客户端回送所述语音回复信息。

13.一种电子设备，其特征在于，包括：
处理器；以及
存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；接收客户端发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音回复信息；向客户端回送所述语音回复信息。

14.一种电子设备，其特征在于，包括：
处理器；以及
存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该语音交互方法的程序后，执行下述步骤：确定多语种混合语音数据；向服务端发送针对所述语音数据的语音交互请求；接收所述服务端回送的语音回复信息；展示所述语音回复信息；其中，所述语音回复信息采用如下步骤确定：所述服务端构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收客户端发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音回复信息；向客户端回送所述语音回复信息。

15.一种语音交互系统，其特征在于，包括：
服务端，用于构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收终端设备发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音指令信息；向终端设备回送所述语音指令信息；
终端设备，用于确定所述语音数据，向所述服务端发送所述语音交互请求；接收所述服务端回送的所述语音指令信息，执行所述语音指令信息。

16.一种语音交互方法，其特征在于，包括：
构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；
接收终端设备发送的针对多语种混合语音数据的语音交互请求；
通过多语种声学模型，确定所述语音数据的候选发音单元序列；
根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；
通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；
根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；
根据多语种混合文本序列，确定语音指令信息；
向终端设备回送所述语音指令信息。

17.一种语音交互方法，其特征在于，包括：
确定多语种混合语音数据；
向服务端发送针对所述语音数据的语音交互请求；
接收所述服务端回送的语音指令信息；
执行所述语音指令信息；
其中，所述语音指令信息采用如下步骤确定：所述服务端构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收终端设备发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；根据多语种混合文本序列，确定语音指令信息；向终端设备回送所述语音指令信息。

18.一种语音交互装置，其特征在于，包括：
词库构建单元，用于构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；
语言模型构建单元，用于构建第一语种的语言模型；
请求接收单元，用于接收终端设备发送的针对多语种混合语音数据的语音交互请求；
发音单元确定单元，用于通过多语种声学模型，确定所述语音数据的候选发音单元序列；
第一文本序列确定单元，用于根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；
语言得分确定单元，用于通过所述语言模型，确定所述候选的第一语种文本序列的第一语种语言得分；
第二文本序列确定单元，用于根据所述第一语种语言得分和所述第三对应关系集，确定与语音数据对应的多语种混合文本序列；
回复信息确定单元，用于根据多语种混合文本序列，确定语音指令信息；
回复信息发送单元，用于向终端设备回送所述语音指令信息。

19.一种语音交互装置，其特征在于，包括：
语音数据确定单元，用于确定多语种混合语音数据；
请求发送单元，用于向服务端发送针对所述语音数据的语音交互请求；
指令信息接收单元，用于接收所述服务端回送的语音指令信息；
指令执行单元，用于执行所述语音指令信息；
其中，所述语音指令信息采用如下步骤确定：所述服务端构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集；以及，构建第一语种的语言模型；以及，接收终端设备发送的针对多语种混合语音数据的语音交互请求；通过多语种声学模型，确定所述语音数据的候选发音单元序列；根据所述第一对应关系集、第二对应关系集和第三对应关系集，确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本，形成所述语音数据的候选的第一语种文本序列；通过所述语言模型，确定所述候选的第一...

【专利技术属性】
技术研发人员：张仕良，刘媛，雷鸣，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人