一种用于语音识别的方法和设备技术

技术编号：40024567 阅读：11 留言：0更新日期：2024-01-16 17:17

一种用于语音识别的方法和设备，该方法包括：获取待识别的语音；将语音输入至解码器，以输出符合自然语言的文本，其中，解码器包括声学模型、发音词典以及语言模型；其中，语言模型包括基础语言模型和至少一个关键词语言模型，基础语言模型所使用的第一训练语料中包括至少一个关键词类别标志；至少一个关键词语言模型是分别对至少一个第二训练语料进行训练生成的，至少一个第二训练语料与至少一个关键词类别标志一一对应；语言模型用于在基础语言模型输出关键词类别标志的情况下，调用关键词类别标志对应的关键词语言模型搜索并返回对应的关键词。该方法能够提高训练和识别关键词的效率，减少资源占用和时间成本。

全部详细技术资料下载

【技术实现步骤摘要】

本公开实施例涉及信息，尤其涉及一种用于语音识别的方法和设备。

技术介绍

1、随着信息技术的发展，人机交互场景在日常生活中越来越常见，而语音识别技术作为人机交互的重要途径，在智能家居、智能办公、智能汽车等领域中存在广泛应用。

2、其中，语音识别技术以语音为研究对象，通过语音信号处理和模式识别使得机器自动识别和理解人类口述的语音。当前通用的语音识别的方案是通过神经网络技术对海量数据进行学习，以得到语音识别模型，然后通过语音识别模型对语音进行识别。

3、在语音识别过程中经常会出现关键词，关键词可以指一类具有时效性、特殊性或专有性的词语，例如，歌曲名、人名、地址名、技术词汇等。由于关键词的数量较大，因此，当同时执行多个关键词的识别任务时，需要建立庞大的语言模型进行训练和识别，占用的资源和时间成本也较大。

4、因此，业界亟需一种能够提高对关键词的处理效率的语音识别方法。

技术实现思路

1、本公开实施例提供一种用于语音识别的方法和装置，能够提高训练和识别关键词的效率，减少资源占用和时间成本。

2、第一方面，本公开实施例提供一种用于语音识别的方法，包括：获取待识别的语音；将所述语音输入至解码器，以输出符合自然语言的文本，其中，所述解码器包括声学模型、发音词典以及语言模型，所述声学模型用于将所述语音转换为音素序列，所述发音词典用于将所述音素序列转换为词序列，所述语言模型用于将所述词序列转换为所述符合自然语言的文本；其中，所述语言模型包括基础语言模型和

3、第二方面，本公开实施例提供一种用于语音识别的方法，包括：获取第一训练语料，所述第一训练语料中包括至少一个关键词类别标志，每个关键词类别标志对应一个种类的关键词集合，所述至少一个关键词类别标志用于替换第一训练语料中对应的关键词；根据所述第一训练语料进行训练，生成基础语言模型；获取至少一个第二训练语料，所述至少一个第二训练语料与所述至少一个关键词类别标志一一对应，所述第二训练语料中包括关键词类别标志对应的关键词的集合；分别根据所述至少一个第二训练语料，生成至少一个关键词语言模型；根据所述基础语言模型和所述至少一个关键词语言模型，生成解码器，所述解码器用于对输入的语音进行解码，以输出符合自然语言的文本。

4、第三方面，本公开实施例提供一种用于语音识别的设备，包括：获取模块，用于获取待识别的语音；处理模块，用于将所述语音输入至解码器，以输出符合自然语言的文本，其中，所述解码器包括声学模型、发音词典以及语言模型，所述声学模型用于将所述语音转换为音素序列，所述发音词典用于将所述音素序列转换为词序列，所述语言模型用于将所述词序列转换为所述符合自然语言的文本；其中，所述语言模型包括基础语言模型和至少一个关键词语言模型，所述基础语言模型所使用的第一训练语料中包括至少一个关键词类别标志，所述关键词类别标志用于替换第一训练语料中的对应的关键词，每个关键词类别标志对应于一个种类的关键词集合；所述至少一个关键词语言模型是分别对至少一个第二训练语料进行训练生成的，所述至少一个第二训练语料与所述至少一个关键词类别标志一一对应，所述第二训练语料中包括关键词类别标志对应的关键词的集合；所述语言模型用于在所述基础语言模型输出关键词类别标志的情况下，调用所述关键词类别标志对应的关键词语言模型搜索并返回对应的关键词。

5、第四方面，本公开实施例提供一种用于语音识别的设备，包括：获取模块，用于获取第一训练语料，所述第一训练语料中包括至少一个关键词类别标志，每个关键词类别标志对应一个种类的关键词集合，所述至少一个关键词类别标志用于替换第一训练语料中对应的关键词；处理模块，用于根据所述第一训练语料进行训练，生成基础语言模型；所述获取模块还用于获取至少一个第二训练语料，所述至少一个第二训练语料与所述至少一个关键词类别标志一一对应，所述第二训练语料中包括关键词类别标志对应的关键词的集合；所述处理模块还用于分别根据所述至少一个第二训练语料，生成至少一个关键词语言模型；所述处理模块还用于根据所述基础语言模型和所述至少一个关键词语言模型，生成解码器，所述解码器用于对输入的语音进行解码，以输出符合自然语言的文本。

6、第五方面，本公开实施例提供一种电子设备，包括：处理器和存储器；

7、所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的用于语音识别的方法，或者执行如上第二方面以及第二方面各种可能的设计所述的用于语音识别的方法。

8、第六方面，本公开实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的所述的用于语音识别的方法，或者执行如上第二方面以及第二方面各种可能的设计所述的用于语音识别的方法。

9、第七方面，本公开实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能的设计所述的用于语音识别的方法，或者执行如上第二方面以及第二方面各种可能的设计所述的用于语音识别的方法。

10、本实施例提供了一种用于语音识别的方法和设备，该方法将基础查询部分和关键词部分独立进行训练，并在解码过程中将两者结合在一起进行解码，从而减少了训练和解码关键词的复杂度，提高训练和识别关键词的效率，减少资源占用和时间成本。

本文档来自技高网...

【技术保护点】

1.一种用于语音识别的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述将所述语音输入至解码器，以输出符合自然语言的文本，包括：

3.如权利要求2所述的方法，其特征在于，所述将所述语音输入至解码器，以输出符合自然语言的文本，包括：

4.一种用于语音识别的方法，其特征在于，包括：

5.如权利要求4所述的方法，其特征在于，所述根据所述基础语言模型和所述至少一个关键词语言模型，生成解码器，包括：

6.如权利要求4或5所述的方法，其特征在于，所述方法还包括：根据所述解码器对输入的语音进行解码，以输出符合自然语言的文本，其中，所述根据所述解码器对输入的语音进行解码，包括：

7.如权利要求6所述的方法，其特征在于，所述根据所述解码器对输入的语音进行解码，包括：

8.一种用于语音识别的设备，其特征在于，包括：

9.一种用于语音识别的设备，其特征在于，包括：

10.一种电子设备，其特征在于，包括：处理器和存储器；

11.一种计算机可读存储介质，其特征在于，所

12.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的方法，或者用于执行如权利要求4至7中任一项所述的方法。

...

【技术特征摘要】

1.一种用于语音识别的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述将所述语音输入至解码器，以输出符合自然语言的文本，包括：

3.如权利要求2所述的方法，其特征在于，所述将所述语音输入至解码器，以输出符合自然语言的文本，包括：

4.一种用于语音识别的方法，其特征在于，包括：

5.如权利要求4所述的方法，其特征在于，所述根据所述基础语言模型和所述至少一个关键词语言模型，生成解码器，包括：

7.如权利...

【专利技术属性】
技术研发人员：蒋泳森，
申请(专利权)人：抖音视界北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人