语音识别模型的训练方法、语音识别方法、设备和介质技术

技术编号：40494987 阅读：5 留言：0更新日期：2024-02-26 19:24

本公开提供了一种语音识别模型的训练方法、语音识别方法、设备和介质，涉及人工智能技术领域，语音识别模型的训练方法包括：获取至少一个语音指令及每个语音指令对应的词向量；基于多个词向量的加权相乘结果生成与每个语音指令对应的第一语义特征；获取正样本语音对应的第二语义特征和负样本语音对应的第二语义特征；基于第一语义特征与正样本语音对应的第二语义特征的距离和第一语义特征与负样本语音对应的第二语义特征的距离，对语音识别模型进行训练。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，更具体地，涉及语音处理领域，尤其涉及一种语音识别模型的训练方法、语音识别方法、设备和介质。

技术介绍

1、自然语言处理领域(natural language processing，nlp)中的对话系统(dialogsystem，ds)是人工智能(artificial intelligence，at)技术的重要应用之一。任务型对话系统(task-oriented dialogue system，tod)是指用户具备明确的意图，如：查询系统时间或天气、播放音乐和导航至某个特定地点等。tod系统需要通过对用户的输入信息(例如语音指令)解析用户的意图，通过决策访问内部数据库或调用三方业务完成用户期望执行的某个动作。tod系统和工业界的较多场景有着较大的关联，在工业界有着较为广泛的研究和应用场景。

技术实现思路

1、本公开提供了一种语音识别模型的训练方法、语音识别方法、电子设备、计算机可读存储介质和程序产品。

2、根据第一方面，本公开提供了一种语音识别模型的训练方法，包括：获取至少一个语音指令及每个语音指令对应的词向量；基于多个词向量的加权相乘结果生成与每个语音指令对应的第一语义特征；获取正样本语音对应的第二语义特征和负样本语音对应的第二语义特征；基于第一语义特征与正样本语音对应的第二语义特征的距离和第一语义特征与负样本语音对应的第二语义特征的距离，对语音识别模型进行训练。

3、根据本公开的实施例，获取至少一个语音指令，包括：获取多个语音类别下每个

4、根据本公开的实施例，基于多个词向量的加权相乘结果生成与每个语音指令对应的第一语义特征，包括：对于多个词向量中的每个词向量，执行以下操作：以每个词向量为中心词向量，提取与中心词向量相邻的词向量，作为前向词向量和后向词向量；获取中心词向量在第一矩阵中对应的列数据，作为中心词向量的第一列向量；其中，第一矩阵中的每一列数据表示一个词向量的语义特征；获取中心词向量在n个第二矩阵中对应的列数据，得到n个第二列向量，n个第二矩阵是前向词向量、中心词向量和后向词向量分别对应的上下文矩阵，n为正整数；分别将中心词向量的第一列向量和n个第二列向量分别进行点乘运算，得到对应的n个第三列向量；对第三列向量进行最大池化处理，得到与中心词向量对应的语义特征；将与多个词向量分别对应的语义特征进行融合，得到与每个语音指令对应的第一语义特征。

5、根据本公开的实施例，获取正样本语音对应的第二语义特征和负样本语音对应的第二语义特征，包括：将正样本语音所属语音类别下的至少一个语音指令对应的至少一个第一语义特征进行平均池化，得到正样本语音的第二语义特征；将负样本语音所属语音类别下的至少一个语音指令对应的至少一个第一语义特征进行平均池化，得到正样本语音的第二语义特征。

6、根据本公开的实施例，第二语义特征为泛化语义特征。

7、根据本公开的实施例，基于第一语义特征与正样本语音对应的第二语义特征的距离和第一语义特征与负样本语音对应的第二语义特征的距离，对语音识别模型进行训练，包括：获取每个语音指令的第一语义特征与负样本语音对应的第二语义特征的距离，作为第一距离；获取每个语音指令的第一语义特征与正样本语音对应的第二语义特征的距离，作为第二距离；基于三元损失函数对第一距离和第二距离进行优化，更新语音识别模型的参数；语音识别模型的参数包括三元损失函数中的超参数，超参数大于第一距离和第二距离的差值。

8、根据本公开的实施例，计算第一语义特征与第二语义特征之间的相似度，作为第一距离和第二距离。

9、根据第二方面，本公开提供了一种语音识别方法，包括：获取待识别的语音指令及与待识别语音指令对应的词向量；将词向量输入语音识别模型，执行以下操作：基于词向量的加权相乘结果生成与待识别语音指令对应的第三语义特征；根据第三语义特征与多个语音类别对应的第二语义特征之间的相似度，确定待识别语音指令的语音类别；其中，语音识别模型是采用上述方法训练得到的。

10、根据第三方面，本公开提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现本公开实施例所述的语音识别模型的训练方法和语音识别方法。

11、根据第四方面，本公开提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现本公开实施例所述的语音识别模型的训练方法和语音识别方法。

12、根据第五方面，本公开提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本公开实施例所述的语音识别模型的训练方法和语音识别方法。

本文档来自技高网...

【技术保护点】

1.一种语音识别模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的语音识别模型的训练方法，其特征在于，所述获取至少一个语音指令，包括：

3.根据权利要求2所述的语音识别模型的训练方法，其特征在于，所述基于多个所述词向量的加权相乘结果生成与所述每个语音指令对应的第一语义特征，包括：

4.根据权利要求3所述的语音识别模型的训练方法，其特征在于，所述获取正样本语音对应的第二语义特征和负样本语音对应的第二语义特征，包括：

5.根据权利要求4所述的语音识别模型的训练方法，其特征在于，所述第二语义特征为泛化语义特征。

6.根据权利要求4或5所述的语音识别模型的训练方法，其特征在于，所述基于所述第一语义特征与正样本语音对应的第二语义特征的距离和所述第一语义特征与负样本语音对应的第二语义特征的距离，对所述语音识别模型进行训练，包括：

7.根据权利要求6所述的语音识别模型的训练方法，其特征在于，计算所述第一语义特征与所述第二语义特征之间的相似度，作为所述第一距离和所述第二距离。

8.一种语音识别方法，其特征在于，包括：

9.一种电子设备，包括：

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～8中任一项所述的方法。

...

【技术特征摘要】

1.一种语音识别模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的语音识别模型的训练方法，其特征在于，所述获取至少一个语音指令，包括：

4.根据权利要求3所述的语音识别模型的训练方法，其特征在于，所述获取正样本语音对应的第二语义特征和负样本语音对应的第二语义特征，包括：

5.根据权利要求4所述的语音识别模型的训练方法，其特征在于，所述第二语义特征为泛化语义特征。

6.根据权利要...

【专利技术属性】
技术研发人员：王佳，苏丽萍，安旭，甘艺萌，陈雨，
申请(专利权)人：湖北星纪魅族科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人