语音识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号：27845675 阅读：29 留言：0更新日期：2021-03-30 12:51

本发明专利技术实施例提供一种语音识别方法、装置、电子设备和存储介质，其中方法包括：确定待识别的语音数据；基于所述语音数据对应的场景关联文本，对所述语音数据进行语音识别，得到所述语音数据的语音识别结果；所述场景关联文本是基于多个关联用户的应用记录数据确定得到的。本发明专利技术实施例提供的语音识别方法、装置、电子设备和存储介质，通过获取同一语音识别场景下的不同用户在不同应用间的应用记录数据，利用关联用户间关注点的相似性，提取得到场景关联文本，为待识别语音数据提供了与当前场景关联程度高的辅助文本，提高了基于该场景关联文本得到的语音识别结果的准确性。文本得到的语音识别结果的准确性。文本得到的语音识别结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、电子设备和存储介质

[0001]本专利技术涉及语音信号处理
，尤其涉及一种语音识别方法、装置、电子设备和存储介质。

技术介绍

[0002]随着人工智能技术的不断发展，语音识别技术被广泛应用于会议、采访、授课以及演讲等场景。
[0003]现有的语音识别技术通常在进行语音识别之前，预先获取可能与当前使用场景相关的语料，以辅助进行语音识别。然而，若实际进行语音采集和语音识别时发生主题变更，或者提前获取的语料有误，反而会降低语音识别的准确性。

技术实现思路

[0004]本专利技术实施例提供一种语音识别方法、装置、电子设备和存储介质，用以解决现有技术中语音识别准确性欠佳的缺陷。
[0005]本专利技术实施例提供一种语音识别方法，包括：
[0006]确定待识别的语音数据；
[0007]基于所述语音数据对应的场景关联文本，对所述语音数据进行语音识别，得到所述语音数据的语音识别结果；
[0008]所述场景关联文本是基于多个关联用户的应用记录数据确定得到的。
[0009]根据本专利技术一个实施例的语音识别方法，所述基于所述语音数据对应的场景关联文本，对所述语音数据进行语音识别，得到所述语音数据的语音识别结果，包括：
[0010]基于所述语音数据对应的场景关联文本，对所述语音数据的声学隐层特征进行解码，得到所述语音数据每一时段的每一候选分词的概率；
[0011]基于所述语音数据每一时段的每一候选分词的概率，确定所述语音识别结果。r/>[0012]根据本专利技术一个实施例的语音识别方法，所述场景关联文本包括热词；
[0013]所述基于所述语音数据对应的场景关联文本，对所述语音数据的声学隐层特征进行解码，得到所述语音数据每一时段的每一候选分词的概率，包括：
[0014]基于所述热词，或基于所述热词及其激励系数，对所述语音数据每一时段的每一候选分词的概率进行校正，并基于校正后的每一时段的每一候选分词的概率，确定所述语音识别结果。
[0015]根据本专利技术一个实施例的语音识别方法，所述热词是基于如下步骤确定的：
[0016]确定所述语音数据的历史语音数据的第一持续时间范围；
[0017]从所述多个关联用户的应用使用数据中筛选所述第一持续时间范围内输入的查询关键词；
[0018]选取至少预设数量个用户均输入的查询关键词，和/或选取每一用户输入的与当前场景相关联的查询关键词，作为所述热词。
[0019]根据本专利技术一个实施例的语音识别方法，在至少两个用户的查询关键词中出现的热词、在任一用户的查询关键词中存在重复词或相近词的热词，以及其他热词的激励系数依次递减，且任一热词在不同用户的查询关键词中出现的频率越高，其激励系数越大。
[0020]根据本专利技术一个实施例的语音识别方法，所述场景关联文本包括所述语音数据的各个历史语音片段对应的历史扩展文本；
[0021]所述基于所述语音数据对应的场景关联文本，对所述语音数据的声学隐层特征进行解码，得到所述语音数据每一时段的每一候选分词的概率，包括：
[0022]基于通用语料库和所述各个历史语音片段对应的历史扩展文本，对所述语音数据的声学隐层特征进行解码，得到所述语音数据每一时段的每一候选分词的概率。
[0023]根据本专利技术一个实施例的语音识别方法，所述基于通用语料库和所述各个历史语音片段对应的历史扩展文本，对所述语音数据的声学隐层特征进行解码，得到所述语音数据每一时段的每一候选分词的概率，包括：
[0024]分别基于通用语料库和各个历史语音片段对应的历史扩展文本，对所述语音数据任一时段的声学隐层特征进行解码，得到对应通用语料库和各个历史语音片段的所述任一时段的任一候选分词的候选概率；
[0025]基于对应通用语料库和各个历史语音片段的所述任一候选分词的候选概率，以及通用语料库和各个历史语音片段对应的权重，确定所述任一候选分词的概率；
[0026]其中，离所述语音数据越近的历史语音片段对应的权重越大。
[0027]根据本专利技术一个实施例的语音识别方法，所述分别基于通用语料库和各个历史语音片段对应的历史扩展文本，对所述语音数据任一时段的声学隐层特征进行解码，得到对应通用语料库和各个历史语音片段的所述任一时段的任一候选分词的候选概率，包括：
[0028]基于任一历史语音片段对应的各个类型的历史扩展文本及其对应的重要性系数，确定对应所述任一历史语音片段的所述任一候选分词的候选概率。
[0029]根据本专利技术一个实施例的语音识别方法，所述各个类型的历史扩展文本包括浏览内容扩展文本、热词查询扩展文本以及预设扩展文本中的至少一种；
[0030]其中，任一历史语音片段对应的浏览内容扩展文本是基于如下步骤获取的：
[0031]确定所述任一历史语音片段的第二持续时间范围；
[0032]从所述多个关联用户的应用记录数据中筛选所述第二持续时间范围内的浏览内容；
[0033]选取与热词相关联的浏览内容、至少两个用户间相互关联的浏览内容以及与当前场景相关联的浏览内容中的至少一种，作为所述任一历史语音片段对应的浏览内容扩展文本。
[0034]本专利技术实施例还提供一种语音识别装置，包括：
[0035]语音数据确定单元，用于确定待识别的语音数据；
[0036]语音识别单元，用于基于所述语音数据对应的场景关联文本，对所述语音数据进行语音识别，得到所述语音数据的语音识别结果；
[0037]所述场景关联文本是基于多个关联用户的应用记录数据确定得到的。
[0038]本专利技术实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音识
别方法的步骤。
[0039]本专利技术实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音识别方法的步骤。
[0040]本专利技术实施例提供的语音识别方法、装置、电子设备和存储介质，通过获取同一语音识别场景下的不同用户在不同应用间的应用记录数据，利用关联用户间关注点的相似性，提取得到场景关联文本，为待识别语音数据提供了与当前场景关联程度高的辅助文本，提高了基于该场景关联文本得到的语音识别结果的准确性。
附图说明
[0041]为了更清楚地说明本专利技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本专利技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0042]图1为本专利技术实施例提供的语音识别方法的流程示意图；
[0043]图2为本专利技术又一实施例提供的语音识别方法的流程示意图；
[0044]图3为本专利技术实施例提供的热词确定方法的流程示意图；
[0本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：确定待识别的语音数据；基于所述语音数据对应的场景关联文本，对所述语音数据进行语音识别，得到所述语音数据的语音识别结果；所述场景关联文本是基于多个关联用户的应用记录数据确定得到的。2.根据权利要求1所述的语音识别方法，其特征在于，所述基于所述语音数据对应的场景关联文本，对所述语音数据进行语音识别，得到所述语音数据的语音识别结果，包括：基于所述语音数据对应的场景关联文本，对所述语音数据的声学隐层特征进行解码，得到所述语音数据每一时段的每一候选分词的概率；基于所述语音数据每一时段的每一候选分词的概率，确定所述语音识别结果。3.根据权利要求2所述的语音识别方法，其特征在于，所述场景关联文本包括热词；所述基于所述语音数据对应的场景关联文本，对所述语音数据的声学隐层特征进行解码，得到所述语音数据每一时段的每一候选分词的概率，包括：基于所述热词，或基于所述热词及其激励系数，对所述语音数据每一时段的每一候选分词的概率进行校正，并基于校正后的每一时段的每一候选分词的概率，确定所述语音识别结果。4.根据权利要求3所述的语音识别方法，其特征在于，所述热词是基于如下步骤确定的：确定所述语音数据的历史语音数据的第一持续时间范围；从所述多个关联用户的应用使用数据中筛选所述第一持续时间范围内输入的查询关键词；选取至少预设数量个用户均输入的查询关键词，和/或选取每一用户输入的与当前场景相关联的查询关键词，作为所述热词。5.根据权利要求3或4所述的语音识别方法，其特征在于，在至少两个用户的查询关键词中出现的热词、在任一用户的查询关键词中存在重复词或相近词的热词，以及其他热词的激励系数依次递减，且任一热词在不同用户的查询关键词中出现的频率越高，其激励系数越大。6.根据权利要求2所述的语音识别方法，其特征在于，所述场景关联文本包括所述语音数据的各个历史语音片段对应的历史扩展文本；所述基于所述语音数据对应的场景关联文本，对所述语音数据的声学隐层特征进行解码，得到所述语音数据每一时段的每一候选分词的概率，包括：基于通用语料库和所述各个历史语音片段对应的历史扩展文本，对所述语音数据的声学隐层特征进行解码，得到所述语音数据每一时段的每一候选分词的概率。7.根据权利要求6所述的语音识别方法，其特征在于，所述基于通用语料库和...

【专利技术属性】
技术研发人员：高建清，万根顺，
申请(专利权)人：上海科大讯飞信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人