语音识别方法、设备、计算机可读存储介质及程序产品技术

技术编号:28678381 阅读:19 留言:0更新日期:2021-06-02 02:55
本申请提供了一种语音识别方法、设备、计算机可读存储介质及程序产品,所述方法包括:获取待识别语音信息和上文识别结果,所述上文识别结果为所述待识别语音信息的上文语音信息的语音识别结果;对所述待识别语音信息进行识别,得到多个候选识别结果;分别将所述上文识别结果与各个候选识别结果输入至训练好的匹配模型,得到各个匹配结果,所述各个匹配结果包括所述上文识别结果与所述各个候选识别结果的相关度;基于所述各个匹配结果,从所述多个候选识别结果中确定目标识别结果。如此,通过结合上文内容对待识别语音进行关联识别,能够使识别结果符合实际对话场景,实现基于上文内容的语音识别,能够提高语音识别结果的准确率。

【技术实现步骤摘要】
语音识别方法、设备、计算机可读存储介质及程序产品
本申请涉及人工智能
,涉及但不限于一种语音识别方法、设备、计算机可读存储介质及程序产品。
技术介绍
随着智能设备的发展,语音交互成为一个重要的互动方式,自动语音识别(ASR,AutomaticSpeechRecognition)技术也变得尤为重要。在语音对话场景下,相关技术中ASR主要是采用模式匹配法:在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库;在识别阶段,将待识别语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者确定为识别结果。相关技术中基于模式匹配的语音识别方法,由于环境噪音影响、模板库中存在的多个同音模板等情况,导致识别结果的准确率较低。例如模板库中存在“事实”与“适时”两个模板,采用相关技术中基于模式匹配法的ASR,无法根据当前待识别语音确定哪一模板的准确率更高,存在将“事实”误识别为“适时”、或者将“适时”误识别为“事实”的情况,使得识别结果不符合实际对话场景,导致语音识别结果准确率低。
技术实现思路
本申请实施例提供一种语音识别方法、装置、设备、计算机可读存储介质及计算机程序产品,实现基于上文的语音识别,能够提高语音识别结果的准确率。本申请实施例的技术方案是这样实现的:本申请实施例提供一种语音识别方法,所述方法包括:获取待识别语音信息和上文识别结果,所述上文识别结果为所述待识别语音信息的上文语音信息的语音识别结果;对所述待识别语音信息进行识别,得到多个候选识别结果;分别将所述上文识别结果与各个候选识别结果输入至训练好的匹配模型,得到各个匹配结果,所述各个匹配结果包括所述上文识别结果与所述各个候选识别结果的相关度;基于所述各个匹配结果,从所述多个候选识别结果中确定目标识别结果。本申请实施例提供一种语音识别装置,所述装置包括:第一获取模块,用于获取待识别语音信息和上文识别结果,所述上文识别结果为所述待识别语音信息的上文语音信息的语音识别结果;识别模块,用于对所述待识别语音信息进行识别,得到多个候选识别结果;输入模块,用于分别将所述上文识别结果与各个候选识别结果输入至训练好的匹配模型,得到各个匹配结果,所述各个匹配结果包括所述上文识别结果与所述各个候选识别结果的相关度;确定模块,用于基于所述各个匹配结果,从所述多个候选识别结果中确定目标识别结果。本申请实施例提供一种语音识别设备,包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的方法。本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的方法。本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本申请实施例提供的方法。本申请实施例具有以下有益效果:在本申请实施例提供的语音识别方法中,语音识别设备首先获取待识别语音信息和上文识别结果,所述上文识别结果为所述待识别语音信息的上文语音信息的语音识别结果;然后对所述待识别语音信息进行识别,得到多个候选识别结果;再分别将所述上文识别结果与各个候选识别结果输入至训练好的匹配模型,得到各个匹配结果,所述各个匹配结果包括所述上文识别结果与所述各个候选识别结果的相关度;最后基于所述各个匹配结果,从所述多个候选识别结果中确定目标识别结果。如此,与相关技术中仅对待识别语音进行识别的方案、以及基于多个候选文本中提取的辅助文本和上文文本确定目标识别结果的相关技术相比,本申请实施例提供的语音识别方法通过结合预先训练的匹配模型和上文内容对待识别语音进行识别,能够使识别结果与上文内容相匹配,使识别的内容符合实际对话场景,实现基于上文内容的语音识别,能够提高语音识别结果的准确率。附图说明图1为本申请实施例提供的语音识别方法的网络架构示意图;图2是本申请实施例提供的语音识别设备的组成结构示意图;图3为本申请实施例提供的语音识别方法的一种实现流程示意图;图4为本申请实施例提供的语音识别方法的另一种实现流程示意图;图5为本申请实施例提供的语音识别方法的再一种实现流程示意图;图6为本申请实施例提供的匹配模型的整体结构示意图。具体实施方式为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。在以下的描述中,所涉及的术语“第一\第二\第三”仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。1)自动语音识别(ASR,AutomaticSpeechRecognition)技术,一种将人的语音转换为文本的技术,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。其基本原理为:在训练阶段,预先分析出语音特征参数,制作语音模板,并存放在语音参数库中。在识别阶段,将待识别语音经过与训练时相同的分析,得到语音特征参数;将语音特征参数与语音参数库中的每个语音模板进行相似度比较,找出最接近语音特征的语音模板作为识别结果。2)N-Gram,是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,ChineseLanguageModel)。汉语语言模型利用上下文中相邻词间的搭配信息,可以实现语音到汉字的自动转换。该模型基于这样一种假设:第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。3)深度神经网络(DNN,DeepNeuralNetworks),为有很多隐藏层的神经网络。从DNN按不同层的位置划分,DNN内部的神经网络层可以分为三类:输入层,隐藏层和输出层。一般来说第一层是输入层,最后一层是输出层,而中间的层数都是隐藏层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。本文档来自技高网
...

【技术保护点】
1.一种语音识别方法,其特征在于,所述方法包括:/n获取待识别语音信息和上文识别结果,所述上文识别结果为所述待识别语音信息的上文语音信息的语音识别结果;/n对所述待识别语音信息进行识别,得到多个候选识别结果;/n分别将所述上文识别结果与各个候选识别结果输入至训练好的匹配模型,得到各个匹配结果,所述各个匹配结果包括所述上文识别结果与所述各个候选识别结果的相关度;/n基于所述各个匹配结果,从所述多个候选识别结果中确定目标识别结果。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:
获取待识别语音信息和上文识别结果,所述上文识别结果为所述待识别语音信息的上文语音信息的语音识别结果;
对所述待识别语音信息进行识别,得到多个候选识别结果;
分别将所述上文识别结果与各个候选识别结果输入至训练好的匹配模型,得到各个匹配结果,所述各个匹配结果包括所述上文识别结果与所述各个候选识别结果的相关度;
基于所述各个匹配结果,从所述多个候选识别结果中确定目标识别结果。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取正样本数据集和负样本数据集,所述正样本数据集中的各个正样本数据包括相关度大于或等于预设阈值的训练上文文本数据和训练文本数据,所述负样本数据集中的各个负样本数据包括相关度小于预设阈值的训练上文文本数据和训练文本数据;
获取所述各个正样本数据对应的标注相关度和各个负样本数据对应的标注相关度;
基于所述各个正样本数据、所述各个正样本数据对应的标注相关度、所述各个负样本数据和所述各个负样本数据对应的标注相关度对预设匹配模型进行训练,得到训练好的匹配模型。


3.根据权利要求2所述的方法,其特征在于,所述获取正样本数据集,包括:
获取训练数据集,所述训练数据集中各个训练数据包括训练语音数据和所述训练语音数据的训练上文语音数据;
获取各个训练语音数据对应的训练文本数据和各个训练上文语音数据对应的训练上文文本数据;
将一个训练数据对应的训练上文文本数据和训练文本数据确定为一个正样本数据;
将各个训练数据确定的各个正样本数据确定为正样本数据集。


4.根据权利要求3所述的方法,其特征在于,获取负样本数据集,包括:
获取各个训练语音数据对应的至少一个训练候选文本数据,所述训练候选文本数据不同于所述训练文本数据;
将一个训练数据对应的训练上文文本数据和一个训练候选文本数据确定为一个负样本数据;
将各个训练数据确定的各个负样本数据确定为负样本数据集。


5.根据权利要求3所述的方法,其特征在于,获取负样本数据集,包括:
从所述各个训练数据中获取除一个训练数据以外的剩余训练数据;
从所述剩余训练数据中随机选取另一个训练数据;
将所述一个训练数据对应的训练上文文本数据和所述另一个训练数据对应的训练文本数据确定为一个负样本数据;
将各个训练数据确定的各个负样本数据确定为负样本数据集。


6.根据权利要求3所述的方法,其特征在于,所述基于所述各个正样本数据、所述各个正样本数据对应的标注相关度、所述各个负样本数据和所述...

【专利技术属性】
技术研发人员:连荣忠陈潮涛彭金华姜迪徐倩杨强
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1