【技术实现步骤摘要】
语音识别方法、装置、计算机可读存储介质和计算机设备
本申请涉及语音识别
,特别是涉及一种语音识别方法、装置、计算机可读存储介质和计算机设备。
技术介绍
随着计算机技术的飞速发展,语音识别领域的技术也日益成熟。传统技术中,语音识别的技术方案通常分为前端解码和后端处理两部分,前端主要负责接收输入的语音数据并对语音数据进行解码,得到多个存在可能性的句子,后端则可从前端得到的多个可能性的句子中确定其中一个句子作为最终的识别结果。传统技术中,后端可将多个可能性的句子输入至神经网络,以此确定最终的识别结果,然而这种方式下,需要利用海量的文本,且需要耗费较长的周期才能训练出最终可投入使用的神经网络,因此这种语音识别的方案效率较低。
技术实现思路
基于此,有必要针对上述语音识别效率较低的技术问题,提供一种能够提高语音识别效率的语音识别方法、装置、计算机可读存储介质和计算机设备。一种语音识别方法,包括:获取对语音数据进行解码得到的多个词序列,以及每个词序列对应的第一得分;从所述词序列中提取所述第一得分靠前的预设数量的词序列作为候选词序列;识别所述候选词序列所在的领域;根据所述候选 ...
【技术保护点】
1.一种语音识别方法,包括:获取对语音数据进行解码得到的多个词序列,以及每个词序列对应的第一得分;从所述词序列中提取所述第一得分靠前的预设数量的词序列作为候选词序列;识别所述候选词序列所在的领域;根据所述候选词序列所在的领域将所述候选词序列输入至对应领域的神经网络中;通过所述神经网络对所述候选词序列进行重打分,得到每个候选词序列对应的第二得分;根据所述候选词序列对应的第一得分和第二得分得到所述候选词序列的最终得分;将所述最终得分最高的候选词序列作为所述语音数据的语音识别结果。
【技术特征摘要】
1.一种语音识别方法,包括:获取对语音数据进行解码得到的多个词序列,以及每个词序列对应的第一得分;从所述词序列中提取所述第一得分靠前的预设数量的词序列作为候选词序列;识别所述候选词序列所在的领域;根据所述候选词序列所在的领域将所述候选词序列输入至对应领域的神经网络中;通过所述神经网络对所述候选词序列进行重打分,得到每个候选词序列对应的第二得分;根据所述候选词序列对应的第一得分和第二得分得到所述候选词序列的最终得分;将所述最终得分最高的候选词序列作为所述语音数据的语音识别结果。2.根据权利要求1所述的方法,其特征在于,所述识别所述候选词序列所在的领域,包括:将每个候选词序列输入至语义分类模型中;通过所述语义分类模型对所述每个候选词序列进行分类,得到每个候选词序列对应的分类标签;获取所述分类标签中占比最大的分类标签对应的领域作为所述候选词序列所在的领域。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取各个领域对应的文本;将所述文本中的每个词语转换成词向量;将所述词向量作为输入,对每个领域对应的神经网络进行训练。4.根据权利要求3所述的方法,其特征在于,所述将所述词向量作为输入,对每个领域对应的神经网络进行训练,包括:按照所述文本中词语的顺序,将文本中的每个词语对应的词向量作为输入,将每个输入的词语的下一个词语对应的词向量作为输出,以调整所述神经网络的参数对所述神经网络进行训练。5.根据权利要求1所述的方法,其特征在于,所述根据所述候选词序列对应的第一得分和第二得分得到所述候选词序列的最终得分,包括:对根据所述候选词序列对应的第一得分和第二得分进行加权求和,得到所述候选词序列的最终得分。6.根据权利要求1所述的方法,其特征在于,所述神经网络为循环神经网络。7.根据权利要求1所述的方法,其特征在于,在所述将所述最终得分最高的候选词序列作为所述语音数据的语音识别结果之后,还包括:对所述语音识别结果进行实体提取,得到实体词语;对所述实体词语进行检索;当检索结果与所述实体词语不一致时,对所述实体词语进行修复。8.根据权利要求7所述的方法,其特征在于,所述对所述实体词语进行检索,包括:根据所述候选词序列所在的领域确定所述语音识别结果的领域;在所...
【专利技术属性】
技术研发人员:刘毅,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。