语音识别方法、装置、设备和计算机可读介质制造方法及图纸

技术编号:27747185 阅读:21 留言:0更新日期:2021-03-19 13:42
本公开的实施例公开了语音识别方法、装置、电子设备和计算机可读介质。该方法的一个具体实施方式包括:基于用户定制内容生成定制语言模型;确定定制语言模型的第一加权有限状态转换机,其中,第一加权有限状态转换机的边权重是根据用户定制内容的语言概率生成的;通过第一加权有限状态转换机和基础解码网路联合搜索,对待处理语音进行解码,以生成待处理语音对应的文本。该实施方式实现了提高语音识别的准确率。

【技术实现步骤摘要】
语音识别方法、装置、设备和计算机可读介质
本公开的实施例涉及计算机
,具体涉及语音识别方法、装置、设备和计算机可读介质。
技术介绍
随着人工智能技术的高速发展,语音识别技术被广泛应用于会议内容记录、呼叫中心、人机交互等多个领域。与此同时,用户对于语音识别的需要也越来越多,不仅要求通用场景下的高识别率,还经常会提出定制化需求,即在短时间内提升某些定制内容识别率。为了满足这种定制化需求,相关的语音识别技术主要有两种解决办法:第一,是将用户定制内容表示成文本,训练定制语言模型,然后和基础语言模型插值,最终得到定制内容概率增强的语言模型。然后,利用该增强的语言模型重新构建解码网络进行识别。第二,使用定制内容生成一个新的与定制内容相关的解码网络(简称定制网络)。当语音输入时,在基础解码网络和定制网络上同时搜索,对基础解码网络中的定制内容重打分,增加其所在路径的得分,进而提高定制内容的识别率。这些语音识别技术主要存在以下技术问题:第一,上述第一种解决办法,生成插值语言模型后,需要将插值语言模型的WFST(WeightedFinite-StateTransducer,加权有限状态转换机)和其它WFST进行一系列复杂操作,重新生成最终的静态解码网络。整个流程通常耗时长,迭代过程缓慢,很难满足用户紧急需求。第二,上述第二种解决办法,存在识别准确率不高的问题。
技术实现思路
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。本公开的一些实施例提出了语音识别方法、装置、电子设备和计算机可读介质,来解决以上
技术介绍
部分提到的技术问题。第一方面,本公开的一些实施例提供了一种语音识别方法,该方法包括:基于用户定制内容生成定制语言模型;确定定制语言模型的第一加权有限状态转换机,其中,第一加权有限状态转换机的边权重是根据用户定制内容的语言概率生成的;通过第一加权有限状态转换机和基础解码网路联合搜索,对待处理语音进行解码,以生成待处理语音对应的文本。第二方面,本公开的一些实施例提供了一种语音识别装置,装置包括:生成单元,被配置成基于用户定制内容生成定制语言模型;确定单元,被配置成确定定制语言模型的第一加权有限状态转换机,其中,第一加权有限状态转换机的边权重是根据用户定制内容的语言概率生成的;解码单元,被配置成通过第一加权有限状态转换机和基础解码网路联合搜索,对待处理语音进行解码,以生成待处理语音对应的文本。第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一实现方式描述的方法。本公开的上述各个实施例具有如下有益效果:提高了定制内容语音识别场景下,语音识别的效率和准确率。具体来说,本公开的一些实施例的语音识别方法首先根据用户定制内容生成定制语言模型。在此基础上,基于定制语言模型的WFST和基础解码网路联合搜索,实现提升用户定制内容的识别率。在此过程中,不需要通过一系列复杂操作(例如,融合)重新生成WFST。因此,提高了语音识别的效率。此外,专利技术人发现,导致
技术介绍
中第二种解决办法存在识别准确率不高的问题的原因在于:第一加权有限状态转换机的边权重是通过技术人员根据经验确定的,不能反映真实的语言概率,导致识别准确率不高。基于此,本公开的一些实施例的语音识别方法中,第一加权有限状态转换机的边权重是根据所述用户定制内容的语言概率生成的。从而能够反映真实的语言概率,进而提高语音识别的准确率。附图说明结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。图1是根据本公开的一些实施例的语音识别方法的一个应用场景的示意图;图2是根据本公开的语音识别方法的一些实施例的流程图;图3是根据本公开的语音识别方法的另一些实施例的流程图;图4是根据本公开的语音识别方法中的通过令牌传递算法对第一加权有限状态转换机和基础解码网路联合搜索的流程图;图5是根据本公开的语音识别装置的一些实施例的结构示意图;图6是适于用来实现本公开的一些实施例的电子设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。下面将参考附图并结合实施例来详细说明本公开。图1是本公开的一些实施例的文本生成方法的一个应用场景的示意图。在图1的应用场景中,首先,计算设备101可以根据用户定制内容102生成定制语言模型。例如,用户定制内容可以是不常见的“京喜拼购”。作为示例,计算设备101可以基于用户定制内容,对经过预训练的语言模型103再次进行训练,从而得到定制语言模型104。然后,计算设备101可以确定定制语言模型的第一加权有限状态转换机105。其中,第一加权有限状态转换机105的边权重是根据用户定制内容102的语言概率生成的。在本应用场景下,如图所示,包括两个边权重,值均为“-4”。在此基础上,可以通过第一加权有限状态转换机105和基础解码网路106联合搜索,对待处理语音进行解码,以生成待处理语音107对应的文本108。举例来说,在基础解码网路106中,路径0-2-3路径的开销为8,路径1-2-3的开销为11。如果待处理语音107用拼音表示为“JINGXIPINGOU”,因为上述两条路径的文本对应发音一致,可假设声学开销都为2。那么,路径0-2-3的总开销为8+2=10,低于路径1-2-3的总开销(11+本文档来自技高网
...

【技术保护点】
1.一种语音识别方法,包括:/n基于用户定制内容生成定制语言模型;/n确定所述定制语言模型的第一加权有限状态转换机,其中,所述第一加权有限状态转换机的边权重是根据所述用户定制内容的语言概率生成的;/n通过所述第一加权有限状态转换机和基础解码网路联合搜索,对待处理语音进行解码,以生成所述待处理语音对应的文本。/n

【技术特征摘要】
1.一种语音识别方法,包括:
基于用户定制内容生成定制语言模型;
确定所述定制语言模型的第一加权有限状态转换机,其中,所述第一加权有限状态转换机的边权重是根据所述用户定制内容的语言概率生成的;
通过所述第一加权有限状态转换机和基础解码网路联合搜索,对待处理语音进行解码,以生成所述待处理语音对应的文本。


2.根据权利要求1所述的方法,其中,所述基于用户定制内容生成定制语言模型,包括:
利用所述用户定制内容,训练初始语言模型,得到训练语言模型;
将所述训练语言模型和基础语言模型进行插值,得到所述定制语言模型。


3.根据权利要求2所述的方法,其中,所述确定所述定制语言模型的第一加权有限状态转换机,包括:
对所述用户定制内容中的每个语句执行以下处理步骤:
对所述语句进行分词,得到所述语句对应的词序列;
确定所述词序列在所述定制语言模型和所述基础语言模型上的语言概率的差值;基于所述差值和所述词序列中词的个数,确定所述词序列中每个词对应的权重;基于所述词序列和所述每个词对应的权重,生成所述语句对应的链式加权有限状态转换机;
将所述用户定制内容中的各个语句对应的链式加权有限状态转换机进行组合,得到所述第一加权有限状态转换机。


4.根据权利要求3所述的方法,其中,所述链式加权有限状态转换机中只将开头状态和结尾状态设置为终止状态;以及
所述通过所述第一加权有限状态转换机和基础解码网路联合搜索,对待处理语音进行解码,以生成所述待处理语音对应的文本,包括:
通过令牌传递算法对所述第一加权有限状态转换机和基础解码网路联合搜索,以对所述待处理语音进行解码,以及生成所述待处理语音对应的文本。


5.根据权利要求4所述的方法,其中,所述通过令牌传递算法对所述第一加权有限状态转换机和基础解码网路联合搜索,包括:
初始化令牌,所述令牌中包括状态对,所述状态对中包括所述基础解码网路的第一状态和所述第一加权有限状态转换机的第二状态,所述第一状态的初始状态为所述基础解码网路的初始状态,所述第二状态的初始状态为所述第一加权有限状态转换机的初始状态;
获取所述待处理语音中的目标语音帧的语音特征,执行以下状态转移...

【专利技术属性】
技术研发人员:彭毅蔡玉玉范璐全宗峰吴俊仪杨帆
申请(专利权)人:北京沃东天骏信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1