一种语音识别的方法及装置制造方法及图纸

技术编号:26224626 阅读:22 留言:0更新日期:2020-11-04 10:59
本发明专利技术提供了一种语音识别方法,所述方法包括:增加声学模型的场景分类信息;获取待测语音在所述场景分类信息下的声学模型输出,并确定符合条件的场景;动态加载所述符合条件的场景相应的语音模型,获得语音识别的结果。通过应用本发明专利技术实施例提供的语音识别方法,使声学模型增加场景信息,动态加载符合条件的场景模型,解除原本预设场景模型的限制,提升识别效率,识别场景的模型数值设定后并采用动态加载的方式,所以不会由于业务需求的变化导致该数值改变,从而使响应速度稳定在设定数值的模型的解码速度。

【技术实现步骤摘要】
一种语音识别的方法及装置
本专利技术涉及数据处理
,尤其涉及一种语音识别的方法及装置。
技术介绍
自动语音识别(AutomaticSpeechRecognition,简称ASR)由声学模型、语言模型和解码器三个部分组成,如下图1所示。其中声学模型和语言模型都有各自的训练方法,声学模型使用语音数据训练声音映射发音的模型;语言模型使用文本数据训练发音映射文字的模型,一般语言模型根据使用场景会预先训练多个,根据使用场景加载可能使用的场景模型;二者可分开并行训练;在使用ASR识别项目时,目前需要人工设置场景的边界,即声学需要配置近讲场景或者远讲的场景,语言模型则需要从众多的业务场景中选择出使用的场景,比如:家具控制,音乐,电影等,其中m代表预设的场景数目。声学和语言的模型的配置都是研发人员进行手工设置,当输入一条音频时,解码器加载声学和预先设定多个语言模型,搜索出最优的打分结果,作为识别结果,放回给用户。但上述技术存在以下问题:(1)声学和语言场景数目较多,特别是语言模型的场景,考验项目团队的操作经验和对实际业务场景的把控力。(2)语言模型配置数目预设越多,速度越慢,并且存在上限数目;当达到语言模型的配置上限时,识别的速率会降低并且模型对于新的未知识别场景能力受限。
技术实现思路
本专利技术实施例的目的是提供一种语音识别的方法及装置,以解决现有技术中的ASR识别需预设多个语言模型,识别响应速度降低且识别场景不匹配问题。为解决上述问题,第一方面,本专利技术提供了一种语音识别的方法,所述方法包括:增加声学模型的场景分类信息;获取待测语音在所述场景分类信息下的声学模型输出,并确定符合条件的场景;动态加载所述符合条件的场景相应的语音模型,获得语音识别的结果。在一种可能的实现方式中,所述增加声学模型的场景信息,具体为:通过语音训练数据中增加场景分类标签,使声学模型增加场景分类信息。在一种可能的实现方式中,所述获取待测语音在所述场景分类信息下的声学模型输出,确定适合的场景,具体为:获取待测语音在所述场景分类信息下的声学模型输出;求待测语音的语音帧的场景概率平均值;基于所述平均值,确定阈值;根据阈值选择所述待测语音符合条件的场景。在一种可能的实现方式中,,所述阈值为0.8。在一种可能的实现方式中,基于识别速度和识别速率求符合条件的场景。第二方面,本专利技术提供了一种语音识别设备,所述设备包括:增加场景模块,用于增加声学模型的场景分类信息;第一处理模块,用于获取待测语音的声学模型输出,并确定符合条件的场景;第二处理模块,用于动态加载所述符合条件的场景相应的语音模型,获得语音识别的结果。在一种可能的实现方式中,所述第一处理模块包括获取模块、计算模块、确定模块和选择模块;所述获取模块,用于获取待测语音的声学模型输出;所述计算模块,用于求待测语音的语音帧的场景概率平均值;所述确定模块,用于基于所述平均值,确定阈值;所述选择模块,用于根据阈值选择所述待测语音符合条件的场景。第三方面,本专利技术提供了一种语音识别设备一种语音识别系统,所述系统包括至少一个处理器和存储器;所述存储器,用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如第一方面中一个或多个所述的方法。第四方面,本专利技术提供了一种芯片,所述芯片与系统中的存储器耦合,使得所述芯片在运行时调用所述存储器中存储的程序指令,实现如第一方面中一个或多个所述的方法。第五方面,本专利技术提供了一种计算机可读存储介质,所述计算机可读存储介质包括一个或多个程序指令,所述一个或多个程序指令可被如第三方面所述的系统执行,以实现如第一方面中一个或多个所述的方法。通过应用本专利技术实施例提供的语音识别方法,使声学模型增加场景信息,动态加载符合条件的场景模型,解除原本预设场景模型的限制,提升识别效率,识别场景的模型数值设定后并采用动态加载的方式,所以不会由于业务需求的变化导致该数值改变,从而使响应速度稳定在设定数值的模型的解码速度。附图说明图1为现有技术中语音识别流程示意图;图2为本专利技术实施例提供的语音识别方法流程示意图;图3为本专利技术实施例提供的确定符合条件场景的流程示意图;图4为本专利技术实施例提供的动态记载方式来进行语音识别的流程示意图;图5为本专利技术实施例提供的语音识别装置结构示意图;图6为本专利技术实施例提供的第一处理模块结构示意图;图7为本专利技术实施例提供的一种语音识别系统结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图2为本专利技术实施例语音识别方法流程示意图,该方法的执行主体为智能外呼平台。如图2所示,该语音识别方法包括以下流程:步骤210,增加声学模型的场景分类信息。具体地,通过语音训练数据中增加场景分类标签,使声学模型增加场景分类信息,进而使得声学模型输出音素的基础上增加场景分类概率。假设语音训练数据中预设的场景数目为m,原本声学模型输出音素的序列具有n个维度,现在加上场景分类标签后,声学模型的输出序列的维度变为:音素+场景=n+m个维度。数学表如下:(x1,x2,x3…,xp)->(y1,y2…,yn)→(x1,x2,x3…,xp)->(y1,y2,…,yn,yn+1,…,ym-n+1,…,ym+n)其中,xi表示语音特征每一个维度;yi表示某一个场景,也可以理解为场景向量的某一个维度;i为1,2……n;p指特征向量;(x1,x2,x3…,xp),表示一共有p个维度。步骤220,获取待测语音在所述场景分类信息下的声学模型输出,并确定符合条件的场景。下面通过一个示例说明如何确定符合条件的场景,在一个示例中,图3为本专利技术实施例提供的确定符合条件场景的流程示意图,如图3所示:步骤2201,获取待测语音在所述场景分类信息下的声学模型输出。步骤2202,求待测语音的语音帧的场景概率平均值。步骤2203,基于所述平均值,确定阈值。步骤2204,根据阈值选择所述待测语音符合条件的场景。具体的,在获取一条待测语音的全部语音帧带场景分类的声学模型输出(n+m)后,将所有语音帧的场景概率做和求平均,根据阈值选择该条待测语音最适合的Topk的场景,说明一下,所谓最合适的,即为符合条件的,Topk表示符合条件的k个场景,k自定义值,其基于识别速度和识别速率来确定,这是因为k是指加载k个场景,一般来说本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,所述方法包括:/n增加声学模型的场景分类信息;/n获取待测语音在所述场景分类信息下的声学模型输出,并确定符合条件的场景;/n动态加载所述符合条件的场景相应的语音模型,获得语音识别的结果。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:
增加声学模型的场景分类信息;
获取待测语音在所述场景分类信息下的声学模型输出,并确定符合条件的场景;
动态加载所述符合条件的场景相应的语音模型,获得语音识别的结果。


2.根据权利要求1所述的方法,其特征在于,所述增加声学模型的场景信息,具体为:
通过语音训练数据中增加场景分类标签,使声学模型增加场景分类信息。


3.根据权利要求1所述的方法,其特征在于,所述获取待测语音在所述场景分类信息下的声学模型输出,确定适合的场景,具体为:
获取待测语音在所述场景分类信息下的声学模型输出;
求待测语音的语音帧的场景概率平均值;
基于所述平均值,确定阈值;
根据阈值选择所述待测语音符合条件的场景。


4.根据权利要求3所述的方法,其特征在于,所述阈值为0.8。


5.根据权利要求3所述的方法,其特征在于,基于识别速度和识别速率求符合条件的场景。


6.一种语音识别设备,其特征在于,所述设备包括:
增加场景模块,用于增加声学模型的场景分类信息;
第一处理模块,用于获取待测语音的声学模型输出...

【专利技术属性】
技术研发人员:李旭滨沈华东
申请(专利权)人:云知声智能科技股份有限公司厦门云知芯智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1