一种语音识别的方法及装置制造方法及图纸

技术编号:26224626 阅读:35 留言:0更新日期:2020-11-04 10:59
本发明专利技术提供了一种语音识别方法,所述方法包括:增加声学模型的场景分类信息;获取待测语音在所述场景分类信息下的声学模型输出,并确定符合条件的场景;动态加载所述符合条件的场景相应的语音模型,获得语音识别的结果。通过应用本发明专利技术实施例提供的语音识别方法,使声学模型增加场景信息,动态加载符合条件的场景模型,解除原本预设场景模型的限制,提升识别效率,识别场景的模型数值设定后并采用动态加载的方式,所以不会由于业务需求的变化导致该数值改变,从而使响应速度稳定在设定数值的模型的解码速度。

【技术实现步骤摘要】
一种语音识别的方法及装置
本专利技术涉及数据处理
,尤其涉及一种语音识别的方法及装置。
技术介绍
自动语音识别(AutomaticSpeechRecognition,简称ASR)由声学模型、语言模型和解码器三个部分组成,如下图1所示。其中声学模型和语言模型都有各自的训练方法,声学模型使用语音数据训练声音映射发音的模型;语言模型使用文本数据训练发音映射文字的模型,一般语言模型根据使用场景会预先训练多个,根据使用场景加载可能使用的场景模型;二者可分开并行训练;在使用ASR识别项目时,目前需要人工设置场景的边界,即声学需要配置近讲场景或者远讲的场景,语言模型则需要从众多的业务场景中选择出使用的场景,比如:家具控制,音乐,电影等,其中m代表预设的场景数目。声学和语言的模型的配置都是研发人员进行手工设置,当输入一条音频时,解码器加载声学和预先设定多个语言模型,搜索出最优的打分结果,作为识别结果,放回给用户。但上述技术存在以下问题:(1)声学和语言场景数目较多,特别是语言模型的场景,考验项目团队的操作经验和对实际业务场景的把控力。...

【技术保护点】
1.一种语音识别方法,其特征在于,所述方法包括:/n增加声学模型的场景分类信息;/n获取待测语音在所述场景分类信息下的声学模型输出,并确定符合条件的场景;/n动态加载所述符合条件的场景相应的语音模型,获得语音识别的结果。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:
增加声学模型的场景分类信息;
获取待测语音在所述场景分类信息下的声学模型输出,并确定符合条件的场景;
动态加载所述符合条件的场景相应的语音模型,获得语音识别的结果。


2.根据权利要求1所述的方法,其特征在于,所述增加声学模型的场景信息,具体为:
通过语音训练数据中增加场景分类标签,使声学模型增加场景分类信息。


3.根据权利要求1所述的方法,其特征在于,所述获取待测语音在所述场景分类信息下的声学模型输出,确定适合的场景,具体为:
获取待测语音在所述场景分类信息下的声学模型输出;
求待测语音的语音帧的场景概率平均值;
基于所述平均值,确定阈值;
根据阈值选择所述待测语音符合条件的场景。


4.根据权利要求3所述的方法,其特征在于,所述阈值为0.8。


5.根据权利要求3所述的方法,其特征在于,基于识别速度和识别速率求符合条件的场景。


6.一种语音识别设备,其特征在于,所述设备包括:
增加场景模块,用于增加声学模型的场景分类信息;
第一处理模块,用于获取待测语音的声学模型输出...

【专利技术属性】
技术研发人员:李旭滨沈华东
申请(专利权)人:云知声智能科技股份有限公司厦门云知芯智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1