【技术实现步骤摘要】
一种语音识别的方法及装置
本专利技术涉及数据处理
,尤其涉及一种语音识别的方法及装置。
技术介绍
自动语音识别(AutomaticSpeechRecognition,简称ASR)由声学模型、语言模型和解码器三个部分组成,如下图1所示。其中声学模型和语言模型都有各自的训练方法,声学模型使用语音数据训练声音映射发音的模型;语言模型使用文本数据训练发音映射文字的模型,一般语言模型根据使用场景会预先训练多个,根据使用场景加载可能使用的场景模型;二者可分开并行训练;在使用ASR识别项目时,目前需要人工设置场景的边界,即声学需要配置近讲场景或者远讲的场景,语言模型则需要从众多的业务场景中选择出使用的场景,比如:家具控制,音乐,电影等,其中m代表预设的场景数目。声学和语言的模型的配置都是研发人员进行手工设置,当输入一条音频时,解码器加载声学和预先设定多个语言模型,搜索出最优的打分结果,作为识别结果,放回给用户。但上述技术存在以下问题:(1)声学和语言场景数目较多,特别是语言模型的场景,考验项目团队的操作经验和对实际业
【技术保护点】
1.一种语音识别方法,其特征在于,所述方法包括:/n增加声学模型的场景分类信息;/n获取待测语音在所述场景分类信息下的声学模型输出,并确定符合条件的场景;/n动态加载所述符合条件的场景相应的语音模型,获得语音识别的结果。/n
【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:
增加声学模型的场景分类信息;
获取待测语音在所述场景分类信息下的声学模型输出,并确定符合条件的场景;
动态加载所述符合条件的场景相应的语音模型,获得语音识别的结果。
2.根据权利要求1所述的方法,其特征在于,所述增加声学模型的场景信息,具体为:
通过语音训练数据中增加场景分类标签,使声学模型增加场景分类信息。
3.根据权利要求1所述的方法,其特征在于,所述获取待测语音在所述场景分类信息下的声学模型输出,确定适合的场景,具体为:
获取待测语音在所述场景分类信息下的声学模型输出;
求待测语音的语音帧的场景概率平均值;
基于所述平均值,确定阈值;
根据阈值选择所述待测语音符合条件的场景。
4.根据权利要求3所述的方法,其特征在于,所述阈值为0.8。
5.根据权利要求3所述的方法,其特征在于,基于识别速度和识别速率求符合条件的场景。
6.一种语音识别设备,其特征在于,所述设备包括:
增加场景模块,用于增加声学模型的场景分类信息;
第一处理模块,用于获取待测语音的声学模型输出...
【专利技术属性】
技术研发人员:李旭滨,沈华东,
申请(专利权)人:云知声智能科技股份有限公司,厦门云知芯智能科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。