一种语音识别的方法及装置制造方法及图纸

技术编号：26224626 阅读：35 留言：0更新日期：2020-11-04 10:59

本发明专利技术提供了一种语音识别方法，所述方法包括：增加声学模型的场景分类信息；获取待测语音在所述场景分类信息下的声学模型输出，并确定符合条件的场景；动态加载所述符合条件的场景相应的语音模型，获得语音识别的结果。通过应用本发明专利技术实施例提供的语音识别方法，使声学模型增加场景信息，动态加载符合条件的场景模型，解除原本预设场景模型的限制，提升识别效率，识别场景的模型数值设定后并采用动态加载的方式，所以不会由于业务需求的变化导致该数值改变，从而使响应速度稳定在设定数值的模型的解码速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音识别的方法及装置
本专利技术涉及数据处理
，尤其涉及一种语音识别的方法及装置。
技术介绍
自动语音识别(AutomaticSpeechRecognition，简称ASR)由声学模型、语言模型和解码器三个部分组成，如下图1所示。其中声学模型和语言模型都有各自的训练方法，声学模型使用语音数据训练声音映射发音的模型；语言模型使用文本数据训练发音映射文字的模型，一般语言模型根据使用场景会预先训练多个，根据使用场景加载可能使用的场景模型；二者可分开并行训练；在使用ASR识别项目时，目前需要人工设置场景的边界，即声学需要配置近讲场景或者远讲的场景，语言模型则需要从众多的业务场景中选择出使用的场景，比如：家具控制，音乐，电影等，其中m代表预设的场景数目。声学和语言的模型的配置都是研发人员进行手工设置，当输入一条音频时，解码器加载声学和预先设定多个语言模型，搜索出最优的打分结果，作为识别结果，放回给用户。但上述技术存在以下问题：(1)声学和语言场景数目较多，特别是语言模型的场景，考验项目团队的操作经验和对实际业

【技术保护点】
1.一种语音识别方法，其特征在于，所述方法包括：/n增加声学模型的场景分类信息；/n获取待测语音在所述场景分类信息下的声学模型输出，并确定符合条件的场景；/n动态加载所述符合条件的场景相应的语音模型，获得语音识别的结果。/n

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述方法包括：
增加声学模型的场景分类信息；
获取待测语音在所述场景分类信息下的声学模型输出，并确定符合条件的场景；
动态加载所述符合条件的场景相应的语音模型，获得语音识别的结果。

2.根据权利要求1所述的方法，其特征在于，所述增加声学模型的场景信息，具体为：
通过语音训练数据中增加场景分类标签，使声学模型增加场景分类信息。

3.根据权利要求1所述的方法，其特征在于，所述获取待测语音在所述场景分类信息下的声学模型输出，确定适合的场景，具体为：
获取待测语音在所述场景分类信息下的声学模型输出；
求待测语音的语音帧的场景概率平均值；
基于所述平均值，确定阈值；
根据阈值选择所述待测语音符合条件的场景。

4.根据权利要求3所述的方法，其特征在于，所述阈值为0.8。

5.根据权利要求3所述的方法，其特征在于，基于识别速度和识别速率求符合条件的场景。

6.一种语音识别设备，其特征在于，所述设备包括：
增加场景模块，用于增加声学模型的场景分类信息；
第一处理模块，用于获取待测语音的声学模型输出...

【专利技术属性】
技术研发人员：李旭滨，沈华东，
申请(专利权)人：云知声智能科技股份有限公司，厦门云知芯智能科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人