一种发音识别方法及装置制造方法及图纸

技术编号：21005440 阅读：41 留言：0更新日期：2019-04-30 21:52

本发明专利技术实施例提供了一种发音识别方法及装置，方法包括：获取包括发音对象的目标视频；通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息，得到所述发音对象的发音结果。本发明专利技术实施例获取包括发音对象的目标视频后，通过预设发音识别模型对目标视频的第一特征信息和第二特征信息进行同步识别，因为识别的过程中第一特征信息和第二特征信息可以互相补充，且同步识别的过程中不会发生对齐错位，因此，本发明专利技术实施例相对于现有技术的三种发音识别方法均能得到更加准确的发音结果。

A Method and Device for Pronunciation Recognition

全部详细技术资料下载

【技术实现步骤摘要】
一种发音识别方法及装置
本专利技术涉及音视频处理
，特别是涉及一种发音识别方法及装置。
技术介绍
随着网络课堂的普及，远程教学平台得到了较好的发展。例如英语远程教学平台中，可以向学员发布标准音视频发音内容，接收学员的发音内容，并对学员的发音进行评分等。现有技术中，在识别学员的发音内容时，通常有三种方式，第一种为：只通过语音识别模型对发音内容进行语音识别；第二种为：只通过唇形识别模型对学员的唇形识别确定发音内容；第三种为：先通过语音识别模型对发音内容进行语音识别，再通过唇形识别模型对学员的唇形识别，然后将两种识别的结果进行加权合并，得到识别结果。然而，申请人在研究中发现：第一种方式中因为一些音符为弱音，没有具体的语音内容，导致语音识别模型不能准确识别；第二种方式中因为一些音符对应的唇形相同，导致唇形识别模型不能准确识别；第三种方式中，在对两者识别结果进行加权合并时，经常会存在对齐错位的现象，导致第三种方式也不能准确识别发音内容。
技术实现思路
鉴于上述问题，提出了本专利技术实施例提供一种发音识别方法及装置，以克服现有技术中发音识别不够准确的问题。根据本专利技术的第一方面，提供了一种发音识别方法，所述方法包括：获取包括发音对象的目标视频；通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息，得到所述发音对象的发音结果。根据本专利技术的第二方面，提供了一种发音识别装置，所述装置包括：目标视频获取模块，用于获取包括发音对象的目标视频；同步识别模块，用于通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息，得到所述发音对象的发音结果...

【技术保护点】
1.一种发音识别方法，其特征在于，所述方法包括：获取包括发音对象的目标视频；通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息，得到所述发音对象的发音结果。

【技术特征摘要】
1.一种发音识别方法，其特征在于，所述方法包括：获取包括发音对象的目标视频；通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息，得到所述发音对象的发音结果。2.根据权利要求1所述的方法，其特征在于，所述第一特征信息包括语音信息，所述第二特征信息包括唇形信息。3.根据权利要求1或2所述的方法，其特征在于，所述通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息，得到所述发音对象的发音结果，包括：通过所述预设发音识别模型逐帧识别所述目标视频的语音信息和唇形信息；针对每帧所述目标视频：在所述预设发音识别模型只识别到语音信息的情况下，将所述语音信息的识别结果作为该帧目标视频中所述发音对象的发音结果；在所述预设发音识别模型只识别到唇形信息的情况下，将所述唇形信息的识别结果作为该帧目标视频中所述发音对象的发音结果；在所述预设发音识别模型识别到语音信息和唇形信息的情况下，将所述唇形信息的识别结果和所述语音信息的识别结果进行合并处理，得到该帧目标视频中所述发音对象的发音结果。4.根据权利要求3所述的方法，其特征在于，所述通过所述预设发音识别模型逐帧识别所述目标视频的语音信息和唇形信息之前，还包括：定位所述发音对象的唇部。5.根据权利要求1所述的方法，其特征在于，所述通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息，得到所述发音对象的发音结果之后，还包括：根据所述发音结果，确定评测结果，和/或，纠正信息；发送所述评测结果，和/或，纠正信息至目标终端；或，显示确定评测结果，和/或，纠正信息。6.根据权利要求5所述的方法，其特征在于，所述根据所述发音结果，确定评测结果，和/或，纠正信息，包括：根据所述发音结果，通过预设肌肉识别模型确定所述发音对象的肌肉运动特征；确定所述发音结果对应的预设标准肌肉运动特征；根据所述肌肉运动特征与所述预设标准肌肉运动特征，确定评测结果，和/或，纠正信息。7.根据权利要求6所述的方法，其特征在于，所述纠正信息包括以下至少一种：肌肉运动纠正信息、唇形纠正信息、发音长短纠正信息、发音轻重纠正信息。8.根据权利要求5或6或7所述的方法，其特征在于，所述纠正信息的格式包括以下至少一种：视频、图像、动画、语音、文字。9.根据权利要求2所述的方法，其特征在于，所述获取包括发音对象的目标视频之前，还包括：根据训练样本训练预设发音识别模型；所述训练样本包括：唇形图像与发音的对应...

【专利技术属性】
技术研发人员：佟子健，张俊博，
申请(专利权)人：北京葡萄智学科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人