本发明专利技术实施例提供了一种发音识别方法及装置,方法包括:获取包括发音对象的目标视频;通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息,得到所述发音对象的发音结果。本发明专利技术实施例获取包括发音对象的目标视频后,通过预设发音识别模型对目标视频的第一特征信息和第二特征信息进行同步识别,因为识别的过程中第一特征信息和第二特征信息可以互相补充,且同步识别的过程中不会发生对齐错位,因此,本发明专利技术实施例相对于现有技术的三种发音识别方法均能得到更加准确的发音结果。
A Method and Device for Pronunciation Recognition
【技术实现步骤摘要】
一种发音识别方法及装置
本专利技术涉及音视频处理
,特别是涉及一种发音识别方法及装置。
技术介绍
随着网络课堂的普及,远程教学平台得到了较好的发展。例如英语远程教学平台中,可以向学员发布标准音视频发音内容,接收学员的发音内容,并对学员的发音进行评分等。现有技术中,在识别学员的发音内容时,通常有三种方式,第一种为:只通过语音识别模型对发音内容进行语音识别;第二种为:只通过唇形识别模型对学员的唇形识别确定发音内容;第三种为:先通过语音识别模型对发音内容进行语音识别,再通过唇形识别模型对学员的唇形识别,然后将两种识别的结果进行加权合并,得到识别结果。然而,申请人在研究中发现:第一种方式中因为一些音符为弱音,没有具体的语音内容,导致语音识别模型不能准确识别;第二种方式中因为一些音符对应的唇形相同,导致唇形识别模型不能准确识别;第三种方式中,在对两者识别结果进行加权合并时,经常会存在对齐错位的现象,导致第三种方式也不能准确识别发音内容。
技术实现思路
鉴于上述问题,提出了本专利技术实施例提供一种发音识别方法及装置,以克服现有技术中发音识别不够准确的问题。根据本专利技术的第一方面,提供了一种发音识别方法,所述方法包括:获取包括发音对象的目标视频;通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息,得到所述发音对象的发音结果。根据本专利技术的第二方面,提供了一种发音识别装置,所述装置包括:目标视频获取模块,用于获取包括发音对象的目标视频;同步识别模块,用于通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息,得到所述发音对象的发音结果。根据本专利技术的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述任一所述的发音识别方法。本专利技术实施例包括以下优点:本专利技术实施例中获取包括发音对象的目标视频后,通过预设发音识别模型对目标视频的第一特征信息和第二特征信息进行同步识别,因为识别的过程中第一特征信息和第二特征信息可以互相补充,且同步识别的过程中不会发生对齐错位,因此,本专利技术实施例相对于现有技术的三种发音识别方法均能得到更加准确的发音结果。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1是本专利技术实施例提供的一种发音识别方法的流程图;图2是本专利技术实施例提供的一种发音识别方法的具体流程图;图3是本专利技术实施例提供的预设发音识别模型的工作过程示意图;图4是本专利技术实施例提供的预设肌肉识别模型的工作过程示意图;图5是本专利技术实施例提供的一种识别评测纠正过程示意图;图6是本专利技术实施例提供的一种具体发音内容对应示意图;图7是本专利技术实施例提供的一种发音识别装置的框图;图8是本专利技术实施例提供的一种发音识别装置的具体框图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,仅仅是本专利技术一部分实施例,而不是全部的实施例,并不用于限定本专利技术。实施例一参照图1,示出了一种发音识别方法的流程图。该方法具体可以包括如下步骤:步骤101:获取包括发音对象的目标视频。本专利技术实施例中,目标视频可以是包括发音部位,和该发音部位对应的声音的视频,发音对象可以是目标视频中发出声音的人物,发音部位可以是唇部等。可以理解,本领域技术人员也可以根据实际的应用场景,设定发音对象为其他对象,发音部位为面部肌肉等,本专利技术实施例对目标视频及发音对象不作具体限定。在一种具体的应用场景中,需要根据远程教学中学员的发音视频为学员的发音评分或纠错,则可以与学员进行实时通讯,实时获取包括学员面部特征的发音视频,作为目标视频;也可以先由学员将目标视频上传到预设存储位置,然后再从预设存储位置获取目标视频;可以理解,本领域技术人员也可以根据实际应用场景,确定适应的获取包括发音对象的目标视频的方案,本专利技术实施例对此不作具体限定。步骤102:通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息,得到所述发音对象的发音结果。本专利技术实施例中,预设发音识别模型可以是能对第一特征信息和第二特征信息进行识别的模型,示例的,可以预先采集对应于第一特征信息的第一样本,和对应于第二特征信息的第二样本,通过第一样本和第二样本训练学习得到预设发音识别模型。具体应用中,第一特征信息和第二特征信息可以是与发音相关的特征信息,通过对第一特征信息,和/或,第二特征信息的分析,可以得到发音对象的具体发音。示例地,第一特征信息可以是语音信息、唇形信息、面部肌肉信息等,第二特征信息也可以是语音信息、唇形信息、面部肌肉信息等,在具体应用中,第一特征信息对应的具体内容和第二特征信息对应的具体内容不重复。本专利技术实施例中,通过预设发音识别模型同步识别目标视频的第一特征信息和第二特征信息中,同步识别具体可以是:在对目标视频识别时,既对第一特征信息进行识别,也对第二特征信息进行识别,并对第一特征信息的识别结果和第二特征信息的识别结果进行实时合并,实时得到目标视频发音对象的每个发音。综上所述,本专利技术实施例中获取包括发音对象的目标视频后,通过预设发音识别模型对目标视频的第一特征信息和第二特征信息进行同步识别,因为识别的过程中第一特征信息和第二特征信息可以互相补充,且同步识别的过程中不会发生对齐错位,因此,本专利技术实施例相对于现有技术的三种发音识别方法均能得到更加准确的发音结果。实施例二参照图2,示出了一种发音识别方法的具体流程图,具体可以包括如下步骤:步骤201:根据训练样本训练预设发音识别模型;所述训练样本包括:唇形图像与发音的对应关系、语音内容与发音的对应关系。本专利技术实施例中,预设发音识别模型可以包括唇形识别部分和语音识别部分,通过包括唇形图像与发音的对应关系的唇形训练样本,可以用机器学习等方法训练得到唇形识别部分,唇形识别部分作为唇形分类模型,可以在接收到唇形图像时,根据唇形识别出对应的文字、音节、音符等数据;通过包括语音内容与发音的对应关系的语音训练样本,可以训练得到语音识别部分,语音识别部分作为语音分类模型,可以在接收到语音时,根据语音识别出对应的文字、音节、音符等数据。在一种具体的应用场景中,部分英文发音时只摆出口型而不发出声音,例如t的不完全爆破,单独使用语音识别会漏识或是误识该部分的英文发音,同时当音频信息中包含有杂音等噪声时,单独使用语音识别也受到影响;还有部分英文发音动作唇形(或口型)完全相同而仅有爆破与否的声音区别,例如t和d、p和b、f和v,单独使用唇形识别不能区分此类发音;因此,本专利技术实施例的预设发音识别模型既包括唇形识别部分又包括语音识别部分,通过唇形识别和语音识别的同步联合识别,可以在唇形识别和语音识别之间进行互相补充,从而能得到准确的识本文档来自技高网...
【技术保护点】
1.一种发音识别方法,其特征在于,所述方法包括:获取包括发音对象的目标视频;通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息,得到所述发音对象的发音结果。
【技术特征摘要】
1.一种发音识别方法,其特征在于,所述方法包括:获取包括发音对象的目标视频;通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息,得到所述发音对象的发音结果。2.根据权利要求1所述的方法,其特征在于,所述第一特征信息包括语音信息,所述第二特征信息包括唇形信息。3.根据权利要求1或2所述的方法,其特征在于,所述通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息,得到所述发音对象的发音结果,包括:通过所述预设发音识别模型逐帧识别所述目标视频的语音信息和唇形信息;针对每帧所述目标视频:在所述预设发音识别模型只识别到语音信息的情况下,将所述语音信息的识别结果作为该帧目标视频中所述发音对象的发音结果;在所述预设发音识别模型只识别到唇形信息的情况下,将所述唇形信息的识别结果作为该帧目标视频中所述发音对象的发音结果;在所述预设发音识别模型识别到语音信息和唇形信息的情况下,将所述唇形信息的识别结果和所述语音信息的识别结果进行合并处理,得到该帧目标视频中所述发音对象的发音结果。4.根据权利要求3所述的方法,其特征在于,所述通过所述预设发音识别模型逐帧识别所述目标视频的语音信息和唇形信息之前,还包括:定位所述发音对象的唇部。5.根据权利要求1所述的方法,其特征在于,所述通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息,得到所述发音对象的发音结果之后,还包括:根据所述发音结果,确定评测结果,和/或,纠正信息;发送所述评测结果,和/或,纠正信息至目标终端;或,显示确定评测结果,和/或,纠正信息。6.根据权利要求5所述的方法,其特征在于,所述根据所述发音结果,确定评测结果,和/或,纠正信息,包括:根据所述发音结果,通过预设肌肉识别模型确定所述发音对象的肌肉运动特征;确定所述发音结果对应的预设标准肌肉运动特征;根据所述肌肉运动特征与所述预设标准肌肉运动特征,确定评测结果,和/或,纠正信息。7.根据权利要求6所述的方法,其特征在于,所述纠正信息包括以下至少一种:肌肉运动纠正信息、唇形纠正信息、发音长短纠正信息、发音轻重纠正信息。8.根据权利要求5或6或7所述的方法,其特征在于,所述纠正信息的格式包括以下至少一种:视频、图像、动画、语音、文字。9.根据权利要求2所述的方法,其特征在于,所述获取包括发音对象的目标视频之前,还包括:根据训练样本训练预设发音识别模型;所述训练样本包括:唇形图像与发音的对应...
【专利技术属性】
技术研发人员:佟子健,张俊博,
申请(专利权)人:北京葡萄智学科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。