一种中文唇语识别建模单元集的构建方法技术

技术编号:28375676 阅读:28 留言:0更新日期:2021-05-08 00:03
本发明专利技术公开一种中文唇语识别建模单元集的构建方法,包括以下步骤,首先,对中文发音的声学特点和发音原理进行研究;然后,总结了几种常见的中文唇语识别建模单元集,包括词、音节、声韵母和中文音素,并给出它们各自的优缺点和适用性;最终,基于现存建模单元集的不足并通过对于中文发音视觉特点进行分析,提出了一个新的建模单元集——“视觉拼音”。本发明专利技术实施于中文唇语识别,相比于其他的建模单元集,采用本发明专利技术的技术方案将通过降低识别维度,有效减少中文发音的视觉歧义性,进而提高中文唇语识别准确率。

【技术实现步骤摘要】
一种中文唇语识别建模单元集的构建方法
本专利技术属于唇语识别
,具体涉及一种中文唇语识别建模单元集的构建方法。
技术介绍
随着人工智能的发展,深度学习技术逐渐崛起并开始渗透到人们生活的方方面面,其在大数据处理、音视频处理和自然语言处理等领域均取得了瞩目的进展并与人类的生产生活紧密结合。而且随着技术发展和现实需要,深度学习早已不再局限于解决单一领域问题,而是开始追求多领域、多技术的融合研究。因此,利用深度学习进行多领域、多技术的融合研究是大势所趋,且非常具有现实意义。而唇语识别便是这样一种融合了图像识别、语音识别和自然语言识别等多领域技术的研究课题,由于这些领域的技术在飞速发展,为唇语识别的研究提供了有力的技术支持,同时,唇语识别的研究也在推动着这些领域交叉融合。唇语识别技术及其应用是目前国际上研究的热门课题之一,由于其非常具有实用性,能为很多场景带来便利并发挥辅助性作用,因此这种自动化应用将拥有巨大的市场经济价值,具有广阔的应用前景:复杂环境下的语音识别、反作弊与活体检测、口型矫正、辅助听障人士正常交流和识别无声视频中的内容等。唇语识别同语音识别一样,在建模之前要选取合适的建模单元集,建模单元集的合理与否与模型的识别率直接相关。一般来说,建模单元集的选取和构建通常需要考虑到以下几项原则:代表性、可训练性和推广性。即构建的建模单元集要能够准确且有代表性地描述出任何语句序列,且有足够多的数据能够对建模单元进行可靠预测,同时还要兼具可沿用性,易于表达新词。中文唇语识别研究起步相对较晚,虽然中文唇语识别研究已经有了一些成果,但相较于英文还是存在不小的落差。主要原因在于中英文的发音规则有着非常大的差别,因此,探索合适的建模单元集对中文唇语识别工作有着非常大的意义和作用。
技术实现思路
为了解决现有技术中的问题,本专利技术提出一种中文唇语识别建模单元集的构建方法。为了使唇语识别方法与中文更加适配,也为了提升其识别率,提出了“视觉拼音”这一概念,视觉拼音本质上就是中文发音的视觉呈现,通过对唇形表达上易混淆的发音口型,最终映射得到的结果就被命名为视觉拼音。视觉拼音的引进更有助于中文唇语视频的解析,使得唇语识别的准确率更高。为实现上述目的,本专利技术采用的技术方案为:一种中文唇语识别建模单元集的构建方法,包括以下步骤:步骤1,总结出若干种常见的中文唇语识别建模单元集,分析得到的若干种建模单元集各自的优缺点和适用性,得到其中表现最好的建模单元集,即中文音素;步骤2,结合中文发音的视觉特点和步骤1提到的中文音素,建立一个名称为视觉拼音的中文唇语识别建模单元集;步骤3,为了确定步骤2中的视觉拼音组成,首先将64×80像素的唇部视频帧序列输入到一个10层的卷积神经网络,提取得到512维的嘴唇特征向量;步骤4,以步骤1提到的中文音素作为建模单元,将步骤3得到的嘴唇特征向量输入到带有注意机制的序列到序列模型,得到中文音素序列;步骤5,重复步骤3和步骤4,为预测得到的中文音素序列和与之对应的目标中文音素序列建立混淆矩阵,对中文音素的混淆程度进行归类;步骤6,通过对中文发音规律的总结,在步骤5所得归类结果的基础上进行补充和调整,得到最终的视觉拼音;步骤7,将步骤1中的全部建模单元集和步骤6得到的视觉拼音分别应用到中文唇语识别系统中,比较模型的性能表现,得出视觉拼音更适合中文唇语的解析。进一步的,所述步骤1中的若干种常见的中文唇语识别建模单元集包括:词、音节、声韵母和中文音素。进一步的,所述中文音素有两种分类:辅音和元音,其中:辅音包含b,p,m,f,d,t,n,l,g,k,h,j,q,x,zh,ch,sh,r,z,c,s,ng;元音包含a,o,e,i,u,ü,ê,-i[前],-i[后],er。进一步的,所述步骤2对中文发音的视觉特点和步骤1提到的中文音素进行分析后,认为如果可以降低唇语识别的维度,并减少视觉混淆性给识别工作造成的影响,便能提高中文唇语识别的性能。为了验证这一结论,拟建立一个名为视觉拼音的中文唇语识别建模单元,并通过实验验证其效用。进一步的,所述步骤3中使用的卷积神经网络的卷积内核均为1×3×3,采用非线性激活Selu函数,所有的最大池化stride为1×2×2。进一步的,所述步骤4中的序列到序列模型分为编码器和解码器两个部分,其中,编码部分是256维的2层GRU网络,用于将嘴唇特征向量编码成特定内容向量,解码部分是512维的单向GRU网络,用以解决每一时刻的嘴唇视频帧随着时间变化的运动特征问题和未知长度的输入与输出的对齐问题,并将编码器输出的内容向量解码成最终的中文音素序列。最终的模型整体架构如图2所示。进一步的,所述步骤5中对中文音素的归类就是对中文发音的视觉呈现进行归类,实则是对汉语音素的归类,汉语音素分为元音和辅音,辅音中包含了所有的声母,在中文音素中,元音在嘴型上是不容易混淆的,所以混淆矩阵中得到部分辅音在视觉上非常相似,归类后得到最具混淆性的几组中文音素为:(1)b,p,m,f;(2)d,t,n,l;(3)zh,ch,sh,r;(4)g,k,h;(5)j,q,x;(6)z,c,s。进一步的,所述步骤6中经过补充和调整后得到的最终视觉拼音分类如下:视觉拼音B,对应b,p,m;视觉拼音F,对应f;视觉拼音D,对应d,t,声母n,l;视觉拼音G,对应g,k,h;视觉拼音J,对应j,q,x;视觉拼音R,对应zh,ch,sh,r,zhi,chi,shi,ri;视觉拼音Z,对应z,c,s,zi,ci,si;视觉拼音I,对应i,y,yi;视觉拼音U,对应u,w,wu;视觉拼音V,对应ü,yu;视觉拼音a,对应a;视觉拼音o,对应o;视觉拼音e,对应e;视觉拼音E,对应ê;视觉拼音r,对应er;视觉拼音n,对应韵母n;视觉拼音N,对应ng。进一步的,所述步骤7中的中文唇语识别系统基于两种模型,分别是CHSLR-VP和WAS。本专利技术相比于现有技术,具有以下有益效果:本专利技术可以应用到中文唇语识别工作中,作为系统的建模单元集。中文发音在视觉上极具混淆性,因此,在建立中文唇语识别模型时要充分考虑到中文自身的特点,不同的发音部位和发音方法决定了声音的不同,在没有声音仅依据视觉判定发音时,某些发音口型在视觉上是很难进行区分的。通过本专利技术建立的中文唇语识别建模单元集,可以在一定程度上减少视觉混淆对模型性能的影响,引入本专利技术提出的视觉拼音,可以比直接预测汉字或以拼音作为媒介预测汉字的方式更能提高中文唇语识别模型的整体识别准确率。附图说明图1是本专利技术的唇部特征提取网络结构图;图2是本专利技术步骤4中的序列到序列模型整体架构图;图3是本专利技术的中文音素混淆矩阵图;图4是本专利技术的发音“f”与“b,p,m”的视觉区别举例图;图5是本专利技术的中文唇语识别模型CHSLR-VP整体结构图;图6是本专利技术的不同建模单元集的预测实例图。具体实施方式<本文档来自技高网
...

【技术保护点】
1.一种中文唇语识别建模单元集的构建方法,其特征在于,包括以下步骤:/n步骤1,总结出若干种常见的中文唇语识别建模单元集,分析得到的若干种建模单元集各自的优缺点和适用性,得到其中表现最好的建模单元集,即中文音素;/n步骤2,结合中文发音的视觉特点和步骤1提到的中文音素,建立一个名称为视觉拼音的中文唇语识别建模单元集;/n步骤3,为了确定步骤2中的视觉拼音组成,首先将64×80像素的唇部视频帧序列输入到一个10层的卷积神经网络,提取得到512维的嘴唇特征向量;/n步骤4,以步骤1提到的中文音素作为建模单元,将步骤3得到的嘴唇特征向量输入到带有注意机制的序列到序列模型,得到中文音素序列;/n步骤5,重复步骤3和步骤4,为预测得到的中文音素序列和与之对应的目标中文音素序列建立混淆矩阵,对中文音素的混淆程度进行归类;/n步骤6,通过对中文发音规律的总结,在步骤5所得归类结果的基础上进行补充和调整,得到最终的视觉拼音;/n步骤7,将步骤1中的全部建模单元集和步骤6得到的视觉拼音分别应用到中文唇语识别系统中,比较模型的性能表现,得出视觉拼音更适合中文唇语的解析。/n

【技术特征摘要】
1.一种中文唇语识别建模单元集的构建方法,其特征在于,包括以下步骤:
步骤1,总结出若干种常见的中文唇语识别建模单元集,分析得到的若干种建模单元集各自的优缺点和适用性,得到其中表现最好的建模单元集,即中文音素;
步骤2,结合中文发音的视觉特点和步骤1提到的中文音素,建立一个名称为视觉拼音的中文唇语识别建模单元集;
步骤3,为了确定步骤2中的视觉拼音组成,首先将64×80像素的唇部视频帧序列输入到一个10层的卷积神经网络,提取得到512维的嘴唇特征向量;
步骤4,以步骤1提到的中文音素作为建模单元,将步骤3得到的嘴唇特征向量输入到带有注意机制的序列到序列模型,得到中文音素序列;
步骤5,重复步骤3和步骤4,为预测得到的中文音素序列和与之对应的目标中文音素序列建立混淆矩阵,对中文音素的混淆程度进行归类;
步骤6,通过对中文发音规律的总结,在步骤5所得归类结果的基础上进行补充和调整,得到最终的视觉拼音;
步骤7,将步骤1中的全部建模单元集和步骤6得到的视觉拼音分别应用到中文唇语识别系统中,比较模型的性能表现,得出视觉拼音更适合中文唇语的解析。


2.根据权利要求1所述的一种中文唇语识别建模单元集的构建方法,其特征在于:所述步骤1中的若干种常见的中文唇语识别建模单元集包括:词、音节、声韵母和中文音素。


3.根据权利要求2所述的一种中文唇语识别建模单元集的构建方法,其特征在于:所述中文音素有两种分类:辅音和元音,其中:辅音包含b,p,m,f,d,t,n,l,g,k,h,j,q,x,zh,ch,sh,r,z,c,s,ng;元音包含a,o,e,i,u,ü,ê,-i[前],-i[后],er。


4.根据权利要求1所述的一种新的中文唇语识别建模单元集的构建方法,其特征在于:所述步骤3中使用的卷积神经网络的卷积内核均为1×3×3,采用非线性激活Selu函数,所有的最大池化stride为1×2×2...

【专利技术属性】
技术研发人员:袁家斌何珊
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1