一种中文唇语识别建模单元集的构建方法技术

技术编号：28375676 阅读：28 留言：0更新日期：2021-05-08 00:03

本发明专利技术公开一种中文唇语识别建模单元集的构建方法，包括以下步骤，首先，对中文发音的声学特点和发音原理进行研究；然后，总结了几种常见的中文唇语识别建模单元集，包括词、音节、声韵母和中文音素，并给出它们各自的优缺点和适用性；最终，基于现存建模单元集的不足并通过对于中文发音视觉特点进行分析，提出了一个新的建模单元集——“视觉拼音”。本发明专利技术实施于中文唇语识别，相比于其他的建模单元集，采用本发明专利技术的技术方案将通过降低识别维度，有效减少中文发音的视觉歧义性，进而提高中文唇语识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种中文唇语识别建模单元集的构建方法
本专利技术属于唇语识别
，具体涉及一种中文唇语识别建模单元集的构建方法。
技术介绍
随着人工智能的发展，深度学习技术逐渐崛起并开始渗透到人们生活的方方面面，其在大数据处理、音视频处理和自然语言处理等领域均取得了瞩目的进展并与人类的生产生活紧密结合。而且随着技术发展和现实需要，深度学习早已不再局限于解决单一领域问题，而是开始追求多领域、多技术的融合研究。因此，利用深度学习进行多领域、多技术的融合研究是大势所趋，且非常具有现实意义。而唇语识别便是这样一种融合了图像识别、语音识别和自然语言识别等多领域技术的研究课题，由于这些领域的技术在飞速发展，为唇语识别的研究提供了有力的技术支持，同时，唇语识别的研究也在推动着这些领域交叉融合。唇语识别技术及其应用是目前国际上研究的热门课题之一，由于其非常具有实用性，能为很多场景带来便利并发挥辅助性作用，因此这种自动化应用将拥有巨大的市场经济价值，具有广阔的应用前景：复杂环境下的语音识别、反作弊与活体检测、口型矫正、辅助听障人士正常交流和识别无声视频中的内容等。唇语识别同语音识别一样，在建模之前要选取合适的建模单元集，建模单元集的合理与否与模型的识别率直接相关。一般来说，建模单元集的选取和构建通常需要考虑到以下几项原则：代表性、可训练性和推广性。即构建的建模单元集要能够准确且有代表性地描述出任何语句序列，且有足够多的数据能够对建模单元进行可靠预测，同时还要兼具可沿用性，易于表达新词。中文唇语识别研究起步相对较晚，虽然中文...

【技术保护点】
1.一种中文唇语识别建模单元集的构建方法，其特征在于，包括以下步骤：/n步骤1，总结出若干种常见的中文唇语识别建模单元集，分析得到的若干种建模单元集各自的优缺点和适用性，得到其中表现最好的建模单元集，即中文音素；/n步骤2，结合中文发音的视觉特点和步骤1提到的中文音素，建立一个名称为视觉拼音的中文唇语识别建模单元集；/n步骤3，为了确定步骤2中的视觉拼音组成，首先将64×80像素的唇部视频帧序列输入到一个10层的卷积神经网络，提取得到512维的嘴唇特征向量；/n步骤4，以步骤1提到的中文音素作为建模单元，将步骤3得到的嘴唇特征向量输入到带有注意机制的序列到序列模型，得到中文音素序列；/n步骤5，重复步骤3和步骤4，为预测得到的中文音素序列和与之对应的目标中文音素序列建立混淆矩阵，对中文音素的混淆程度进行归类；/n步骤6，通过对中文发音规律的总结，在步骤5所得归类结果的基础上进行补充和调整，得到最终的视觉拼音；/n步骤7，将步骤1中的全部建模单元集和步骤6得到的视觉拼音分别应用到中文唇语识别系统中，比较模型的性能表现，得出视觉拼音更适合中文唇语的解析。/n

【技术特征摘要】
1.一种中文唇语识别建模单元集的构建方法，其特征在于，包括以下步骤：
步骤1，总结出若干种常见的中文唇语识别建模单元集，分析得到的若干种建模单元集各自的优缺点和适用性，得到其中表现最好的建模单元集，即中文音素；
步骤2，结合中文发音的视觉特点和步骤1提到的中文音素，建立一个名称为视觉拼音的中文唇语识别建模单元集；
步骤3，为了确定步骤2中的视觉拼音组成，首先将64×80像素的唇部视频帧序列输入到一个10层的卷积神经网络，提取得到512维的嘴唇特征向量；
步骤4，以步骤1提到的中文音素作为建模单元，将步骤3得到的嘴唇特征向量输入到带有注意机制的序列到序列模型，得到中文音素序列；
步骤5，重复步骤3和步骤4，为预测得到的中文音素序列和与之对应的目标中文音素序列建立混淆矩阵，对中文音素的混淆程度进行归类；
步骤6，通过对中文发音规律的总结，在步骤5所得归类结果的基础上进行补充和调整，得到最终的视觉拼音；
步骤7，将步骤1中的全部建模单元集和步骤6得到的视觉拼音分别应用到中文唇语识别系统中，比较模型的性能表现，得出视觉拼音更适合中文唇语的解析。

2.根据权利要求1所述的一种中文唇语识别建模单元集的构建方法，其特征在于：所述步骤1中的若干种常见的中文唇语识别建模单元集包括：词、音节、声韵母和中文音素。

3.根据权利要求2所述的一种中文唇语识别建模单元集的构建方法，其特征在于：所述中文音素有两种分类：辅音和元音，其中：辅音包含b,p,m,f,d,t,n,l,g,k,h,j,q,x,zh,ch,sh,r,z,c,s,ng；元音包含a,o,e,i,u,ü,ê,-i[前],-i[后],er。

4.根据权利要求1所述的一种新的中文唇语识别建模单元集的构建方法，其特征在于：所述步骤3中使用的卷积神经网络的卷积内核均为1×3×3，采用非线性激活Selu函数，所有的最大池化stride为1×2×2...

【专利技术属性】
技术研发人员：袁家斌，何珊，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人