【技术实现步骤摘要】
一种基于Convformer的粤语句子级唇语识别方法
[0001]本申请涉及唇语识别
,具体涉及一种基于Convformer的粤语句子级唇语识别方法。
技术介绍
[0002]唇语识别是一种仅通过视觉信息来识别说话内容的技术。它不依赖于音频信息,而是通过视觉信息(如嘴唇、舌头、牙齿、下巴)来对说话内容进行理解。由于其在人机交互、语音增强、活体检测、自动字幕等方面具有广泛的应用价值,而一跃成为近年来的研究热门。随着深度学习的发展,唇语识别研究进展取得了重大突破,基于深度学习的唇语识别方法层出不穷。
[0003]粤语,又称作广东话,是一种汉藏语系汉语族的声调语言,是中国汉语七大方言之一。粤语含完整的九声六调,较完美地保留古汉语特征,拥有完善的文字系统,可以完全使用汉字表达(其他汉语方言很难做到),也是唯一除普通话外在外国大学有独立研究的中国汉语。并且,全球将近有1.2亿人口使用粤语。无论是粤语语言的独特性,还是使用粤语人群的规模性,都表明了粤语唇语识别具有重要的研究意义以及广阔的市场背景。
[0004]由于粤语具有九声六调的特点,因此,粤语唇语识别任务与中文唇读任务存在着较大的差异。此外,一句话的唇部序列长度远比一个词的唇部序列长度要长,故句子级唇语识别任务和单词级唇语识别任务相比,其不仅要对每一帧的唇部特征进行有效的提取,而且要对帧与帧之间的时间序列进行有效的建模。
[0005]现有的唇语识别任务中对粤语句子级唇语识别的研究极少,并且没有公司或者大型研究机构推出大规模粤语句子级唇读的数据集。 ...
【技术保护点】
【技术特征摘要】
1.一种基于Convformer的粤语句子级唇语识别方法,其特征在于:包括以下步骤:S1、构建粤语句子级唇语识别数据集;S2、设计算法模型;S3、对数据进行预处理,将处理过的视频信息和文本信息打包整合之后保存至可用于训练的npz文件中,生成训练文件;S4、使用设计的算法对预处理过的数据进行训练,得到训练模型;S5、用训练模型构建演示系统进行演示。2.根据权利要求1所述的一种基于Convformer的粤语句子级唇语识别方法,其特征在于:在步骤S1中,粤语句子级唇语识别数据集构建方法如下:S11、利用Xtreme工具从互联网上获取粤语节目的内容;S12、将步骤S11中获得的粤语节目内容通过图像的全局直方图来判断单个说话人与视频中其他场景的切换,得到一个粗略的单个说话人视频剪辑以此来过滤无效帧;S13、将步骤S12采集到的音视频进行同步对齐;S14、使用粤语语音转录服务获取有效视频样本的文本内容、分词结果和时间戳,按照视频序列名、文本内容、分词时间戳、分词拼音、分词的顺序生成标注文本,在自动生成注释文本之后,手动验证注释文本;S15、使用mediapipe工具得到人脸图像序列和相应的人脸标志。3.根据权利要求2所述的一种基于Convformer的粤语句子级唇语识别方法,其特征在于:在步骤S12中,过滤无效帧过程中,首先,手动过滤掉音频和视频明显不同步的视频样本;对于剩余视频样本,直接通过SyncNet模型进行处理。4.根据权利要求3所述的一种基于Convformer的粤语句子级唇语识别方法,其特征在于:SyncNet模型的处理时,首先计算每个视频样本的偏移量,并平均视频样本之间的距离作为同步的基础,若偏移量大于
±
7帧,则丢弃。5.根据权利要求1所述的一种基于Convformer的粤语句子级唇语识别方法,其特征在于:在步骤S2中,设计算法模型包括前端模块、后端模块以及Transformer
‑
Decoder模块组成,前端模块使用视觉前端模块提取视频信息的时空特征,视觉前端模块由Conv3d以及ResNet
‑
50组成,旨在提取唇部细粒度动态特征;后端模块由12个Convformer
‑
Encoder块组成,来对唇部序列的局部时间信息和全局时间信息进行建模;Transformer
‑
Decoder模块则是对后端模块输出的视觉特征进行解码。6.根据权利要求5所述的一种基于Convformer的粤语句子级唇语识别方法,其特征在于:步骤S2中,具体的操作如下:S21、使用视觉前端模块提取视频信息的时空特征;S22、通过12个Convformer
‑
Encoder块来对唇部序列的局部时间信息和全局时间信息进行建模;S23、使用Transformer
‑
Decoder...
【专利技术属性】
技术研发人员:肖业伟,刘烜铭,滕连伟,朱澳苏,田丕承,黄健,
申请(专利权)人:湘潭大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。