当前位置: 首页 > 专利查询>湘潭大学专利>正文

一种基于Convformer的粤语句子级唇语识别方法技术

技术编号:38135558 阅读:14 留言:0更新日期:2023-07-08 09:46
本发明专利技术公开了一种基于Convformer的粤语句子级唇语识别方法,包括以下步骤:(1)构建粤语句子级唇语识别数据集;(2)设计算法模型;(3)对数据进行预处理,将处理过的视频信息和文本信息打包整合之后保存至可用于训练的npz文件中,生成训练文件;(4)使用设计的算法对预处理过的数据进行训练,得到训练模型;(5)用训练模型构建演示系统进行演示。本发明专利技术通过上述一种基于Convformer的粤语句子级唇语识别方法,能够捕获唇部序列的全局时间信息和局部时间信息,提升了粤语句子级唇语识别的精度。提升了粤语句子级唇语识别的精度。提升了粤语句子级唇语识别的精度。

【技术实现步骤摘要】
一种基于Convformer的粤语句子级唇语识别方法


[0001]本申请涉及唇语识别
,具体涉及一种基于Convformer的粤语句子级唇语识别方法。

技术介绍

[0002]唇语识别是一种仅通过视觉信息来识别说话内容的技术。它不依赖于音频信息,而是通过视觉信息(如嘴唇、舌头、牙齿、下巴)来对说话内容进行理解。由于其在人机交互、语音增强、活体检测、自动字幕等方面具有广泛的应用价值,而一跃成为近年来的研究热门。随着深度学习的发展,唇语识别研究进展取得了重大突破,基于深度学习的唇语识别方法层出不穷。
[0003]粤语,又称作广东话,是一种汉藏语系汉语族的声调语言,是中国汉语七大方言之一。粤语含完整的九声六调,较完美地保留古汉语特征,拥有完善的文字系统,可以完全使用汉字表达(其他汉语方言很难做到),也是唯一除普通话外在外国大学有独立研究的中国汉语。并且,全球将近有1.2亿人口使用粤语。无论是粤语语言的独特性,还是使用粤语人群的规模性,都表明了粤语唇语识别具有重要的研究意义以及广阔的市场背景。
[0004]由于粤语具有九声六调的特点,因此,粤语唇语识别任务与中文唇读任务存在着较大的差异。此外,一句话的唇部序列长度远比一个词的唇部序列长度要长,故句子级唇语识别任务和单词级唇语识别任务相比,其不仅要对每一帧的唇部特征进行有效的提取,而且要对帧与帧之间的时间序列进行有效的建模。
[0005]现有的唇语识别任务中对粤语句子级唇语识别的研究极少,并且没有公司或者大型研究机构推出大规模粤语句子级唇读的数据集。并且,现有的粤语句子级唇读模型无法很好的提取唇部的动态视觉特征且无法同时对唇部特征序列的全局时间信息以及局部时间信息进行捕获。

技术实现思路

[0006]本专利技术的目的是提供一种基于Convformer的粤语句子级唇语识别方法,填充了粤语句子级唇语识别领域的空白,能够捕获唇部序列的全局时间信息和局部时间信息,有效的提升了粤语句子级唇语识别的精度。
[0007]为实现上述目的,本专利技术提供了一种基于Convformer的粤语句子级唇语识别方法,包括以下步骤:
[0008]S1、构建粤语句子级唇语识别数据集
[0009]通过Xtreme工具从互联网上收集包含珠江台、本港台在内的多个粤语节目。通过图像的全局直方图来判断单个说话人与视频中其他场景的切换,得到一个粗略的单个说话人视频剪辑,同时,使用视频剪辑软件对视频剪辑中的短句进行裁剪,最后放入自动化数据采集系统中进行自动的数据采集。这样可以有效的过滤掉无效帧(没有说话人、多个说话人、有人声却没有说话人),还可以使数据集更加接近真实的场景分布。
[0010]S2、设计算法模型
[0011]一、前端模块:使用视觉前端模块提取视频信息的时空特征。视觉前端模块由Conv3d以及ResNet

50组成,旨在提取唇部细粒度动态特征。
[0012]二、后端模块:通过12个Convformer

Encoder块来对唇部序列的局部时间信息和全局时间信息进行建模。
[0013]每个Convformer

Encoder块由四个模块构成:前馈模块、自注意力模块、卷积模块以及第二个前馈模块构成。其中,前馈模块有助于网络模型的正则化。自注意力模块用来对唇部序列的全局交互性进行建模,捕获唇部序列的全局时间信息。卷积模块则能对唇部序列的局部相关性进行学习,捕获唇部序列的局部时间信息。
[0014]三、使用Transformer

Decoder模块对后端模块输出的视觉特征进行解码。
[0015]四、设计损失函数。
[0016]五、设计训练策略。构建粤语句子级唇语识别模型。
[0017]S3、对数据进行预处理,将处理过的视频信息和文本信息打包整合之后保存至可用于训练的npz文件中。
[0018]S4、使用设计的算法对预处理过的数据进行训练,得到训练模型。
[0019]S5、利用训练模型构建演示系统进行演示。
[0020]因此,本专利技术采用上述一种基于Convformer的粤语句子级唇语识别方法,通过收集粤语句子级唇语识别数据集弥补了粤语句子级唇语识别领域没有大规模数据集的空白。本专利技术的识别方法能够捕获唇部序列的全局时间信息和局部时间信息,有效的提升了粤语句子级唇语识别的精度。
[0021]下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
附图说明
[0022]图1是本专利技术一种基于Convformer的粤语句子级唇语识别方法的流程图。
[0023]图2是本专利技术中粤语句子级唇语识别数据集采集的流程图。
[0024]图3是本专利技术一种基于Convformer的粤语句子级唇语识别方法实施例的流程图。
[0025]图4是本专利技术中Convformer块的模块示意图。
具体实施方式
[0026]以下通过附图和实施例对本专利技术的技术方案作进一步说明。
[0027]除非另外定义,本专利技术使用的技术术语或者科学术语应当为本专利技术所属领域内具有一般技能的人士所理解的通常意义。
[0028]如图1,本专利技术一种基于Convformer的粤语句子级唇语识别方法,该方法具体如下:(1)构建粤语句子级唇语识别数据集,(2)设计算法模型,(3)对数据进行预处理,将处理过的视频信息和文本信息打包整合之后保存至可用于训练的npz文件中,生成训练文件,(4)使用设计的算法对预处理过的数据进行训练,得到训练模型,(5)用训练模型构建演示系统进行演示。
[0029]在构建数据集中,如图2所示,采集并构造粤语句子级唇语识别数据集CLRS的方法如下:
[0030]S1、利用Xtreme工具从互联网上获取粤语节目,如粤语新闻联播、粤语的综艺节目、粤语的人物访谈以及脱口秀节目等;
[0031]S2、通过图像的全局直方图来判断单个说话人与视频中其他场景的切换,得到一个粗略的单个说话人视频剪辑以此来过滤无效帧(没有说话人、多个说话人、有人声却没有说话人);
[0032]S3、将采集到的音视频进行同步对齐。
[0033]首先,手动过滤掉音频和视频明显不同步的视频样本。但是对于问题不那么明显的视频样本,直接通过SyncNet模型进行处理。即,计算每个视频样本的偏移量,并平均这些视频样本之间的距离作为同步的基础。如果偏移量大于
±
7帧,则丢弃这些视频样本;
[0034]S4、使用科大讯飞商用级粤语语音转录服务,获取有效视频样本的文本内容、分词结果和时间戳;
[0035]S5、按照视频序列名、文本内容、分词时间戳、分词拼音、分词的顺序生成标注文本,在自动生成注释文本之后,必须手动验证注释文本。在验证过程中,标注必须严格按照语音内容进行。如果环境声音太大从而影响文本的验证,样本将被直接丢弃;
[0036]S6、使用mediapipe本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Convformer的粤语句子级唇语识别方法,其特征在于:包括以下步骤:S1、构建粤语句子级唇语识别数据集;S2、设计算法模型;S3、对数据进行预处理,将处理过的视频信息和文本信息打包整合之后保存至可用于训练的npz文件中,生成训练文件;S4、使用设计的算法对预处理过的数据进行训练,得到训练模型;S5、用训练模型构建演示系统进行演示。2.根据权利要求1所述的一种基于Convformer的粤语句子级唇语识别方法,其特征在于:在步骤S1中,粤语句子级唇语识别数据集构建方法如下:S11、利用Xtreme工具从互联网上获取粤语节目的内容;S12、将步骤S11中获得的粤语节目内容通过图像的全局直方图来判断单个说话人与视频中其他场景的切换,得到一个粗略的单个说话人视频剪辑以此来过滤无效帧;S13、将步骤S12采集到的音视频进行同步对齐;S14、使用粤语语音转录服务获取有效视频样本的文本内容、分词结果和时间戳,按照视频序列名、文本内容、分词时间戳、分词拼音、分词的顺序生成标注文本,在自动生成注释文本之后,手动验证注释文本;S15、使用mediapipe工具得到人脸图像序列和相应的人脸标志。3.根据权利要求2所述的一种基于Convformer的粤语句子级唇语识别方法,其特征在于:在步骤S12中,过滤无效帧过程中,首先,手动过滤掉音频和视频明显不同步的视频样本;对于剩余视频样本,直接通过SyncNet模型进行处理。4.根据权利要求3所述的一种基于Convformer的粤语句子级唇语识别方法,其特征在于:SyncNet模型的处理时,首先计算每个视频样本的偏移量,并平均视频样本之间的距离作为同步的基础,若偏移量大于
±
7帧,则丢弃。5.根据权利要求1所述的一种基于Convformer的粤语句子级唇语识别方法,其特征在于:在步骤S2中,设计算法模型包括前端模块、后端模块以及Transformer

Decoder模块组成,前端模块使用视觉前端模块提取视频信息的时空特征,视觉前端模块由Conv3d以及ResNet

50组成,旨在提取唇部细粒度动态特征;后端模块由12个Convformer

Encoder块组成,来对唇部序列的局部时间信息和全局时间信息进行建模;Transformer

Decoder模块则是对后端模块输出的视觉特征进行解码。6.根据权利要求5所述的一种基于Convformer的粤语句子级唇语识别方法,其特征在于:步骤S2中,具体的操作如下:S21、使用视觉前端模块提取视频信息的时空特征;S22、通过12个Convformer

Encoder块来对唇部序列的局部时间信息和全局时间信息进行建模;S23、使用Transformer

Decoder...

【专利技术属性】
技术研发人员:肖业伟刘烜铭滕连伟朱澳苏田丕承黄健
申请(专利权)人:湘潭大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1