一种基于经典读唇的视频人像读唇分析方法技术

技术编号:38346365 阅读:12 留言:0更新日期:2023-08-02 09:26
本发明专利技术公开了一种基于经典读唇的视频人像读唇分析方法,主要步骤如下:对检材视频及样本视频均进行分帧,截取样本视频中说出特定语句的各帧,以及检材视频中说出需检验语句的各帧;对各帧中的人脸进行关键特征点提取,获取68个特征点;记录各帧中第62与第66号特征点之间的距离,构成两个特征向量;对两个特征向量分别进行最值归一化;若两特征向量长度相同,计算两者之间的余弦相似度,根据余弦相似度是否高于标准阈值判定检材视频中的语句是否与样本视频一致;若两特征向量长度不同,计算动态时间规整后两者的最小累积距离,根据最小累积距离是否小于标准阈值判定检材视频中的语句是否与样本视频一致。的语句是否与样本视频一致。的语句是否与样本视频一致。

【技术实现步骤摘要】
一种基于经典读唇的视频人像读唇分析方法


[0001]本专利技术涉及计算机视觉和侦查
,具体涉及一种基于经典读唇的视频人像读唇分析方法。

技术介绍

[0002]视频中语音缺失的情况十分常见,而缺少了语音这一关键信息的视频无法直接用于执法监督、法律诉讼、新闻报道等场景当中。更有甚者,缺少语音的视频可能会被歪曲本意,恶意传播,从而引发严重的舆情风险,造成不良的社会影响。因此,增强读唇分析方法的准确性,能够有效拓展证据获取渠道,维护社会和谐稳定,具有重要的研究意义与迫切的实际需求。
[0003]目前读唇分析的方法主要包括两类,其一是利用嘴部图像提取传统的视觉特征,利用特征比对或机器学习进行分析;其二是利用深度学习技术,利用深度网络对嘴部图像进行端到端的学习分析。前者特征提取的能力有限,往往对视频拍摄的质量有较高的要求,在实际应用中受到限制。后者虽然可以通过利用大规模样本进行训练来提高特征提取能力,从而应对各种条件下的读唇分析,但在实际应用中往往难以获得符合需求的大规模样本数据,而缺乏训练数据也大大限制了深度网络模型的读唇分析能力。
[0004]由于现有的读唇分析方法具有上述局限性,难以在实际中有效使用,尤其对于执法流程监督、法律诉讼证据等特定应用场景,已有方法的使用成功率仍十分有限。这表明读唇分析技术在实际应用当中仍然充满了挑战。

技术实现思路

[0005]为了解决现有读唇分析技术中的缺陷,本专利技术提供了一种基于经典读唇的视频人像读唇分析方法。该方法针对特定的应用需求,通过将检材视频与已知所说语句的样本视频进行特征提取与匹配,能有效判断出检材视频中人物所说语句是否与样本视频一致,从而为流程审查、案件诉讼等应用提供有力的证据支持。
[0006]本专利技术的目的可以通过采取如下技术方案达到:
[0007]一种基于经典读唇的视频人像读唇分析方法,其特征在于,包括以下步骤:
[0008]S1、对检材视频及样本视频均进行分帧,截取样本视频中说出特定语句的各帧,以及检材视频中说出需检验语句的各帧,将样本视频中截取的各帧分别记为其中N为样本视频截取的总帧数,将检材视频中截取的各帧分别记为其中M为检材视频截取的总帧数;
[0009]S2、利用人脸关键点检测方法,对每帧当中人脸的68个关键特征点进行检测定位;
[0010]S3、记录各帧中第62与第66号特征点之间的距离,构成两个特征向量,其中样本对应的特征向量为A=(a1,a2,

,a
N
),检材对应的特征向量为B=(b1,b2,

,b
M
);
[0011]S4、对特征向量A与B分别进行最值归一化,对于特征向量A,归一化后第i个元素
为:
[0012][0013]其中a
i
表示特征向量A原本的第i个元素,a
min
表示特征向量A原本元素中的最小值,a
max
表示特征向量A原本元素中的最大值,得到样本视频归一化后的特征向量A
*
,并以同样的方法得到检材视频归一化后的特征向量B
*

[0014]S5、若样本与检材特征向量的维度相同,即N=M,则计算两个归一化特征向量之间的余弦相似度S:
[0015][0016]若S高于标准阈值,则判定检材视频中的语句与样本视频一致,否则判定两者不一致;
[0017]S6、若样本与检材特征向量的维度不同,即N≠M,则计算动态时间规整后的两者最小累积距离∑D,若∑D小于标准阈值,则判定检材视频中的语句与样本视频一致,否则判定两者不一致。
[0018]作为优选的技术方案,所述S2步骤中,使用卷积专家约束局部模型(Convolutional Experts Constrained Local Model,CE

CLM)进行人脸68个关键特征点的检测定位。
[0019]作为优选的技术方案,所述S5步骤中,余弦相似度的标准阈值为0.9469。
[0020]作为优选的技术方案,所述S6步骤中,动态时间规整后最小累积距离的标准阈值为1.9085。
[0021]本专利技术相对于现有技术具有如下的优点及效果:
[0022]1、本专利技术提供了一种基于经典读唇的视频人像读唇分析方法,通过对检材和样本视频进行成对分析,解决实际应用当中视频质量不高,训练样本不足的问题。
[0023]2、本专利技术对于检材与样本视频长度相同和不同的情况均可有效处理,适用范围广泛。
[0024]3、本专利技术计算简便,运算复杂度较低,所需资源较小,有效提高了该方法的应用效率。
附图说明
[0025]图1是本专利技术公开的基于经典读唇的视频人像读唇分析方法的整体流程框图;
[0026]图2是本专利技术实施例中提取的人脸68个关键特征点示意图。
具体实施方式
[0027]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是
本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]本实施例公开了一种基于经典读唇的视频人像读唇分析方法,下面以自行拍摄的检材视频(即待检测视频)A、B、C、D及对应的样本视频E、F、G、H为例,详细介绍本专利技术的实施过程。其中A和E具有相同帧数,相同话语;B和F具有相同帧数,不同话语;C和G具有不同帧数,相同话语;D和H具有不同帧数,不同话语。
[0029]整体的实施流程如图1所示,具体的实施步骤如下:
[0030]对8段视频均进行分帧,将视频A的各帧依次记为将视频B的各帧依次记为以此类推。
[0031]利用人脸关键点检测方法,对每帧当中人脸的68个关键特征点进行检测定位。
[0032]记录各帧中第62与第66号特征点之间的距离,构成各段视频对应的特征向量,其中视频A对应的特征向量为A=(a1,a2,

,a
N
),视频B对应的特征向量为B=(b1,b2,

,b
M
),以此类推。
[0033]对各特征向量进行最值归一化。以特征向量A为例,归一化后第i个元素为:
[0034][0035]其中a
i
表示特征向量A原本的第i个元素,a
min
表示特征向量A原本元素中的最小值,a
max
表示特征向量A原本元素中的最大值,得到样本视频归一化后的特征向量A
*
,并以同样的方法得到其他视频的归一化特征向量B
*
、C
*
、D
*
、E
*
、F
*
、G
*...

【技术保护点】

【技术特征摘要】
1.一种基于经典读唇的视频人像读唇分析方法,其特征在于,包括以下步骤:S1、对检材视频及样本视频均进行分帧,截取样本视频中说出特定语句的各帧,以及检材视频中说出需检验语句的各帧,将样本视频中截取的各帧分别记为其中N为样本视频截取的总帧数,将检材视频中截取的各帧分别记为其中M为检材视频截取的总帧数;S2、利用人脸关键点检测方法,对每帧当中人脸的68个关键特征点进行检测定位;S3、记录各帧中第62与第66号特征点之间的距离,构成两个特征向量,其中样本对应的特征向量为A=(a1,a2,

,a
N
),检材对应的特征向量为B=(b1,b2,

,b
M
);S4、对特征向量A与B分别进行最值归一化,对于特征向量A,归一化后第i个元素为:其中a
i
表示特征向量A原本的第i个元素,a
min
表示特征向量A原本元素中的最小值,a
max
表示特征向量A原本元素中的最大值,得到样本视频归一化后的特征向量A
*

【专利技术属性】
技术研发人员:廖广军王宇飞王爽
申请(专利权)人:广东警官学院广东省公安司法管理干部学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1