一种声像文件防篡改方法技术

技术编号：31012828 阅读：20 留言：0更新日期：2021-11-30 00:43

本发明专利技术涉及深度学习技术领域，具体是一种声像文件防篡改方法，为了防止声像文件篡改事件的发生问题，具体包括四大步骤。本发明专利技术基于深度学习技术，提出了一种声像文件防篡改方法，可以有效的解决声像文件中视频文件与音频文件存在强关联的情况，此外，核心帧提取技术，可以有效的提高视频特征提取效率，最后，基于区块链技术对声像文件特征进行固化，有效的预防声像文件篡改事件的发生。防声像文件篡改事件的发生。防声像文件篡改事件的发生。

全部详细技术资料下载

【技术实现步骤摘要】
一种声像文件防篡改方法

[0001]本专利技术涉及深度学习
，具体是一种声像文件防篡改方法。

技术介绍

[0002]随着文件数字化管理的趋势日益增强，声像文件的防篡改问题也越来越受人们的重视，而现有的声像文件放篡改的技术手段中，往往将声像文件独立拆分成视频文件与音频文件，分别使用对应的防篡改技术。
[0003]然而在面对视频与音频文件具有强烈相关性的时候往往束手无策。因此，本领域技术人员提供了一种声像文件防篡改方法，以解决上述
技术介绍
中提出的问题。

技术实现思路

[0004]本专利技术的目的在于提供一种声像文件防篡改方法，以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的，本专利技术提供如下技术方案：一种声像文件防篡改方法，包括如下步骤：
[0006]步骤1：获取声像文件数据集F
t
，根据声像文件是否包含音频数据将其划分为视频集V1，音频集A1，视频集V2；
[0007]步骤2：采用核心帧提取算法提取视频集的核心帧；
[0008]步骤3：基于特征提取网络提取视频特征以及文本特征，将文本特征与视频特征结合得到声像文件特征，基于解码网络对特征进行重构，构建重构损失函数；
[0009]步骤4：制定参考声像文件集，基于特征提取网络获取参考声像文件特征，对声像文件特征以及参考声像文件特征进行量化，构建量化损失函数，与重构损失函数相结合构建模型联合损失函数，最小化模型损失函数直至模型收敛，最终提取得到声像文件量化特征；
[0...

【技术保护点】

【技术特征摘要】
1.一种声像文件防篡改方法，其特征在于，包括如下步骤：步骤1：获取声像文件数据集F
t
，根据声像文件是否包含音频数据将其划分为视频集V1，音频集A1，视频集V2；步骤2：采用核心帧提取算法提取视频集的核心帧；步骤3：基于特征提取网络提取视频特征以及文本特征，将文本特征与视频特征结合得到声像文件特征，基于解码网络对特征进行重构，构建重构损失函数；步骤4：制定参考声像文件集，基于特征提取网络获取参考声像文件特征，对声像文件特征以及参考声像文件特征进行量化，构建量化损失函数，与重构损失函数相结合构建模型联合损失函数，最小化模型损失函数直至模型收敛，最终提取得到声像文件量化特征；步骤5：对提取的声像文件量化特征采用散列算法MD5生成密钥，基于区块链技术对密钥进行固化，有效的防止声像文件篡改事件的发生。2.根据权利要求1所述的一种声像文件防篡改方法，其特征在于，步骤2中基于视频集V1、V2，获取帧图像数据集F1＝[f
11
，f
12
，...，f
1t
]，其中f
1i
，i∈1...t，表示视频集V1的第i帧图像，表示视频集V2的第i帧图像为了去除帧图像之间的时序冗余的同时保留帧图像之间的相关性，提取帧图像数据集的核心帧，具体步骤如下：A1：计算帧图像的累计直方图，公式如下：其中，hi表示图像的第i个像素的累计直方图，1是图像像素值取值；N是图像像素的总数，nj表示像素值为j的像素个数；A2：基于累计直方图，通过相邻帧的差异性以及与场景初始帧的差异性对视频文件进行场景分割，公式如下：公式如下：d
j
＝τ1d
j
′
+τ2d
j
″
其中，d
j
′
表示第j帧图像与第j+1帧图像的差异性，d
j
″
表示第j帧图像与首帧图像的差异性，d
j
表示场景边界帧权重，τ1、τ2为权重系数；A3：基于场景边界帧权重d
′
，如果d
′
大于规定阈值σ，则定义该帧为一个场景的边界帧，基于分割场景帧差，动态抽取该场景的核心帧，公式如下：公式如下：其中，v
m
表示第m个场景的核心帧集合，表示第m个场景的第i帧，n表示场景核心帧帧数，R[
·
]表示向上取整函数，q表示第m个场景的总帧数，μ表示场景的帧数权重，最终得到视频集V1的核心帧集合V
1k
，视频集V2的核心帧集合3.根据权利要求1所述的一种声像文件防篡改方法，其特征在于，步骤3中包括如下具
体步骤：B1：基于卷积神经神经网络提取核心帧集合中图像内部的空间相似性，公式：其中a
l
为第l层网络的输出，其中ml为第l层网络卷积核的大小，b
l
为第l层网络模型的权重与偏置参数；B2：基于帧差时序网络提取核心帧集合中图像与图像之间的空间相似性，公式如下：h
′
t
‑1＝σ(W
d
h
t
‑1+b
d
)σ
t
＝f(Δt
i
)*h
′
t
‑
11111
y
t
＝σ(W
o
·
h
t
)其中h
t
‑1表示上一帧图像特征，h
′
t
‑1表示帧差控制门影响的部分图像特征信信息，k
t
表示帧差输入门，控制帧差间隔对帧图像特征的影响；f(
·
)是帧差函数；σ(
·
)、tanh(
·
)表示激活函数；表示上一帧图像特征的输出；x
t
表示当前帧图像特征，rt是重置门，表示上一帧图像特征信息有多少保留到了当前帧；记忆了当前帧图像的状态信息，zt表示更新门，决定了当前帧图像特征信息的保留情况，ht表示当前帧图像信息的隐藏输出，yt表示当前帧的图像特征输出，W
r
，W
z
，W
o
，W
d
，b
d
表示帧差时序网络参数；最终，视频核心帧集V
1k
和经过帧差网络，得到低维的特征表示B3：对于音频集A1，基于现有的语音识别技术，将其转换为语音文本，根据视频集V1的核心帧提取结果，对语音文本进行预处理，得到核心帧V
1k
对应的文本集T
1k
；B4：对于文本集T
1k
，提取文本的词向量，得到文本的向量表示，然后基于循环神经网络提取文本之间的相关性，最终得到文本集的特征表示，公式如下：f
t
′
＝σ(W
′
f
[h
′
t
‑1，x
′
t
]+b
′
f
)i
′...

【专利技术属性】
技术研发人员：李喆，邱杰峰，陈莹，程莉红，施千里，袁雯，
申请(专利权)人：福建福清核电有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人