一种伪造识别场景下的存储、调度检测方法和系统技术方案

技术编号:39306252 阅读:7 留言:0更新日期:2023-11-12 15:54
本发明专利技术公开了一种伪造识别场景下的存储、调度检测方法和系统,涉及文件数据分析技术领域,S1,对指定文件进行文件数据的采集处理,生成文件清单,所述文件数据包括文件元数据与多媒体数据;S2,构建文件下载验证模型,对文件清单进行下载验证,根据文件清单中文件数据的采集数据正确度和采集程度进行采集结果判定并生成采集分析标识;S3,构建步骤匹配模型,通过采集分析标识进行发送步骤选取,所述发送步骤包括数据封装步骤与数据报错步骤;S4,对数据封装发送步骤进行发送处理的文件数据进行数据存储;S5,对存储的文件数据进行数据转发并进行引擎集群鉴定,生成数据鉴定标识;S6,根据数据鉴定标识和采集分析标识进行鉴定目标的生成。生成。生成。

【技术实现步骤摘要】
一种伪造识别场景下的存储、调度检测方法和系统


[0001]本专利技术涉及文件数据分析领域,具体涉及一种伪造识别场景下的存储、调度检测方法和系统。

技术介绍

[0002]随着生成式AI的网络普及,互联网中出现大量伪造音视频图像数据,此类伪造音视频图像数据来源于各网站及APP系统,其后台托管于IDC机房,在用户访问时,相关数据会作为IDC出口流量统一输出到客户端。
[0003]经检索,参照公开号CN114884726B的对比文件中提出了一种用于监控IDC数据安全的管理系统,该对比文件通过虚拟构建模块对IDC进行虚拟化,保证用户对IDC的数据获取和处理,便于用户对IDC的管理,提供一种可以备案的对数据中心的控制措施,通过设置数据采集模块,通过部署流量探针,提供一种不影响数据中心出口带宽应用的一种数据采集方式,保证在对IDC进行数据采集时,不影响IDC的正常运行,通过数据管理模块,保证了对IDC数据安全的有效管理;此外根据节点的节点等级和节点特征,对产生流量大的区域设置关键点,避免了流量探针设置的冗余,从而保证了数据采集的效率;并通过根据节点的节点等级和节点特征,对产生流量大的区域设置关键点,避免了流量探针设置的冗余,从而保证了数据采集的效率。
[0004]在结合对比文件的技术处理手段对现有网络音视频图像数据进行分析,发现仍存在以下不足:
[0005]1.IDC出口流量的伪造检测需要对采集到的全量出口数据进行检测,此类数据量级大、编码格式多样、传播迅速,需要进行及时处理方能得出最为精准的检测结果。r/>[0006]2.在IDC出口流量的伪造检测检测过程中,存储转发作为核心中枢控制整个数据处理流程,存在处理耗时大、高并发访问等问题,从而导致检测过程中无法有效实时监控现网流量。

技术实现思路

[0007]本专利技术的目的是提供一种伪造识别场景下的存储、调度检测方法和系统,以解决
技术介绍
中不足。
[0008]为了实现上述目的,本专利技术提供如下技术方案:所述伪造识别场景下的存储、调度检测方法包括以下步骤:
[0009]S1,对指定文件进行文件数据的采集处理,生成文件清单,所述文件数据包括文件元数据与多媒体数据;
[0010]S2,构建文件下载验证模型,对文件清单进行下载验证,根据文件清单中文件数据的采集数据正确度和采集程度进行采集结果判定并生成采集分析标识;
[0011]S3,构建步骤匹配模型,通过采集分析标识进行发送步骤选取,所述发送步骤包括数据封装步骤与数据报错步骤;
[0012]S4,对数据封装发送步骤进行发送处理的文件数据进行数据存储;
[0013]S5,对存储的文件数据进行数据转发并进行引擎集群鉴定,生成数据鉴定标识;
[0014]S6,根据数据鉴定标识和采集分析标识进行鉴定目标的生成,所述鉴定目标包括真实鉴定目标和虚假鉴定目标;
[0015]S7,根据所述鉴定目标进行数据过滤或元数据上传。
[0016]在一个优选的实施方式中,所述文件数据中的文件元数据具体是用来描述文件的数据,存储于对应的元数据文件中,用于提供关于文件内容、属性、结构和格式的信息,而非实际的多媒体内容,文件元数据提供了关于文件的重要信息,这些信息可以用于文件管理、索引、搜索、鉴定和识别;
[0017]所述文件数据中的多媒体数据具体为实际的音频、视频和图像等数据内容,主要为能够感知的媒体内容,存储于对应的多媒体文件中,多媒体数据的组成取决于不同的文件类型,音频数据包含音频采样信息,视频数据包含一系列连续的图像帧,每帧由像素点的颜色和位置信息组成,图像数据由像素点的颜色和位置信息组成,用户可以通过解析这些多媒体数据数据来播放音频、视频或显示图像,也可通过所述多媒体数据进行多媒体的鉴伪。
[0018]在一个优选的实施方式中,所述文件清单的生成步骤为:
[0019]选取Python编程语言和平台来实现数据监听功能;确定需要监听的文件目录,所述文件目录可以是本地计算机上的某个文件夹,也可以是网络中的共享文件夹;使用编程语言提供的文件监听接口来监控指定的文件目录,不同编程语言和平台提供的接口可能有所不同,但通常都支持监控文件夹的创建、删除、修改等事件;解析元数据文件:当监听到新的元数据文件时,检查文件名是否不含有TMP结尾,如果不含TMP结尾,则说明这是一个需要解析的元数据文件;对于需要解析的文件数据,进行解析操作,提取出文件清单信息,文件元数据包含了需要采集的多媒体数据所处文件的相关信息,比如文件名、文件路径等;
[0020]根据提取的文件清单信息,通过文件路径等信息,开始采集多媒体数据,具体为音频、视频、图像等数据;将采集到的多媒体数据进行存储,并将多媒体文件保存到本地磁盘上,或者上传到网络存储服务中;将上述步骤放入一个循环中,以便持续监听文件目录并采集文件数;
[0021]制定文件清理周期,清洗频率可以根据数据增长速度和存储需求来调整;将存储文件按照一定的分类标准进行整理和归档,根据文件类型、创建时间、最后访问时间、大小等属性进行分类,将文件分为活跃数据和归档数据;删除过期数据,定期检查存储文件,将过期或不再需要的数据进行删除,所述过期数据包含一些临时文件、日志文件或过时的备份文件;备份重要数据,在进行清洗之前,确保重要数据已经备份到其他存储介质或云端,以防误删除或意外数据丢失;压缩归档数据,对较大的归档数据进行压缩存储,以节省存储空间;进行文件去重,检测并删除重复的文件,防止冗余数据的存在;进行文件的审计,记录清洗过程中删除或更改的文件,用于日后追踪和审查;设置文件恢复机制,在进行文件清洗之前,确保有合适的文件恢复机制。
[0022]在一个优选的实施方式中,所述采集分析标识具体包括完全采集标识和非完全采集标识,所述采集分析标识的生成步骤:
[0023]所述文件数据的采集数据正确度表示文件数据是否正确下载的判定依据,所述文
件数据的采集程度为文件数据是否完全采集的判定依据;
[0024]通过文件下载验证模型对文件数据的采集数据正确度分析生成采集数据正确度标记,对文件数据的采集程度分析生成采集程度标记,并将同一文件数据中的采集数据正确度标记和采集程度标记进行组合分析,对该文件数据生成采集分析标识;
[0025]所述采集数据正确度标记包括采集数据正确标记与采集数据错误标记;
[0026]若对文件清单进行下载验证的过程中,输出下载正确结果,对该文件数据生成采集数据正确标记;
[0027]若对文件清单进行下载验证的过程中,输出下载错误结果,对该文件数据生成采集数据错误标记;
[0028]所述采集程度标记包括采集完全标记和采集非完全标记;
[0029]若对文件清单进行下载验证的过程中,数据采集进度未达到百分百,对该文件数据生成采集非完全标记;
[0030]若对文件清单进行下载验证的过程中,数据采集进度达到百分百,对该文件数据生成采集完全标记;
[0031]对同一文件数据进本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种伪造识别场景下的存储、调度检测方法,其特征在于:所述方法包括以下步骤:S1,对指定文件进行文件数据的采集处理,生成文件清单,所述文件数据包括文件元数据与多媒体数据;S2,构建文件下载验证模型,对文件清单进行下载验证,根据文件清单中文件数据的采集数据正确度和采集程度进行采集结果判定并生成采集分析标识;S3,构建步骤匹配模型,通过采集分析标识进行发送步骤选取,所述发送步骤包括数据封装步骤与数据报错步骤;S4,对数据封装发送步骤进行发送处理的文件数据进行数据存储;S5,对存储的文件数据进行数据转发并进行引擎集群鉴定,生成数据鉴定标识;S6,根据数据鉴定标识和采集分析标识进行鉴定目标的生成,所述鉴定目标包括真实鉴定目标和虚假鉴定目标;S7,根据所述鉴定目标进行数据过滤或元数据上传。2.根据权利要求1所述的一种伪造识别场景下的存储、调度检测方法,其特征在于,所述文件数据中的文件元数据具体是用来描述文件的数据,存储于对应的元数据文件中,用于提供关于文件内容、属性、结构和格式的信息,而非实际的多媒体内容,文件元数据提供了关于文件的重要信息,这些信息可以用于文件管理、索引、搜索、鉴定和识别;所述文件数据中的多媒体数据具体为实际的音频、视频和图像等数据内容,主要为能够感知的媒体内容,存储于对应的多媒体文件中,多媒体数据的组成取决于不同的文件类型,音频数据包含音频采样信息,视频数据包含一系列连续的图像帧,每帧由像素点的颜色和位置信息组成,图像数据由像素点的颜色和位置信息组成,用户可以通过解析这些多媒体数据数据来播放音频、视频或显示图像,也可通过所述多媒体数据进行多媒体的鉴伪。3.根据权利要求2所述的一种伪造识别场景下的存储、调度检测方法,其特征在于,所述文件清单的生成步骤为:选取Python编程语言和平台来实现数据监听功能;确定需要监听的文件目录,所述文件目录可以是本地计算机上的某个文件夹,也可以是网络中的共享文件夹;使用编程语言提供的文件监听接口来监控指定的文件目录,不同编程语言和平台提供的接口可能有所不同,但通常都支持监控文件夹的创建、删除、修改等事件;解析元数据文件:当监听到新的元数据文件时,检查文件名是否不含有TMP结尾,如果不含TMP结尾,则说明这是一个需要解析的元数据文件;对于需要解析的文件数据,进行解析操作,提取出文件清单信息,文件元数据包含了需要采集的多媒体数据所处文件的相关信息,比如文件名、文件路径等;根据提取的文件清单信息,通过文件路径等信息,开始采集多媒体数据,具体为音频、视频、图像等数据;将采集到的多媒体数据进行存储,并将多媒体文件保存到本地磁盘上,或者上传到网络存储服务中;将上述步骤放入一个循环中,以便持续监听文件目录并采集文件数;制定文件清理周期,清洗频率可以根据数据增长速度和存储需求来调整;将存储文件按照一定的分类标准进行整理和归档,根据文件类型、创建时间、最后访问时间、大小等属性进行分类,将文件分为活跃数据和归档数据;删除过期数据,定期检查存储文件,将过期或不再需要的数据进行删除,所述过期数据包含一些临时文件、日志文件或过时的备份文件;备份重要数据,在进行清洗之前,确保重要数据已经备份到其他存储介质或云端,以防
误删除或意外数据丢失;压缩归档数据,对较大的归档数据进行压缩存储,以节省存储空间;进行文件去重,检测并删除重复的文件,防止冗余数据的存在;进行文件的审计,记录清洗过程中删除或更改的文件,用于日后追踪和审查;设置文件恢复机制,在进行文件清洗之前,确保有合适的文件恢复机制。4.根据权利要求3所述的一种伪造识别场景下的存储、调度检测方法,其特征在于,所述采集分析标识具体包括完全采集标识和非完全采集标识,所述采集分析标识的生成步骤:所述文件数据的采集数据正确度表示文件数据是否正确下载的判定依据,所述文件数据的采集程度为文件数据是否完全采集的判定依据;通过文件下载验证模型对文件数据的采集数据正确度分析生成采集数据正确度标记,对文件数据的采集程度分析生成采集程度标记,并将同一文件数据中的采集数据正确度标记和采集程度标记进行组合分析,对该文件数据生成采集分析标识;所述采集数据正确度标记包括采集数据正确标记与采集数据错误标记;若对文件清单进行下载验证的过程中,输出下载正确结果,对该文件数据生成采集数据正确标记;若对文件清单进行下载验证的过程中,输出下载错误结果,对该文件数据生成采集数据错误标记;所述采集程度标记包括采集完全标记和采集非完全标记;若对文件清单进行下载验证的过程中,数据采集进度未达到百分百,对该文件数据生成采集非完全标记;若对文件清单进行下载验证的过程中,数据采集进度达到百分百,对该文件数据生成采集完全标记;对同一文件数据进行标记分析,若同一文件清单中同时具备采集数据正确标记和采集非完全标记、采集数据错误标记和采集完全标记或采集数据错误标记和采集非完全标记,对该文件数据生成非完全采集标识;对同一文件数据进行标记分析,若同一文件清单中同时具备采集数据正确标记和采集完全标记,对该文件数据生成完全采集标识。所述发送步骤匹配逻辑为:构建步骤匹配模型,文件数据中的采集分析标识进行标识—步骤匹配;具体的,当文件下载验证模型对文件数据生成完全采集标识时,步骤匹配模型根据文件数据中的完全采集标识匹配数据封装步骤;当文件下载验证模型对文件数据生成非完全采集标识时,步骤匹配模型根据文件数据中的完全采集标识匹配数据报错步骤;数据封装步骤为对文件数据进行包装处理进行后续步骤,数据报错步骤直接于显示终端进行报错显示。5.根据权利要求4所述的一种伪造识别场景下的存储、调度检测方法,其特征在于,所述数据存储的步骤为:当涉及的文件数据包含多媒体数据及文件元数据时,其中多媒体数据具体为音频、视频、图像数据,基于URL通过FTP协议对文件数据进行编码转换、升降采样率后进行本地临时
存储。6.根据权利要求5所述的一种伪造识别场景下的存储、调度检测方法,其特征在于,所述数据鉴定标识包括真实鉴定标识、误差鉴定标识和虚假鉴定标识,生成所述数据鉴定标识的步骤为:基于流处理计算框架和分布式消息中间件,实时判断通知对应的文件类型,所述文件类型音频、视频和图像,对于不同类型文件分别转发请求不同类型鉴伪引擎集群进行处理并生成初鉴定标记,并通过对初鉴定标记的整合分析,对文件数据生成数据鉴定标识;所述初鉴定标记包括音频鉴定标记、视频鉴定标记和图像鉴定标记;所述音频鉴定标记包括音频真实标记和音频虚假标记;通过音频鉴伪引擎集群对音频数据进行分析,若鉴定出的结果为真实音频,则对该文件数据进行音频真实标记的生成;通过音频鉴伪引擎集群对音频数据进行分析,若鉴定出的结果为虚假音频,则对该文件数据进行音频虚假标记的生成。所述视频鉴定标记包括视频真实标记和视频虚假标记;通过视频鉴伪引擎集群对视频数据进行分析,若鉴定出的结果为真实视频,则对该文件数据进行视频真实标记的生成;通过视频鉴伪引擎集群对视频数据进行分析,若鉴定出的结果为虚假视频,则对该文件数据进行视频虚假标记的生成。所述图像鉴定标记包括图像真实标记和图像虚假标记;通过图像鉴伪引擎集群对图像数据进行分析,若鉴定出的结果为真实图像,则对该文件数据进行图像真实标记的生成;通过图像鉴伪引擎集群对图像数据进行分析,若鉴定出的结果为虚假图像,则对该文件数据进行图像虚假标记的生成。对文件数据中的音频鉴定标记、视频鉴定标记和图像鉴定标记进行整合处理;当该文件数据中仅含有音频、视频或图像中的一种类型数据时;若该文件数据中具有对应类型的音频虚假标记、视频虚假标记或图像虚假标记中的一种,则对该文件数据生成虚假鉴定标识;若该文件数据中具有对应类型的音频真实标记、视频真实标记或图像真实标记中的一种,则对该文件数据生成真实鉴定标识;当该文件数据中含有两种类型数据时,可归类于音频和视频、音频和图像或视频和图像中的任意一种情况;若该文件数据中同时具备音频真实标记和视频真实标记、音频真实标记和图像真实标记或视频真实标记和图像真实标记时,对该文件数据生成真实鉴定标识;若该文件数据中的两种类型数据,一种及一种以上具备虚假初鉴定标记时,则对该文件数据生成虚假鉴定标识;当该文件数据中含有音频、视频和图像三种类型数据时;若该文件数据中同时具备音频真实标记、视频真实标记和图像真实标记时,对该文件数据生成真实鉴定标识;若该文件数据中的三种类型数据,仅具有一种类型数据的虚假初鉴定标记时,对该文件数据生成误差鉴定标识;若该文件数据中的三种类型数据,具有两种及两种以上的虚假初鉴定标记时,对该文件数据生成虚假鉴定标识。
7.根据权利要求6所述的一种伪造识别场景下的存储、调度检测方法,其特征在于,所述鉴定目标包括真实鉴定目标、误差鉴定目标和虚假鉴定目标,所述鉴定目标的生成逻辑为:当同一文件数据中含有完全采集标识和真实鉴定标识时,对该文本数据生成真实鉴定目标;当同一文件数据中含有完全采集标识和误差鉴定标识时,对该文本数据生成误差鉴定目标;当同一文件数据中含有非完全采集标识和真实鉴定标识、非完全采集标识和误差鉴定标识或非完全采集标识和虚假鉴定标识时,对该文本数据生成虚假鉴定目标。若文件...

【专利技术属性】
技术研发人员:郑威云剑凌霞郑晓玲周凡棣海涵辛鑫刘澎
申请(专利权)人:中国信息通信研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1