当前位置: 首页 > 专利查询>惠州学院专利>正文

一种识别有害视频的方法及其系统技术方案

技术编号:21629499 阅读:22 留言:0更新日期:2019-07-17 11:16
一种识别有害视频的方法及其系统,其方法包括:获取视频的URL路径,进而依据URL路径获取域名、IP地址,并且基于所述IP地址和域名的相关查询输出第一权重因子、第二权重因子;并且,进一步获取视频中的多个帧画面的图像文件,并在图像文件的压缩域中提取直流系数,以便对图像文件进行部分解压后识别所述图像文件,并根据识别图像文件的结果输出第三权重因子;综合第一权重因子和第二权重因子以及第三权重因子,对所述视频是否属于有害视频进行识别。本公开能够结合大数据所打造的数据库,用尽量少的图像处理手段,利用多种模式提供一种识别有害视频的方案。

A Method and System for Harmful Video Recognition

【技术实现步骤摘要】
一种识别有害视频的方法及其系统
本公开属于信息安全领域,例如涉及一种识别有害视频的方法及其系统。
技术介绍
在信息社会,到处充斥信息流,包括但不限于文本、视频、音频、图片等。其中,视频文件往往包括听觉信息和视觉信息,表达能力更加全面。然而,随着移动互联网的普及,网络上充斥大量有害视频内容,由于视觉直观性、冲击性等特点,其危害性更加甚于有害文本、有害图片和有害音频等,因此对这些有害视频进行识别,进而进行过滤、删除、消除危害,是十分必要的。对于网络有害视频的识别,现在的技术主要有可以分为两大类,一种是传统方法,其中又包括两类:(1)基于单模态特征的识别方法。这类方法主要是提取视频的视觉特征,根据这些特征来构造分类器。例如在暴力视频识别上,常见的特征有视频运动矢量、颜色、纹理以及形状等。(2)基于多模态特征融合的识别方法,这类方法主要是提取视频的多个模态的特征,将其融合以构造分类器。例如在暴力视频识别上,除了视频特征外,很多方法还提取音频特征,包括短时能量,突发声音等。有些方法还考虑了网络视频周围的文本,从这些文本中继续提取一些特征用于融合识别。另一种是深度学习的方法:(1)CNN利用卷积神经网络对资料库中的敏感有害图像进行识别处理,得到有害敏感视频的内部特征,利用学习到的有害视频框架判断得到的视频帧中是否有有害信息。(2)RNN循环神经网络,直接将资料库中的视频序列输入循环神经网络中识别有害视频信息,学习到有害视频的框架,利用学习到的有害视频框架判断识别新的视频是否为有害视频。(3)CNN+RNN,利用CNN学习视频中图像帧中的空间域信息,利用RNN识别视频序列中的时间域信息,最后将两者结合进行识别判断,利用学习到的框架对视频进行识别。现有的图像处理手段主要有下面两种方法:传统方法和深度学习方法。其中传统方法中经典的方法词包模型,该模型由四个部分组成:(1)底层的特征提取阶段(2)特征编码(3)特征汇聚(4)使用合适的分类器进行分类。深度学习模型是另一种图像处理的模型,主要有自编码器,受限波尔兹曼机,深度信念网络,卷积神经网络,循环神经网络等。随着计算机硬件的不断进步,数据库的完善,使用传统的方法运算过程相比于深度学习来说较为简单,深度学习方法能够学习到更有意义的数据,并根据任务不断进行参数调整,所以对于图像处理方面,深度学习模型有更强大的特征表达能力。现有的识别方法在在识别效率上都有所不足,在大数据和人工智能发展的情形下,如何高效的识别有害视频,就成为一个需要考虑的问题。
技术实现思路
本公开提供了一种识别有害视频的方法,包括:步骤a),获取视频的URL路径,进而依据URL路径获取域名、IP地址,并且基于所述IP地址,在第一数据库中查询是否存在所述IP地址或同一网段IP地址,并根据IP地址的查询结果输出与IP相关的第一权重因子;步骤b),基于所述域名,在第二数据库中进行whois查询,并根据whois查询结果输出与域名相关的第二权重因子;步骤c),获取视频中的多个帧画面的图像文件,并在图像文件的压缩域中提取直流系数,以便对图像文件进行部分解压后识别所述图像文件,并根据识别图像文件的结果输出第三权重因子;步骤d),综合第一权重因子和第二权重因子以及第三权重因子,对所述视频是否属于有害视频进行识别。此外,本公开还揭示了一种识别有害视频的系统,包括:第一权重因子生成模块,用于:获取视频的URL路径,进而依据URL路径获取域名、IP地址,并且基于所述IP地址,在第一数据库中查询是否存在所述IP地址或同一网段IP地址,并根据IP地址的查询结果输出与IP相关的第一权重因子;第二权重因子生成模块,用于:基于所述域名,在第二数据库中进行whois查询,并根据whois查询结果输出与域名相关的第二权重因子;第三权重因子生成模块,用于:获取视频中的多个帧画面的图像文件,并在图像文件的压缩域中提取直流系数,以便对图像文件进行部分解压后识别所述图像文件,并根据识别图像文件的结果输出第三权重因子;识别模块,用于综合第一权重因子和第二权重因子以及第三权重因子,对所述视频是否属于有害视频进行识别。通过所述方法及其系统,本公开能够结合大数据所打造的数据库,用尽量少的图像处理手段,提供一种较为高效的识别有害视频的方案。附图说明图1是本公开中一个实施例所述方法的示意图;图2是本公开中一个实施例所述系统的示意图。具体实施方式为了使本领域技术人员理解本公开所披露的技术方案,下面将结合实施例及有关附图,对各个实施例的技术方案进行描述,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。本公开所采用的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,“包括”和“具有”以及它们的任何变形,意图在于覆盖且不排他的包含。例如包含了一系列步骤或单元的过程、或方法、或系统、或产品或设备没有限定于已列出的步骤或单元,而是可选的还包括没有列出的步骤或单元,或可选的还包括对于这些过程、方法、系统、产品或设备固有的其他步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本公开的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员可以理解的是,本文所描述的实施例可以与其他实施例相结合。参见图1,图1是本公开中一个实施例提供的一种识别有害视频的方法的流程示意图。如图所示,所述方法包括:步骤S100,获取视频的URL路径,进而依据URL路径获取域名、IP地址,并且基于所述IP地址,在第一数据库中查询是否存在所述IP地址或同一网段IP地址,并根据IP地址的查询结果输出与IP相关的第一权重因子;能够理解,第一数据库维护已知的、发布过有害视频的IP地址清单。例如,IP地址是192.168.10.3的情形下:如果第一数据库中记载有该IP地址,那么第一权重因子可以示例性为1.0;如果数据库中记载的IP地址只有192.168.10.4,那么192.168.10.3则被中度怀疑为该视频所属网站的备用地址或者新近更换的地址,第一权重因子可以示例性为0.6;如果数据库中记载的IP地址有192.168.10.4以及192.168.10.5,甚至记载了192.168.10.X网段的所有IP地址,那么192.168.10.3则被高度怀疑为该视频所属网站的备用地址或者新近更换的地址,第一权重因子可以示例性为0.9;如果数据库中记载的IP地址中包括多个192.168.X.X网段,而没有192.168.10.X网段,那么192.168.10.3则被谨慎怀疑为有害视频所属网站的地址,第一权重因子可以示例性为0.4。步骤S200,基于所述域名,在第二数据库中进行whois查询,并根据whois查询结果输出与域名相关的第二权重因子;能够理解,第二数据库维护已知的、发布过有害视频的域名清单。Whois查询是为了考察域名注册人与有害视频的关联情况。第二数据库可以维护如下信息:域名、互联网上大量发布有害视频的域名注册人的信息以及对应的有害视频的标识。例如,域名是www.a.com的情形下:如果第二数据库中记载有该域名地址、相应有害视频的标识及其whois本文档来自技高网
...

【技术保护点】
1.一种识别有害视频的方法,包括:步骤a),获取视频的URL路径,进而依据URL路径获取域名、IP地址,并且基于所述IP地址,在第一数据库中查询是否存在所述IP地址或同一网段IP地址,并根据IP地址的查询结果输出与IP相关的第一权重因子;步骤b),基于所述域名,在第二数据库中进行whois查询,并根据whois查询结果输出与域名相关的第二权重因子;步骤c),获取视频中的多个帧画面的图像文件,并在图像文件的压缩域中提取直流系数,以便对图像文件进行部分解压后识别所述图像文件,并根据识别图像文件的结果输出第三权重因子;步骤d),综合第一权重因子和第二权重因子以及第三权重因子,对所述视频是否属于有害视频进行识别。

【技术特征摘要】
1.一种识别有害视频的方法,包括:步骤a),获取视频的URL路径,进而依据URL路径获取域名、IP地址,并且基于所述IP地址,在第一数据库中查询是否存在所述IP地址或同一网段IP地址,并根据IP地址的查询结果输出与IP相关的第一权重因子;步骤b),基于所述域名,在第二数据库中进行whois查询,并根据whois查询结果输出与域名相关的第二权重因子;步骤c),获取视频中的多个帧画面的图像文件,并在图像文件的压缩域中提取直流系数,以便对图像文件进行部分解压后识别所述图像文件,并根据识别图像文件的结果输出第三权重因子;步骤d),综合第一权重因子和第二权重因子以及第三权重因子,对所述视频是否属于有害视频进行识别。2.根据权利要求1所述的方法,其中,优选的,所述第二数据库为第三方数据库。3.根据权利要求1所述的方法,其中,步骤b)还包括:进一步的,在第三方域名安全列表中查询所述域名的安全性以便输出安全因子,并通过所述安全因子对所述与域名相关的第二权重因子进行修正。4.根据权利要求1所述的方法,其中,步骤c)中的获取视频中的多个帧画面的图像文件,是通过随机方式获取的。5.根据权利要求1所述的方法,其中,步骤c)中的获取视频中的多个帧画面的图像文件,还包括如下:步骤c1):提取视频中的音频;步骤c2):识别音频中是否包括有害内容,如果有,则根据音频的起止时间获取所述起止时间内的多个帧画面的图像文件。6.一种识别有害视频的系统,包括:第一权重因子生成模块,用于:获取视频...

【专利技术属性】
技术研发人员:蔡昭权胡松胡辉蔡映雪陈伽黄翰梁椅辉罗伟黄思博
申请(专利权)人:惠州学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1