一种基于互联网大数据的网络违法视频广告识别方法及系统技术方案

技术编号:19122077 阅读:24 留言:0更新日期:2018-10-10 05:12
本发明专利技术提供一种基于互联网大数据的网络违法视频广告识别方法及系统,首先通过智能搜索引擎,从互联网中抓取视频广告,智能搜索引擎能够支持所有互联网信息形式,包括静态文字及多媒体等内容,通过识别引擎对视频广告的内容进行解析,同时基于互联网大数据,不断进行机器深度学习,提高违法视频广告识别的准确度,最终判定视频广告违法行为。判定后的视频广告,提取其广告特征参数,存储在数据库中,作为后续机器深度学习的依据。

【技术实现步骤摘要】
一种基于互联网大数据的网络违法视频广告识别方法及系统
本专利技术涉及网络安全领域,尤其是一种违法视频广告的识别方法及系统。
技术介绍
互联网是一个巨大的、超时空的、跨行业的信息库,网络广告则是广告主利用互联网媒体向受众传递商业信息或其他信息的传播活动,由于互联网的特殊性,许多网络广告运用音频,视频以及动画技术以达到更好的让观众接受和理解效果。伴随着网民数量急剧增加,网络广告内容形式层出不穷,网络广告主的群体迅速扩大以及电子商务的快速发展,产生了虚假、夸大、误导消费者的现象。网络广告由于市场准入门槛低,投资成本不高,一些网站无视法律和消费者的利益,发布内容虚假的广告,甚至从事法律禁止的宣传,给网络经济以及互联网的健康发展蒙上了一层阴影。同时随着互联网小视频的兴起,其具有的交互性强、传播范围广、发布灵活、成本低廉、形式多样等特点,使得监管对象不明确,监管范围不清晰,特别是网络广告主体的虚拟性和内容的无限性使监管难度加大。现有的解决方案有:1)利用违法行为特征库匹配判定。通过将待识别的广告进行特征提取,与现有的违法行为特征数据库进行匹配,并设置相应的相识度阈值,当与特征库中的相似度达到对应阈值时,可以判定为疑似违法行为。2)利用人工识别对疑似网络违法广告进行人工识别,并进行人为判定。上述的已有解决方案的技术中,主要有以下缺点:1)过度依赖违法行为特征库,当出现新违法行为时就无法进行识别。2)通过机器进行匹配时会有一定的偏差,准确率不高。3)后期需要人工干预,识别效率比较低下。故,需要一种新的技术方案以解决上述问题。
技术实现思路
本专利技术针对违法广告视频识别效率低下的问题,提供一种新的网络违法视频广告识别方法,能够提高识别效率。本专利技术同时提供一种提高识别效率的网络违法视频广告识别系统。为达到上述目的,本专利技术网络违法视频广告识别方法可采用如下技术方案:一种基于互联网大数据的网络违法视频广告识别方法,包括以下步骤:(1)、首先通过搜索引擎,从互联网中抓取视频广告,截取时同时记录视频广告当时特征向量空间,包括网页类型、页面地址、相关链接;(2)、对抓取的视频广告进行结构化处理,生成计算机可以解读的编码信息;(3)、通过识别引擎,加载违法行为模型及行为识别模型,对视频广告的内容进行行为理解和语义分析,同时基于互联网大数据,对违法行为特征进行深度挖掘,充实违法视频广告特征知识库;(4)、通过相关的判定模型对识别的结果进行判定,对判定后的视频广告提取广告特征参数,存储在违法广告特征数据库中;(5)、根据判定模型,对视频广告的识别结果进行输出,并将输出的结果参数也存储至违法广告特征数据库中;(6)、从违法广告特征数据库中提取相应的特征数据,作为后续机器深度学习的依据。进一步的,骤(3)中的识别引擎的功能为,基于卷积神经网络,对视频广告中出现的音频、图像信息进行扫描,抽取特征,对视频广告的内容进行行为理解和语义分析,通过多层交叠的卷积和最大池化操作,最终将广告音视频内容分别表示为一个固定长度的向量,并将这些向量连接起来得到整个图像或者语音的语义。进一步的,步骤(5)中的广告特征参数包括广告商品信息、广告音频信息、广告人物信息、广告内容信息,以及广告内容中是否包含违禁品、色情信息、封建迷信、假冒伪劣、减肥丰胸、夸大虚假的违规类型信息。进一步的,步骤(3)中进一步采取机器深度学习方式对于视频广告的内容进行行为理解和语义分析,机器深度学习通过多层的非线性变换得到新的特征表示,并进一步的进行卷积和池化操作,对违法特征深度挖掘、比对,充实违法视频广告特征知识库。有益效果:本专利技术应用于互联网违法视频广告识别,体现了如下优点:1、对与已经出现过的视频广告违法行为,基于现有的网络违法广告特征数据库可以准确识别并进行判定。2、对于不断变化的网络视频广告内容形式,经过机器深度学习后,能够对新的违法行为进行识别,不全依赖于人工识别。3、结合有关算法模型,能够自动理解视频广告内容,通过判定模型对广告行为进行判定,实现广告监管的自动化,降低人工工作量。本专利技术提供的网络违法视频广告识别系统可采用以下技术方案:一种基于互联网大数据的网络违法视频广告识别系统,包括:搜索引擎,用以从互联网中抓取视频广告,截取时同时记录视频广告当时特征向量空间;处理模块,用以对抓取的视频广告进行结构化处理,生成计算机可以解读的编码信息;识别引擎,用以加载违法行为模型及行为识别模型,对视频广告的内容进行行为理解和语义分析;同时基于互联网大数据,对违法行为特征进行深度挖掘,形成违法视频广告特征知识;违法视频广告特征知识库,用以存储违法视频广告特征知识;违法广告特征数据库,用以存储违法视频广告特征;判定模块,用以通过相关的判定模型对识别的结果进行判定,对判定后的视频广告提取广告特征参数,存储在违法广告特征数据库中。进一步的,识别引擎的功能包括人物识别、动作识别、广告行为理解型、违法行为分析、情感语义分析。进一步的,所述特征向量空间包括网页类型、页面地址、相关链接。附图说明图1为本专利技术提高识别效率的网络违法视频广告识别方法的流程图。图2为本专利技术的广告识别方法中对视频广告的内容进行识别分析的流程图。图3为本专利技术的广告识别方法中通过机器深度学习充实数据库的流程图。具体实施方式请参阅图1所示,本专利技术所阐述的技术方案主要是针对违法广告视频识别效率低下的问题,是基于互联网大数据,运用卷积神经网络和机器学习技术,构建相应的行为识别模型和违法行为模型,通过决策树及支持向量机,不断进行机器深度学习,对构建的模型持续优化,最终对违法视频广告进行判定。技术方案说明:首先通过智能搜索引擎,从互联网中抓取视频广告,智能搜索引擎能够支持所有互联网信息形式,包括静态文字及多媒体等内容。截取时同时记录其当时特征向量空间,涵盖网页类型、页面地址、相关链接等。对抓取的视频广告进行结构化处理,经过噪音过滤后,通过识别引擎加载人物识别模型、动作识别模型、广告行为理解模型、违法行为分析模型、情感语义分析模型等,对视频广告的内容进行解析,同时基于互联网大数据,不断进行机器深度学习,提高违法视频广告识别的准确度,最终判定视频广告违法行为。判定后的视频广告,提取其广告特征参数,存储在数据库中,作为后续机器深度学习的依据。请结合图1所示,具体的识别方法流程包括:(1)、首先通过智能搜索引擎,从互联网中抓取视频广告,智能搜索引擎能够支持所有互联网信息形式,包括静态文字及多媒体等内容。截取时同时记录其当时特征向量空间,包括网页类型、页面地址、相关链接等。(2)、对抓取的视频广告进行结构化处理,生成机器可以解读的编码信息。(3)、请结合图2所示,通过识别引擎,加载人物识别模型、动作识别模型、广告行为理解模型、违法行为分析模型、情感语义分析模型等违法行为模型及行为识别模型,基于卷积神经网络,对视频广告中出现的音频、图像信息进行扫描,抽取特征,对视频广告的内容进行行为理解和语义分析,通过多层交叠的卷积和最大池化操作,最终将广告音视频内容分别表示为一个固定长度的向量,并将这些向量连接起来得到整个图像或者语音的语义。请结合图3所示,本步骤中,同时基于互联网大数据,进行机器深度学习,针对违法行为特征,通过多层的非线性变换得到新的特征表示,并本文档来自技高网...
一种基于互联网大数据的网络违法视频广告识别方法及系统

【技术保护点】
1.一种基于互联网大数据的网络违法视频广告识别方法,其特征在于,包括以下步骤:(1)、首先通过搜索引擎,从互联网中抓取视频广告,截取时同时记录视频广告当时特征向量空间,包括网页类型、页面地址、相关链接;(2)、对抓取的视频广告进行结构化处理,生成计算机可以解读的编码信息;(3)、通过识别引擎,加载违法行为模型及行为识别模型,对视频广告的内容进行行为理解和语义分析,同时基于互联网大数据,对违法行为特征进行深度挖掘,充实违法视频广告特征知识库;(4)、通过相关的判定模型对识别的结果进行判定,对判定后的视频广告提取广告特征参数,存储在违法广告特征数据库中;(5)、根据判定模型,对视频广告的识别结果进行输出,并将输出的结果参数也存储至违法广告特征数据库中;(6)、从违法广告特征数据库中提取相应的特征数据,作为后续机器深度学习的依据。

【技术特征摘要】
1.一种基于互联网大数据的网络违法视频广告识别方法,其特征在于,包括以下步骤:(1)、首先通过搜索引擎,从互联网中抓取视频广告,截取时同时记录视频广告当时特征向量空间,包括网页类型、页面地址、相关链接;(2)、对抓取的视频广告进行结构化处理,生成计算机可以解读的编码信息;(3)、通过识别引擎,加载违法行为模型及行为识别模型,对视频广告的内容进行行为理解和语义分析,同时基于互联网大数据,对违法行为特征进行深度挖掘,充实违法视频广告特征知识库;(4)、通过相关的判定模型对识别的结果进行判定,对判定后的视频广告提取广告特征参数,存储在违法广告特征数据库中;(5)、根据判定模型,对视频广告的识别结果进行输出,并将输出的结果参数也存储至违法广告特征数据库中;(6)、从违法广告特征数据库中提取相应的特征数据,作为后续机器深度学习的依据。2.根据权利要求1所述的识别方法,其特征在于:步骤(3)中的识别引擎的功能为,基于卷积神经网络,对视频广告中出现的音频、图像信息进行扫描,抽取特征,对视频广告的内容进行行为理解和语义分析,通过多层交叠的卷积和最大池化操作,最终将广告音视频内容分别表示为一个固定长度的向量,并将这些向量连接起来得到整个图像或者语音的语义。3.根据权利要求1所述的识别方法,其特征在于:步骤(5)中的广告特征参数包括广告商品信息、广告音频信息、广告人物信息、广告内容信息...

【专利技术属性】
技术研发人员:谭晓磊
申请(专利权)人:南京莱斯信息技术股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1