【技术实现步骤摘要】
一种面向网页图文数据的广告分析方法及系统
[0001]本专利技术涉及广告分析
,尤其是一种面向网页图文数据的广告分析方法及系统。
技术介绍
[0002]随着新媒体行业的快速发展,各大平台所带来的流量红利也备受广告主的青睐。对商家、品牌方来说,他们希望获取到具有投放价值的流量主;而对于运营者、流量方来说,也想要了解到各自行业以及整体市场的广告投放规模,从而对运营方向做出调整。因此用户就需要在海量的图文、视频数据中,鉴别文本的广告价值,以及进一步分析广告的分类和所属品牌,以往只能通过人工识别的方式,逐条逐字的浏览,耗时耗力。
技术实现思路
[0003]本专利技术的目的在于针对现有技术的情况,提供一种设计合理,能够快速、精准的鉴别是否为广告,并精准定位广告的行业分类和品牌归属的面向网页图文数据的广告分析方法,同时提供一种设计合理,结构简单的面向网页图文数据的广告分析系统。
[0004]为了实现上述第一个目的,本专利技术采用以下技术方案:
[0005]一种面向网页图文数据的广告分析方法,其包括以 ...
【技术保护点】
【技术特征摘要】
1.一种面向网页图文数据的广告分析方法,其特征在于:其包括以下步骤:S1)对待分析网页图文数据进行解析处理,提取得到纯文本信息,同时分解成粗体部分、正文部分、图片url链接部分和视频url链接部分;S2)根据图片url链接部分中的图片url链接下载图片,基于OCR技术对下载的图片进行图片文字识别,获得图片文字信息;S3)将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到基于机器学习算法的二分类广告鉴别模型中进行是否为广告的鉴别,若鉴别为广告,则执行步骤S4),若鉴别为非广告,则发送至数据保存模块进行数据保存;S4)将纯文本信息和图片文字信息转换成计算机可计算的向量,输入到基于机器学习算法的多分类广告分类模型中进行行业分类预测,确定该广告的行业分类;S5)将该广告的行业分类中预设的品牌词逐个分别在图片文字信息、粗体部分的粗体文本信息和正文部分的正文文本信息这三个维度中进行品牌词匹配,并综合各品牌词出现的维度数、次数以及位置权重这三个因素进行选取,确定该广告的品牌词;S6)将鉴别为广告的网页图文数据、该广告的图片文字信息、行业分类和品牌词分别发送至数据保存模块进行数据保存,供查询功能模块调用并展示。2.根据权利要求1所述的面向网页图文数据的广告分析方法,其特征在于:步骤2)中所述解析处理的方法,其包括以下步骤:S1.1)将待分析网页图文数据中的所有js脚本、样式信息、图片url链接和视频url链接进行剔除处理,提取得到纯文本信息;S1.2)将待分析网页图文数据分解成粗体部分、正文部分、图片url链接部分和视频url链接部分,分别进行提取得到粗体文本信息、正文文本信息、图片url链接和视频url链接。3.根据权利要求1所述的面向网页图文数据的广告分析方法,其特征在于:步骤2)中所述图片文字识别的方法为:基于OCR技术,将下载的图片输入到开源OCR模型中,获得图片文字信息。4.根据权利要求1所述的面向网页图文数据的广告分析方法,其特征在于:步骤3)中所述基于机器学习算法的二分类广告鉴别模型的建立方法,其包括以下步骤:S3.1)收集大量网页图文数据进行是否为广告的标注,得到广告标注数据,若为广告,则标注为1,若为非广告,则标注为0;S3.2)对标注为1的广告标注数据中具有广告属性的特征短语进行提取并去重,得到含有N个特征短语的特征短语集合,其中,N为大于0的自然数;S3.3)通过机器学习算法对广告标注数据进行训练,不断优化每个特征短语对应的权重参数去拟合真实值与预测值,最终得到一个二分类广告鉴别模型。5.根据权利要求4所述的面向网页图文数据的广告分析方法,其特征在于:步骤3)中所述是否为广告的鉴别方法为:将纯文本信息和图片文字信息转换成计算机可计算的向量输入到二分类广告鉴别模型中,利用特征短语集合中的N个特征短语对向量进行逐个扫描并标记,将扫描到存在相应特征短语的位置标记为1,否则标记为0,得到含N个标记的N维向量;再将视频url链接部分是否存在视频url链接作为第N+1个位置的标记,若存在视频url链接,则第N+1个位置标记为1,否则标记为0,得到N+1维向量;二位分类广告鉴别模型根据N+1维向量中每个值及其所对应位置的权重参数鉴别是否为广告。
6.根据权利要求1所述的面向网页图文数据的广告分析方法,其特征在于:步骤4)中所述基于机器学习算法的多分类广告分类模型的建立方法,其包括以下步骤:S4.1)收集大量标注好行业分类的网页图文数据,得到行业标注数据,对其行业分类的关键特征词进行切词并输入到卡方检验算法中,设定关键特征词的数量为M,得到包含M个关键特征词的关键特征词集合,其中,M为大于0的自然数;S4.2)通...
【专利技术属性】
技术研发人员:李在灼,姜豪,胡长春,
申请(专利权)人:福州果集信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。