一种RTB竞价广告位价值分析方法及系统技术方案

技术编号:15690961 阅读:67 留言:0更新日期:2017-06-24 03:46
本发明专利技术提供了一种RTB竞价广告位价值分析方法,并包括如下步骤:一、运用Hadoop集群的MapReduce模块,编写Mapper和Reducer函数,统计出每个host出现的数目,并将统计结果写入Hadoop FS文件系统中;二、将统计结果从Hadoop FS文件系统导入Redis数据库,过滤掉访问大于上限次数和小于下限次数的网站的URL,得到URL列表文件;三、依据上述获得host列表,编写网络爬虫去爬取每个网站的html源码,依据广告的特征计算出html源码中广告的属性,并将所述属性保存为广告统计结果文件;四、将所述广告统计结果文件与URL列表文件合并,获得RTB竞价中高价值网站网站的广告统计列表,对网站广告价值评分标准建模。本发明专利技术还提供一种RTB竞价广告位价值分析方法的系统。

RTB competitive advertising value analysis method and system

The invention provides a RTB for advertising value analysis method, which comprises the following steps: first, using MapReduce module of Hadoop cluster, Mapper and Reducer function, the statistic number of each host appears, and the statistical results of Hadoop written in FS file system; two, the statistical results from the Hadoop FS file use the Redis system database, filter access times and less than the lower limit number larger than the upper limit of the site URL URL list file; three, according to the host list, write web crawler to crawl each site HTML source code, according to the advertising features to calculate the properties of advertising in the HTML source code, and the preservation of property statistical results for the advertisement file; four, the statistical results of the advertisement file with the URL list with advertising statistics RTB auction website in high value column Table, modeling the website advertising value score. The invention also provides a system for analyzing the value of the RTB competitive advertising position.

【技术实现步骤摘要】
一种RTB竞价广告位价值分析方法及系统
本专利技术属于大数据处理
,具体地涉及一种RTB竞价广告位价值分析方法及系统。
技术介绍
实时竞价(Real-TimeBidding)广告简称为RTB广告,2010年最先在美国兴起,并很快被引入国内。对于RTB广告,从不同的角度有不同的理解。从用户数据分析的角度,RTB广告是一种在用户数据分析基础上针对每个用户的广告展示行为展开实时竞价的广告类型。而从技术和平台的宏观角度出发,RTB广告是一种模仿股票交易模式,通过机器算法实现实时自动买卖的广告类型。在RTB广告的交易过程中,实时竞价技术是最关键的技术,需求方(DemandSidePlatform,简称DSP)会向媒体采购广告位,广告位的价值是DSP出价高低的关键因素。一般情况下,DSP会接入海量的网站的广告位,如何判断广告位是否值得竞价购买或出价多少购买是困扰DSP的一个难题。但是,从经济和高效的角度出发,DSP更愿意购买访问量不高且页面较为优质的网站的广告位,主要原因有两个,第一,在以前这是不被重视的市场,因此往往具有相对低廉的价格优势;第二是此类网站市场份额虽小,但由于数量众多,是一个巨大的微小市场,却也占据了市场中客观的份额,也因此会存在众多优质的广告。同时,近年来随着技术的进步、互联网速度不断提升、以及移动互联网的更新换代,都使得我们对海量网络数据分析的需求不断加深。而面对成几何级数增长的海量网络数据,很多行业都开始设法将其变“数”为宝,并从中分析挖掘出更具商业价值的数据信息。将大数据分析应用到网站广告位的价值分析上,将更能体现出大数据的商业和技术优势。但是,面对海量网络数据分析之前需要面对如下的一些问题,诸如未能与时俱进的磁盘数据读取速度问题、硬件故障常态化的问题等等。Hadoop集群是一种专门为存储和分析海量非结构化数据而设计的特定类型的集群。本质上,它是一种计算集群,即将数据分析的工作分配到多个集群节点上,从而并行处理数据。使用Hadoop集群最大的好处在于它非常适合大数据分析,而它的两大核心技术HDFS和MapReduce更是将大数据处理提高到了一个新的水平。HDFS是分布式文件系统,它所具有的高容错高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集的应用处理带来了很大的便利。而MapReduce是指一种处理海量数据的并行编程模型和计算框架,用于对大规模数据集的并行计算。因此,有必要提供出一种RTB竞价广告位价值分析方法。
技术实现思路
本专利技术的目的在于提供一种RTB竞价广告位价值分析方法。本专利技术的技术方案如下:一种RTB竞价广告位价值分析方法,包括如下步骤:一、输入互联网的网络数据到Hadoop集群中,并运用Hadoop集群的MapReduce模块,编写Mapper和Reducer函数,统计出每个host出现的数目,并将统计结果写入HadoopFS文件系统中;二、将统计结果从HadoopFS文件系统中导出,并导入Redis数据库,在Redis中,过滤掉访问大于上限次数和小于下限次数的网站的URL,并使得文本以特定的格式保存,得到URL列表文件;三、依据上述获得RTB竞价中高价值网站的host列表,编写网络爬虫去爬取每个网站的html源码,依据广告的特征计算出html源码中广告的属性,并将所述属性保存为广告统计结果文件;四、将所述广告统计结果文件与URL列表文件合并,依据访问量进行排序,获得RTB竞价中高价值网站网站的广告统计列表,对网站广告价值评分标准建模,并对Hadoop筛选结果和爬虫结果进行量化分析。优选地,在步骤一中,具体包括如下步骤:从每条DPI日志的URL字段中抽取Host;在每个Mapper中建立字典,字典的Key为Host字符串,值为该Key出现的频次,每当有重复的Key出现时,对应的值就增加一,当Mapper的循环结束时,将字典的信息Key和Value打印出来交由Reducer汇总统计;在Reducer中,Mapper的输出被还原为字典,Key为Host字符串,值为Mapper阶段各个节点的输出,随后Reducer对相同的Key进行值合并,得到最终的频次之和,并统计输出;将统计结果写入HadoopFS文件系统中。优选地,在步骤二中,网站访问次数的上限次数和下限次数均建模得出,建模公式为:其中,Nf表示判断RTB竞价高价值网站访问次数上限次数,Nb表示高价值网站访问次数下限次数,M表示网站的总个数,N1、N2、…NM分别代表网站访问从第一至第M个的网站的访问次数。优选地,所述高价值网站为网站访问量处于Nf、Nb之间的网站。优选地,在步骤三中,具体包括如下步骤:根据URL对指定网页进行内容获取;使用爬虫爬取网页的标题、关键字、描述和正文的字段,并将爬取的结果作为值,网页URL作为键,以文本的形式存入HDFS中,随后利用基于hadoop的分布式分词软件,对海量文本数据进行分词处理;对于源码本身,则进行多模式匹配,寻找源码中的加载广告位的代码,用于分析其网页中广告位的信息,并输出到爬虫结果文件中;爬取网站网页的编写模板和插件,以及图片超链接数量和文字超链接数量,来确定网站精美度。优选地,在步骤三中,所述广告的属性包括网站精美度、网站广告位数量和网站非法性。优选地,在步骤四中分析得到的结果为:网站广告位的价值分别与网站访问量及排名、网站精美度、网站广告位数量和网站非法性有关。优选地,在对所述网站访问量及排名的量化分析中,适中访问量Na的量化标准为:在对所述网站精美度的量化分析中,精美度影响系数Q的量化标准为:其中,G为网站精美度的贡献系数,T和W分别为网页中图片链接数和文字链接数;在对所述网站广告位数量的量化分析中,设内嵌广告位的数量价值系数为P,q为内嵌广告为数量,计算公式为在对所述网站非法性的量化分析中,设非法系数为F,根据经验对所述非法系数F进行判断。优选地,长尾网站广告价值系数为V,其计算公式为:其中,N为进行价值评估的网站的访问量。一种根据权利要求任一上述的RTB竞价广告位价值分析方法的系统,包括:Hadoop集群数据处理模块,用于导入互联网的网络数据,并运用Hadoop集群的MapReduce模块,编写Mapper和Reducer函数,统计出每个host出现的数目,并将统计结果写入HadoopFS文件系统中;Redis数据库过滤模块,按访问上限次数和下限次数确定合适RTB竞价的网站;网络爬虫广告计算模块,依据上述获得RTB竞价中高价值网站的host列表,爬取每个网站的html源码,依据广告的特征计算出html源码中广告的属性,并将所述属性保存为广告统计结果文件;网站广告价值评分标准建模,将所述广告统计结果文件与URL列表文件合并,依据访问量进行排序,获得RTB竞价中高价值网站网站的广告统计列表,对网站广告价值评分标准建模,并对Hadoop筛选结果和爬虫结果进行量化分析。本专利技术提供的技术方案具有如下有益效果:1.基于位置信息形成融合的、标准化的位置输出能力。通过从移动网DPI中提取基站小区位置、从移动网DPI中提取GPS位置信息、从4G信令数据中提取基站位置信息,弥补单一从2G基站获取的位置信息精度不高及实时性不高的问题。融合本文档来自技高网
...
一种RTB竞价广告位价值分析方法及系统

【技术保护点】
一种RTB竞价广告位价值分析方法,其特征在于:包括如下步骤:一、输入互联网的网络数据到Hadoop集群中,并运用Hadoop集群的MapReduce模块,编写Mapper和Reducer函数,统计出每个host出现的数目,并将统计结果写入Hadoop FS文件系统中;二、将统计结果从Hadoop FS文件系统中导出,并导入Redis数据库,在Redis中,过滤掉访问大于上限次数和小于下限次数的网站的URL,并使得文本以特定的格式保存,得到URL列表文件;三、依据上述获得RTB竞价中高价值网站的host列表,编写网络爬虫去爬取每个网站的html源码,依据广告的特征计算出html源码中广告的属性,并将所述属性保存为广告统计结果文件;四、将所述广告统计结果文件与URL列表文件合并,依据访问量进行排序,获得RTB竞价中高价值网站网站的广告统计列表,对网站广告价值评分标准建模,并对Hadoop筛选结果和爬虫结果进行量化分析。

【技术特征摘要】
1.一种RTB竞价广告位价值分析方法,其特征在于:包括如下步骤:一、输入互联网的网络数据到Hadoop集群中,并运用Hadoop集群的MapReduce模块,编写Mapper和Reducer函数,统计出每个host出现的数目,并将统计结果写入HadoopFS文件系统中;二、将统计结果从HadoopFS文件系统中导出,并导入Redis数据库,在Redis中,过滤掉访问大于上限次数和小于下限次数的网站的URL,并使得文本以特定的格式保存,得到URL列表文件;三、依据上述获得RTB竞价中高价值网站的host列表,编写网络爬虫去爬取每个网站的html源码,依据广告的特征计算出html源码中广告的属性,并将所述属性保存为广告统计结果文件;四、将所述广告统计结果文件与URL列表文件合并,依据访问量进行排序,获得RTB竞价中高价值网站网站的广告统计列表,对网站广告价值评分标准建模,并对Hadoop筛选结果和爬虫结果进行量化分析。2.根据权利要求1所述的RTB竞价广告位价值分析方法,其特征在于:在步骤一中,具体包括如下步骤:从每条DPI日志的URL字段中抽取Host;在每个Mapper中建立字典,字典的Key为Host字符串,值为该Key出现的频次,每当有重复的Key出现时,对应的值就增加一,当Mapper的循环结束时,将字典的信息Key和Value打印出来交由Reducer汇总统计;在Reducer中,Mapper的输出被还原为字典,Key为Host字符串,值为Mapper阶段各个节点的输出,随后Reducer对相同的Key进行值合并,得到最终的频次之和,并统计输出;将统计结果写入HadoopFS文件系统中。3.根据权利要求1所述的RTB竞价广告位价值分析方法,其特征在于:在步骤二中,网站访问次数的上限次数和下限次数均建模得出,建模公式为:其中,Nf表示判断RTB竞价高价值网站访问次数上限次数,Nb表示高价值网站访问次数下限次数,M表示网站的总个数,N1、N2、…NM分别代表网站访问从第一至第M个的网站的访问次数。4.根据权利要求1所述的RTB竞价广告位价值分析方法,其特征在于:所述高价值网站为网站访问量处于Nf、Nb之间的网站。5.根据权利要求1所述的RTB竞价广告位价值分析方法,其特征在于:在步骤三中,具体包括如下步骤:根据URL对指定网页进行内容获取;使用爬虫爬取网页的标题、关键...

【专利技术属性】
技术研发人员:陈辉许恺黄强松黄娟
申请(专利权)人:江苏号百信息服务有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1