The invention provides a RTB for advertising value analysis method, which comprises the following steps: first, using MapReduce module of Hadoop cluster, Mapper and Reducer function, the statistic number of each host appears, and the statistical results of Hadoop written in FS file system; two, the statistical results from the Hadoop FS file use the Redis system database, filter access times and less than the lower limit number larger than the upper limit of the site URL URL list file; three, according to the host list, write web crawler to crawl each site HTML source code, according to the advertising features to calculate the properties of advertising in the HTML source code, and the preservation of property statistical results for the advertisement file; four, the statistical results of the advertisement file with the URL list with advertising statistics RTB auction website in high value column Table, modeling the website advertising value score. The invention also provides a system for analyzing the value of the RTB competitive advertising position.
【技术实现步骤摘要】
一种RTB竞价广告位价值分析方法及系统
本专利技术属于大数据处理
,具体地涉及一种RTB竞价广告位价值分析方法及系统。
技术介绍
实时竞价(Real-TimeBidding)广告简称为RTB广告,2010年最先在美国兴起,并很快被引入国内。对于RTB广告,从不同的角度有不同的理解。从用户数据分析的角度,RTB广告是一种在用户数据分析基础上针对每个用户的广告展示行为展开实时竞价的广告类型。而从技术和平台的宏观角度出发,RTB广告是一种模仿股票交易模式,通过机器算法实现实时自动买卖的广告类型。在RTB广告的交易过程中,实时竞价技术是最关键的技术,需求方(DemandSidePlatform,简称DSP)会向媒体采购广告位,广告位的价值是DSP出价高低的关键因素。一般情况下,DSP会接入海量的网站的广告位,如何判断广告位是否值得竞价购买或出价多少购买是困扰DSP的一个难题。但是,从经济和高效的角度出发,DSP更愿意购买访问量不高且页面较为优质的网站的广告位,主要原因有两个,第一,在以前这是不被重视的市场,因此往往具有相对低廉的价格优势;第二是此类网站市场份额虽小,但由于数量众多,是一个巨大的微小市场,却也占据了市场中客观的份额,也因此会存在众多优质的广告。同时,近年来随着技术的进步、互联网速度不断提升、以及移动互联网的更新换代,都使得我们对海量网络数据分析的需求不断加深。而面对成几何级数增长的海量网络数据,很多行业都开始设法将其变“数”为宝,并从中分析挖掘出更具商业价值的数据信息。将大数据分析应用到网站广告位的价值分析上,将更能体现出大数据的商业和技术优势 ...
【技术保护点】
一种RTB竞价广告位价值分析方法,其特征在于:包括如下步骤:一、输入互联网的网络数据到Hadoop集群中,并运用Hadoop集群的MapReduce模块,编写Mapper和Reducer函数,统计出每个host出现的数目,并将统计结果写入Hadoop FS文件系统中;二、将统计结果从Hadoop FS文件系统中导出,并导入Redis数据库,在Redis中,过滤掉访问大于上限次数和小于下限次数的网站的URL,并使得文本以特定的格式保存,得到URL列表文件;三、依据上述获得RTB竞价中高价值网站的host列表,编写网络爬虫去爬取每个网站的html源码,依据广告的特征计算出html源码中广告的属性,并将所述属性保存为广告统计结果文件;四、将所述广告统计结果文件与URL列表文件合并,依据访问量进行排序,获得RTB竞价中高价值网站网站的广告统计列表,对网站广告价值评分标准建模,并对Hadoop筛选结果和爬虫结果进行量化分析。
【技术特征摘要】
1.一种RTB竞价广告位价值分析方法,其特征在于:包括如下步骤:一、输入互联网的网络数据到Hadoop集群中,并运用Hadoop集群的MapReduce模块,编写Mapper和Reducer函数,统计出每个host出现的数目,并将统计结果写入HadoopFS文件系统中;二、将统计结果从HadoopFS文件系统中导出,并导入Redis数据库,在Redis中,过滤掉访问大于上限次数和小于下限次数的网站的URL,并使得文本以特定的格式保存,得到URL列表文件;三、依据上述获得RTB竞价中高价值网站的host列表,编写网络爬虫去爬取每个网站的html源码,依据广告的特征计算出html源码中广告的属性,并将所述属性保存为广告统计结果文件;四、将所述广告统计结果文件与URL列表文件合并,依据访问量进行排序,获得RTB竞价中高价值网站网站的广告统计列表,对网站广告价值评分标准建模,并对Hadoop筛选结果和爬虫结果进行量化分析。2.根据权利要求1所述的RTB竞价广告位价值分析方法,其特征在于:在步骤一中,具体包括如下步骤:从每条DPI日志的URL字段中抽取Host;在每个Mapper中建立字典,字典的Key为Host字符串,值为该Key出现的频次,每当有重复的Key出现时,对应的值就增加一,当Mapper的循环结束时,将字典的信息Key和Value打印出来交由Reducer汇总统计;在Reducer中,Mapper的输出被还原为字典,Key为Host字符串,值为Mapper阶段各个节点的输出,随后Reducer对相同的Key进行值合并,得到最终的频次之和,并统计输出;将统计结果写入HadoopFS文件系统中。3.根据权利要求1所述的RTB竞价广告位价值分析方法,其特征在于:在步骤二中,网站访问次数的上限次数和下限次数均建模得出,建模公式为:其中,Nf表示判断RTB竞价高价值网站访问次数上限次数,Nb表示高价值网站访问次数下限次数,M表示网站的总个数,N1、N2、…NM分别代表网站访问从第一至第M个的网站的访问次数。4.根据权利要求1所述的RTB竞价广告位价值分析方法,其特征在于:所述高价值网站为网站访问量处于Nf、Nb之间的网站。5.根据权利要求1所述的RTB竞价广告位价值分析方法,其特征在于:在步骤三中,具体包括如下步骤:根据URL对指定网页进行内容获取;使用爬虫爬取网页的标题、关键...
【专利技术属性】
技术研发人员:陈辉,许恺,黄强松,黄娟,
申请(专利权)人:江苏号百信息服务有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。