一种广告受众用户数据的处理方法和装置制造方法及图纸

技术编号:21455283 阅读:21 留言:0更新日期:2019-06-26 05:12
本发明专利技术公开了一种广告受众用户数据的处理方法和装置,所述方法包括:按维度生成广告受众用户数据的倒排索引;存储所述倒排索引,生成所述倒排索引的存储位置描述信息;接收涵盖至少一个维度的数据分析条件,根据所述数据分析条件查询所述存储位置描述信息,确定相应倒排索引的存储位置;根据确定的存储位置读取相应的倒排索引,根据所述倒排索引确定数据分析结果。该技术方案针对海量的广告受众数据,根据其数据特点,采用按维度生成倒排索引的方式,可以实现利用倒排索引进行数据的快速检索;而针对同样数量庞大的倒排索引,采用为其设置存储位置描述信息的方式,进一步提高了倒排索引的读取效率,这样分层级地提高了数据分析的效率,效果显著。

【技术实现步骤摘要】
一种广告受众用户数据的处理方法和装置
本专利技术涉及互联网广告领域,具体涉及一种广告受众用户数据的处理方法和装置。
技术介绍
用户在浏览网页时会注意到,在网页的上方、下方或者是悬浮窗中存在着不少广告,这些都属于互联网广告的展示方式,浏览网页的用户也就是广告受众用户。而广告主为了实现广告的精准投放,希望了解哪些人群对自己的产品感兴趣,在现有技术中往往是通过获取广告的展现量、点击量等数据,对这些数据进行分析来确定如何投放广告更加有效。而这些数据与用户是相关的,也就是属于广告受众用户数据,不仅维度众多,数量也庞大,需要一种有效、快速的处理方式。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的广告受众用户数据的处理方法和装置。依据本专利技术的一个方面,提供了一种广告受众用户数据的处理方法,包括:按维度生成所述广告受众用户数据的倒排索引;存储所述倒排索引,生成所述倒排索引的存储位置描述信息;接收涵盖至少一个维度的数据分析条件,根据所述数据分析条件查询所述存储位置描述信息,确定相应倒排索引的存储位置;根据确定的存储位置读取相应的倒排索引,根据所述倒排索引确定数据分析结果。可选地,所述按维度生成所述广告受众用户数据的倒排索引包括:调用分布式计算框架MapReduce生成所述倒排索引;所述存储所述倒排索引包括:将同一维度下维度特征值相同的倒排索引连续输出至分布式文件系统HDFS的指定路径下。可选地,所述生成所述倒排索引的存储位置描述信息包括:记录同一维度下同一维度特征值的倒排索引在所述HDFS上的起始位置和长度,生成全部倒排索引的二级索引。可选地,该方法还包括:将所述二级索引保存至Mongo数据库中;所述根据所述数据分析条件查询所述存储位置描述信息包括:调用Mongo数据库的快速检索功能进行查询。可选地,所述存储所述倒排索引包括:将所述倒排索引导入列式数据库HBASE中;所述生成所述倒排索引的存储位置描述信息包括:在所述HBASE中为所述倒排索引设置多个采样点,得到多个采样区间;所述根据所述数据分析条件查询所述存储位置描述信息包括:根据所述数据分析条件确定至少一个采样区间,从所述HBASE中读取所述采样区间下的倒排索引进行查询。可选地,所述将所述倒排索引导入列式数据库HBASE中包括:根据所述倒排索引生成符合HBASE内部数据存储格式的HFile文件;将所述HFile文件热载入所述HBASE。可选地,所述数据分析条件为广告受众人群分析条件,所述倒排索引包括维度的特征值与广告受众用户标识;所述根据所述倒排索引确定数据分析结果包括:从读取的所述倒排索引中提取广告受众用户标识,根据提取出的全部广告受众用户标识生成广告受众人群。可选地,所述数据分析条件为广告受众用户行为分析条件,所述根据所述倒排索引确定数据分析结果包括:根据所述倒排索引读取相应的广告受众用户数据,对所述广告受众用户数据进行数据分析,得到数据分析结果。可选地,所述广告受众用户数据存储在HDFS上,所述倒排索引包括维度的特征值与广告受众用户标识,该方法还包括:获取各广告受众用户数据在所述HDFS上的存储位置;将各广告受众用户数据在所述HDFS上的存储位置对应添加到生成的倒排索引中,或者,生成用户索引,所述用户索引包括广告受众用户标识和各广告受众用户数据在所述HDFS上的存储位置;所述根据所述倒排索引读取相应的广告受众用户数据包括:根据所述倒排索引中广告受众用户数据在所述HDFS上的存储位置,从所述HDFS中读取广告受众用户数据,或者,根据所述倒排索引中的广告受众用户标识查询所述用户索引,确定广告受众用户数据在所述HDFS上的存储位置,从所述HDFS中读取广告受众用户数据。依据本专利技术的另一方面。提供了一种广告受众用户数据的处理装置,包括:生成单元,适于按维度生成所述广告受众用户数据的倒排索引;存储单元,适于存储所述倒排索引,生成所述倒排索引的存储位置描述信息;定位单元,适于接收涵盖至少一个维度的数据分析条件,根据所述数据分析条件查询所述存储位置描述信息,确定相应倒排索引的存储位置;数据分析单元,适于根据确定的存储位置读取相应的倒排索引,根据所述倒排索引确定数据分析结果。可选地,所述生成单元,适于调用分布式计算框架MapReduce生成所述倒排索引;所述存储单元,适于将同一维度下维度特征值相同的倒排索引连续输出至分布式文件系统HDFS的指定路径下。可选地,所述存储单元,适于记录同一维度下同一维度特征值的倒排索引在所述HDFS上的起始位置和长度,生成全部倒排索引的二级索引。可选地,所述存储单元,适于将所述二级索引保存至Mongo数据库中;所述定位单元,适于调用Mongo数据库的快速检索功能进行查询。可选地,所述存储单元,适于将所述倒排索引导入列式数据库HBASE中,在所述HBASE中为所述倒排索引设置多个采样点,得到多个采样区间;所述定位单元,适于根据所述数据分析条件确定至少一个采样区间,从所述HBASE中读取所述采样区间下的倒排索引进行查询。可选地,所述存储单元,适于根据所述倒排索引生成符合HBASE内部数据存储格式的HFile文件,将所述HFile文件热载入所述HBASE。可选地,所述数据分析条件为广告受众人群分析条件,所述倒排索引包括维度的特征值与广告受众用户标识;所述数据分析单元,适于从读取的所述倒排索引中提取广告受众用户标识,根据提取出的全部广告受众用户标识生成广告受众人群。可选地,所述数据分析条件为广告受众用户行为分析条件;所述数据分析单元,适于根据所述倒排索引读取相应的广告受众用户数据,对所述广告受众用户数据进行数据分析,得到数据分析结果。可选地,所述广告受众用户数据存储在分布式文件系统HDFS上,所述倒排索引包括维度的特征值与广告受众用户标识;所述生成单元,适于将各广告受众用户数据在所述HDFS上的存储位置对应添加到生成的倒排索引中,或者,适于生成用户索引,所述用户索引包括广告受众用户标识和各广告受众用户数据在所述HDFS上的存储位置;所述数据分析单元,适于根据所述倒排索引中广告受众用户数据在所述HDFS上的存储位置,从所述HDFS中读取广告受众用户数据,或者,适于根据所述倒排索引中的广告受众用户标识查询所述用户索引,确定广告受众用户数据在所述HDFS上的存储位置,从所述HDFS中读取广告受众用户数据。由上述可知,本专利技术的技术方案,为广告受众用户数据按维度生成倒排索引,将其保存后生成其存储位置描述信息,这样在接收到涵盖至少一个维度的数据分析条件时,可以先根据数据分析条件查询存储位置描述信息,确定相应倒排索引的存储位置,再根据确定的存储位置读取相应的倒排索引,根据倒排索引确定数据分析结果。该技术方案针对海量的广告受众数据,根据其数据特点,采用按维度生成倒排索引的方式,可以实现利用倒排索引进行数据的快速检索;而针对同样数量庞大的倒排索引,采用为其设置存储位置描述信息的方式,进一步提高了倒排索引的读取效率,这样分层级地提高了数据分析的效率,效果显著。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下本文档来自技高网...

【技术保护点】
1.一种广告受众用户数据的处理方法,包括:按维度生成所述广告受众用户数据的倒排索引;存储所述倒排索引,生成所述倒排索引的存储位置描述信息;接收涵盖至少一个维度的数据分析条件,根据所述数据分析条件查询所述存储位置描述信息,确定相应倒排索引的存储位置;根据确定的存储位置读取相应的倒排索引,根据所述倒排索引确定数据分析结果。

【技术特征摘要】
1.一种广告受众用户数据的处理方法,包括:按维度生成所述广告受众用户数据的倒排索引;存储所述倒排索引,生成所述倒排索引的存储位置描述信息;接收涵盖至少一个维度的数据分析条件,根据所述数据分析条件查询所述存储位置描述信息,确定相应倒排索引的存储位置;根据确定的存储位置读取相应的倒排索引,根据所述倒排索引确定数据分析结果。2.如权利要求1所述的方法,其中,所述按维度生成所述广告受众用户数据的倒排索引包括:调用分布式计算框架MapReduce生成所述倒排索引;所述存储所述倒排索引包括:将同一维度下维度特征值相同的倒排索引连续输出至分布式文件系统HDFS的指定路径下。3.如权利要求2所述的方法,其中,所述生成所述倒排索引的存储位置描述信息包括:记录同一维度下同一维度特征值的倒排索引在所述HDFS上的起始位置和长度,生成全部倒排索引的二级索引。4.如权利要求3所述的方法,其中,该方法还包括:将所述二级索引保存至Mongo数据库中;所述根据所述数据分析条件查询所述存储位置描述信息包括:调用Mongo数据库的快速检索功能进行查询。5.如权利要求2所述的方法,其中,所述存储所述倒排索引包括:将所述倒排索引导入列式数据库HBASE中;所述生成所述倒排索引的存储位置描述信息包括:在所述HBASE中为所述倒排索引设置多个采样点,得到多个采样区间;所述根据所述数据分析条件查询...

【专利技术属性】
技术研发人员:徐立鑫
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1