一种基于Hadoop的HA机制集群精准广告推送方法技术

技术编号:17940691 阅读:26 留言:0更新日期:2018-05-15 20:52
本发明专利技术公开了一种基于Hadoop的HA机制集群精准广告推送方法,首先组建一个工作群,在工作群中安装相应的软件搭建的平台其次采集社交网络信息;第三,对采集到的社交网络数据进行分词处理、词汇权值计算、出现频率较大的关键词抽取;第四根据提取关键词权值进行排序;第五对排序的结果分析用户的关注喜好,当用户登陆社交网络时选取合适的时机合适的地方对用户推送相应的广告。本发明专利技术利用框架中运算模型的特点,能够准确地判断出社交网络用户的关注热点,使广告能更精准地推送到目标客户,使挖掘结果更能反映互联网舆论的客观事实,有较强的可扩展性和容错性。

A Hadoop based HA mechanism cluster precise advertising push method

The invention discloses a Hadoop based HA mechanism cluster precision advertising push method. First, a working group is set up, and the corresponding software platform is installed in the work group to collect the social network information. Third, the word segmentation processing, the weight calculation of the vocabulary, the higher frequency of the social network data are made. Key words extraction; fourth according to the extraction of keyword weight value to sort; fifth to analyze the result of the ranking of users to analyze the interest of the user, when users log in the social network to select the appropriate time appropriate place to push the appropriate advertising for the user. Using the characteristics of the operational model in the framework, the invention can accurately determine the focus of attention of social network users, make the advertising more accurate to the target customers, and make the mining results more able to reflect the objective facts of the Internet public opinion, and have strong scalability and fault tolerance.

【技术实现步骤摘要】
一种基于Hadoop的HA机制集群精准广告推送方法
本专利技术涉及社交网络中数据挖掘领域,特别涉及一种基于Hadoop的HA机制集群精准广告推送方法。
技术介绍
近年来,随着宽带互联网的迅速发展以及网民数量不断攀升,越来越多的人乐于刷微博、逛知乎和玩人人。人们也习惯于写博客、记日志和看网页,网络信息的急剧上升影响着社会生活的方方面面。互联网上的广告推送服务迎来了新的商机,己经得到了众多的门户网站、购物网站以及社交网站等的关注。在互联网广告推送服务中,网站将其广告位以有偿使用的方式提供给广告主投放广告。广告主在使用广告推送服务时,一方面希望提高产品广告的推送效果,即将广告及时准确地推送给对此类产品感兴趣的目标客户;另一方面,还希望扩大广告推送的范围,即将广告推送给更多的目标客户。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于Hadoop的HA机制集群精准广告推送方法,能够有效克服单机在处理大数据时空间以及速度方面的不足。本专利技术的目的通过以下的技术方案实现:一种基于Hadoop的HA机制集群精准广告推送方法,包含以下步骤:步骤一、基本工作群创建(1)为工作组中每一台虚拟机安装基于RedHatLinux的CentOS操作系统;(2)为工作组中每一台虚拟机配置主机名,通过命令vi/etc/sysconfig/network修改文档;(3)为工作组中每一台虚拟机配置IP,通过命令vi/etc/sysconfig/network-scripts/ifcfg-eth0将IP地址设置为静态且开机启动并配置IP地址和子网掩码。(4)为了集群运行方便,通过命令serviceiptablesstop将所有的虚拟机的防火墙关闭;(5)为工作组中每一台虚拟机制作本地YUM源,利用配置好的YUM源安装相关软件。步骤二、组建hadoop的HA机制集群平台(1)为工作组中每一台虚拟机安装hadoop软件;(2)为工作组中每一台虚拟机安装JDK软件并配置JAVA环境;(3)为工作组中每一台虚拟机修改hadoop相关配置文档,分配指定NameNode,SecondaryNameNode和DataNode,配置NodeManager和ResourceManager;选取其中的三台作为Zookeeper,再选取其中的三台作为JournalNode;使集群比普通的hadoop集群拥有高可用性。步骤三、社交网络数据采集利用社交网络比如微博,知乎平台的开放API接口采集社交网络用户数据;其中,所述的社交网络数据包括用户发布的内容,用户信息、文章信息、留言信息等等。将采集当天的社交网络数据使用分布式文件命令一将数据集上传至平台的各个节点上。步骤四、词条统计在PC机的Eclipse软件中编写Java程序,在程序里编写Hadoop集群连接文件处理和MapReduce的逻辑方法和算法处理。将取得的社交网络用户数据放入MapReduce中进行分词处理,在MapReduce中将数据拆分打散,选取产品相关的关键词作为词条,统计词条在用户在社交网络发布每条内容的词条数和词条出现总数,然后对采集信息在hadoop的HA机制分布式系统上建立索引。步骤五、词条排序步骤A:对词频进行归一化计算;将关键词对应的相关文档作为一个语料库,词条的归一化词频为词频(TF)=在文件dj某关键词出现次数ni,j/文章中出现最多次数关键词的出现次数,即tfi,j=ni,j/∑knk,j。步骤B:逆向文档频率计算;预先准备人工挑选出的典型文档作为语料库,典型话题语料库中的每一篇文档对应一个人工挑选出的典型文档,同一文档都是由人工挑选的同一典型文档的网络社交内容组成的,每条内容占一行。逆向文件频率可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到:idi=log|D|/|{j:ti∈dj}|,其中|D|表示语料库中的文件总数。如果一个单词在所有文档中被使用的越频繁,那它对向量中的值的作用就会被抵消的越多。步骤C:计算词汇权值;词条TF-IDF值=词频×逆向文档频率,即tfidfi,j=tfi,j×idfi。TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比,词汇对文章的重要性越高,它的TF-IDF值就越大。步骤六、广告推送对统计计算得到的词汇权值进行排序,对排序的结果分析用户的关注喜好,当用户登陆社交网络时选取合适的时机合适的地方对用户推送相应的广告。本专利技术与现有技术相比,具有如下优点和有益效果:1、本专利技术将Hadoop运用于社交网络中的数据挖掘中,可以解决在互联网社交网络中针对用户精准广告推送的问题。Hadoop是一个开发和运行处理大规模数据的软件平台,是Apache的一个用语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是HDFS和MapReduce。HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。2、传统的Hadoop集群每一个集群只有一个NameNode,如果这个机器或进程不可用,整个集群就无法使用,直到重启NameNode或者新启动一个NameNode节点。HDFS的HA(高可用性)就可以解决上述问题,通过提供选择运行在同一集群中的一个热备的“主/备”两个冗余NameNode,允许在机器宕机或系统维护的时候,快速转移到另一个NameNode。3、本专利技术利用框架中运算模型的特点,能够准确地判断出社交网络用户的关注热点,使广告能更精准地推送到目标客户,使挖掘结果更能反映互联网舆论的客观事实,有较强的可扩展性和容错性。附图说明图1为HDFSNameNode高可用整体架构图;其中ZK表示Zookeeper,JN表示JournalNode,NN表示NameNode,DN表示DataNode;图中每个DN块块向活跃&待机的DN栅栏报告:只服从来自活跃状态机子的命令;通过Cmds命令监测NN的健康状况;通过JournaNodes的Quorum算法分享NN状态。图2为NameNode的主备切换流程图;其中zkfc表示ZKFailoverController(故障切换控制器)。图3为MapReduce编程框架图;图4为本专利技术所述一种基于Hadoop的HA机制集群精准广告推送方法的流程图。具体实施方式下面结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。如图1、2、3、4,一种基于Hadoop的HA机制集群精准广告推送方法,包含以下步骤:步骤一、基本工作群创建(1)为工作组中每一台虚拟机安装基于RedHatLinux的CentOS操作系统;(2)为工作组中每一台虚拟机配置主机名,通过命令vi/etc/sysconfig/network修改文档;(3)为工作组中每一台虚拟机配置IP,通过命令vi/etc/sysconfig/network-scripts/ifcfg-eth0将IP地址设置为静态且开机启动并配置IP地址和子网掩码。(4)为了集群运行方便,通过命令serviceiptablesstop将所有的虚拟机的防火墙关闭;(5)为工作组中每一台虚拟机制作本地YUM源,利用配置好的YUM源安装相关软件。步骤二、组建本文档来自技高网...
一种基于Hadoop的HA机制集群精准广告推送方法

【技术保护点】
一种基于Hadoop的HA机制集群精准广告推送方法,其特征在于,包括如下步骤:步骤S1、基本工作群创建:在计算机中安装VMware Workstation Pro虚拟系统软件,在VMware Workstation Pro中安装一个以上的基于Red Hat Linux的CentOS系统虚拟机;配置每个机子的IP网络和Hostname使之与PC机在同一个网段内;步骤S2、组建Hadoop的HA机制集群平台:将Hadoop安装包上传到服务器,在每台虚拟机上安装Hadoop软件并对Hadoop的5个配置文件hadoop‑env.sh、core‑site.xml、hdfs‑site.xml、mapred‑site.xml、yarn‑site.xml进行配置;安装相关的依赖软件并配置环境变量,选取指定虚拟机配置NameNode、DataNode、JournalNode、Zookeeper;步骤S3、社交网络数据采集:利用社交网络开放的API接口采集社交网络用户数据;其中,所述的社交网络用户数据包括用户发布的内容、用户信息、文章信息、留言信息;将采集当天的社交网络数据使用分布式文件命令一将数据集上传至Hadoop的HA机制集群平台的各个节点上;步骤S4、词条统计:词条统计就是对采集的社交网络内容进行分词处理,选取产品相关的关键词条,统计词条在用户在社交网络发布每条内容的词条数和词条出现总数,然后对采集信息在Hadoop的HA机制集群平台建立索引;步骤S5、词条排序:根据统计到词条的数量,通过TF‑IDF算法算出每个词条的权值;步骤S6、广告推送:对每个词条的权值进行排序,选取对应的广告对用户进行推送。...

【技术特征摘要】
1.一种基于Hadoop的HA机制集群精准广告推送方法,其特征在于,包括如下步骤:步骤S1、基本工作群创建:在计算机中安装VMwareWorkstationPro虚拟系统软件,在VMwareWorkstationPro中安装一个以上的基于RedHatLinux的CentOS系统虚拟机;配置每个机子的IP网络和Hostname使之与PC机在同一个网段内;步骤S2、组建Hadoop的HA机制集群平台:将Hadoop安装包上传到服务器,在每台虚拟机上安装Hadoop软件并对Hadoop的5个配置文件hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml进行配置;安装相关的依赖软件并配置环境变量,选取指定虚拟机配置NameNode、DataNode、JournalNode、Zookeeper;步骤S3、社交网络数据采集:利用社交网络开放的API接口采集社交网络用户数据;其中,所述的社交网络用户数据包括用户发布的内容、用户信息、文章信息、留言信息;将采集当天的社交网络数据使用分布式文件命令一将数据集上传至Hadoop的HA机制集群平台的各个节点上;步骤S4、词条统计:词条统计就是对采集的社交网络内容进行分词处理,选取产品相关的关键词条,统计词条在用户在社交网络发布每条内容的词条数和词条出现总数,然后对采集信息在Hadoop的HA机制集群平台建立索引;步骤S5、词条排序:根据统计到词条的数量,通过TF-IDF算法算出每个词条的权值;步骤S6、广告推送:对每个词条的权值进行排序,选取对应的广告对用户进行推送。2.根据权利要求1所述基于Hadoop的HA机制集群精准广告推送方法,其特征在于,所述步骤S1具体为:(1)为工作组中每一台虚拟机安装基于RedHatLinux的CentOS操作系统;(2)为工作组中每一台虚拟机配置主机名,通过命令修改文档;所述命令包括vi/etc/sysconfig/network;(3)为工作组中每一台虚拟机配置IP,通过命令将IP地址设置为静态且开机启动并配置IP地址和子网掩码;所述命令包括vi/etc/sysconfig/network-scripts/ifcfg-eth0;(4)通过命令serviceiptablesstop将所有的虚拟机的防火墙关闭;(5)为工作组中每一台虚拟机制作本地YUM源,利用配置好的YUM源安装相关软件。3.根据权利要求1所述基于Hadoop的HA机制集群精准广告推送方法,其特征在...

【专利技术属性】
技术研发人员:柯峰梁烜彰
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1