一种互联网用户行为采集及分析检测的大数据方法技术

技术编号:15503770 阅读:86 留言:0更新日期:2017-06-04 00:03
本发明专利技术公开了一种互联网用户行为采集及分析检测的大数据方法,包括:(1)数据的搜集和预处理;(2)数据分析及挖掘;(3)对数据分析的结果加以利用。搜集互联网用户数据,主要是微博、qq、微信数据,包括用户的个人基本信息和网络发言数据;以及主要的互联网商业数据,包括电商,行业论坛,门户网站的相关频道,主要是商品,商品销量,以及用户评价等;通过自建计算集群来进行上述搜集,根据公开的信息去预测、补全未公开的信息,如年龄预测等。可以实现更为精准、有效的信息搜集及分析,从量的角度更好地把握市场的动向以及消费者口碑等信息。

Large data method for collecting, analyzing and detecting Internet user's behavior

The invention discloses a large data method for collecting and analyzing the behavior of an Internet user, comprising: (1) data collection and pretreatment; (2) data analysis and mining; (3) utilizing the result of data analysis. Collect the data of Internet users, micro-blog, QQ, WeChat is the main data, the basic personal information and network data includes the user's speech; and the main business of Internet data, including electricity supplier, industry forum, related portal, is the main commodity, commodity sales, and user evaluation; cluster to the collection through self calculation according to public information, to predict, completing public information, such as age prediction. Can achieve more accurate, effective information collection and analysis, from a quantitative point of view, to better grasp the trend of the market, as well as consumer word-of-mouth information.

【技术实现步骤摘要】
一种互联网用户行为采集及分析检测的大数据方法
本专利技术属于计算机、互联网、信息
,涉及信息的搜集与分析技术,尤其是一种互联网用户行为采集及分析检测的大数据方法。
技术介绍
随着科技与互联网的进步,电子商务成为互联网行业的重要的一环,数据已经成为改变一家企业所必不可少的利器。尤其是随着大数据时代的到来,一些曾经非常棘手的问题都能够迎刃而解。用户的消费习惯、兴趣爱好、关系网络以及整个互联网的趋势、潮流都将成为互联网从业者关注的热点,而这一切的获取和分析都离不开大数据。一方面,社会化媒体基础上的大数据挖掘和分析将会衍生很多应用;另一方面,基于数据分析的营销咨询服务也正在兴起。数据背后潜藏着巨大的商业机会。以前只有Google、微软这样的公司能做大数据的深挖,现在已经有越来越多的创业公司进入,不同公司在不同维度的数据分析和服务正创造出新的商业模式。微博发言使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这就是大数据的价值。大数据也日益显现出对各个行业的推进力。大数据的核心即是通过收集、整理生活中方方面面的数据,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。这里面,核心的技术就是数据挖掘和统计分析。目前现有企业虽然可以通过ERP系统及时的监控跟踪分析自己的产品,但是对于竞争对手的情况,市场的动向以及消费者口碑等信息难以从量的角度把握。经对现有技术的文献检索发现,有关用户多维度分析与监测方法主要有以下几种:1.LDA(LatentDirichletAllocation)算法。这是一个概率模型,用于从文本中挖掘出用户所谈论的主题,本专利技术将其应用在中文系统,并实现了分布式环境下的海量数据的快速挖掘(来源:Blei,D.M.,Ng,A.Y.,Jordan,M.I.:LatentDirichletAllocation.JournalofMachineLearningResearch3(2003)993-1022)2.Bayes算法(朴素贝叶斯算法)来进行年龄预测。这是一个非常常用的文本分类算法,也适合在分布式环境里对海量数据进行分类,效果不错。(参考文献:1.Zhang,Harry.″TheOptimalityofNaiveBayes″.FLAIRS2004conference.方法1是一个集合概率模型,主要用于处理离散的数据集合,目前主要用在数据挖掘(dm)中的textmining和自然语言处理中,主要是用来降低维度的。效果不错但是会有数据缺失的问题。方法2是ML中的一个非常基础和简单的算法,常常用它来做分类,适用于textclassification。现在的研究中已经很少有人用它来实验了(除非是做baseline),但确实是个很好的入门的算法,不过对于年龄等数据推算补足还是太过于粗略。
技术实现思路
本专利技术的目的是针对现有技术的不足,提供一种互联网用户行为采集及分析检测的大数据方法。为达到上述目的,本专利技术的解决方案是:一一种互联网用户行为采集及分析检测的大数据方法,包括:(1)搜集数据进行预处理;(2)对预处理之后的数据进行分析、挖掘;(3)对数据分析、挖掘数据的结果进行展现、可视化,对数据结果集加以利用。进一步,步骤(1)中所述数据的搜集,主要采用ETL进行预处理;优选的,搜集主要的互联网用户数据,主要是微博、qq、微信数据,包括用户的个人基本信息和网络发言数据;以及主要的互联网商业数据,包括电商,行业论坛,门户网站的相关频道,主要是商品,商品销量,以及用户评价等;优选的,通过自建计算集群来进行上述搜集,从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序;优选的,根据公开的信息去预测、补全未公开的信息,如年龄预测,性别预测等。根据公开的信息去预测、补全年龄的年龄演算推测法:把年龄分为N個年齡群組A{a1,a2,a3,a4..an}表示A用户的好友集合(1)然后把关系网数据降维,减少数据量;(2)age=MAX(count(an)).age;A的年龄=好友中年龄出现最多的(3)预测正确年龄段人数N;(4)实际有年龄段的人数M;(5)准确率=预测正确年龄段人数/实际有年龄段的人数=N/M。步骤(2)中以数据的分析,挖掘为主;优选的,数据分析:企业用户可以按时间纬度自己的产品以及指定竞争对手在各个网络渠道的销售情况,以及这些产品的评论口碑,给企业用户多维查询;优选的,数据挖掘主要包括:(1)基于CRM库的定向营销:预先建立微博、qq、微信等实体用户数据库,并且为这些用户的贴上喜好标签,企业方可以对这些用户发送广告信息;(2)交叉销售;优选的,购买了某品牌产品的用户,也同时购买了其他产品;建议增加绑定,提高销量;(3)促销活动预测和结果分析;优选的,对促销前,对目标客户群锁定,计算促销方案,促销之后,评价;优选的,促销前,一般促销方案分为:满减,满赠,积分等;比如,满300元送精美餐具一套,预估日均业绩100万,送多少比合适;预测的参加率为30%,(100万*30%)/300元=1000笔(合适)优选的,促销后,评测促销结果:a.促销活动的效益增加率;b.基于微博,评论数据,了解有多少人还记得这次促销活动,看法和态度如何,对品牌的忠诚度的上升或下跌;(4)时间序列预测;基于全网的用户发言倾向,产品数据,对企业方的产品销量,市场饱和度,市场走势发展做出预测;优选的,比如检测到某个时间段,笔记本电脑热卖;而且季节也临近夏季,那么笔记本用户对电脑散热的需求也随之而来。步骤(3)中第三阶段以数据的展现、可视化、数据结果集的操作利用为主;优选的,除了常规的表示数据走势的曲线图,数据份额的饼状图以外,该系统可以为企业方提供向特定用户群发联络信的功能。针对互联网上海量用户的发言,采用的技术是中文的文本挖掘;中文的文本分析首先用到的是中文分词;优选的,本专利技术采用的是IKAnalyzer中文分词系统,这是一个开源的分词系统,在这个工具的基础上,创建了多达250个分类词库;优选的,在经过“分词”这一基本的文字处理后,为了从海量的用户发言中挖掘出用户的兴趣爱好,从而给每个用户打上标签,采用的是LDA算法;用于从文本中挖掘出用户所谈论的主题,本专利技术将其应用在中文系统,并实现了分布式环境下的海量数据的快速挖掘;优选的,采用Bayes算法,即朴素贝叶斯算法来进行年龄预测。在互联网的海量数据中,用户间的关系组成了一张庞大的关系网,从中找出最核心的用户,即整个关系网中最有影响力的用户;优选的,采用PageRank算法,将其应用在人与人之间的网络关系上,用来判断一个人的影响力,通过分布式环境,能够计算几亿人之间的关系,得到几亿人的影响力。通过微博平台实现:1)海量信息的获取;2)海量信息的分析与挖掘;优选的,部署一个爬虫集群,抓取到新浪微博上的用户基本信息,用户发言信息,甚至评论,转发等信息;抓取到的信息,保存在HADOOP的HIVE数据库,通过分布式系统的强大数据处理能力,本专利技术对这些信息进行统计分析与挖掘,从中整理出企业感兴趣的,针对企业官方微博的粉丝的分析结果,供企业决策参考;优选的,针对3本文档来自技高网
...
一种互联网用户行为采集及分析检测的大数据方法

【技术保护点】
一种互联网用户行为采集及分析检测的大数据方法,其特征在于;具体步骤包括:(1)数据的搜集和预处理;(2)数据分析及挖掘;(3)对数据分析的结果加以利用。

【技术特征摘要】
1.一种互联网用户行为采集及分析检测的大数据方法,其特征在于;具体步骤包括:(1)数据的搜集和预处理;(2)数据分析及挖掘;(3)对数据分析的结果加以利用。2.根据权利要求1所述的一种互联网用户行为采集及分析检测的大数据方法,其特征在于:所述步骤(1)中所述数据的搜集,主要采用ETL进行预处理;搜集的主要是互联网用户的数据,主要包含有微博、qq、微信数据,包括用户的个人基本信息和网络发言数据;以及主要的互联网商业数据,包括电商,行业论坛,门户网站的相关频道,主要是商品,商品销量,以及用户评价;通过自建计算集群来进行上述搜集,从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序;根据公开的信息去预测、补全未公开的信息,如年龄预测,性别预测。3.根据权利要求2所述的一种互联网用户行为采集及分析检测的大数据方法,其特征在于;根据公开的信息去预测、补全年龄的年龄演算具体推测法:把年龄分为N個年齡群組A{a1,a2,a3,a4..an}(1)然后把关系网数据降维,减少数据量;(2)age=MAX(count(an)).age;(3)预测正确年龄段人数N;(4)实际有年龄段的人数M;(5)准确率=预测正确年龄段人数/实际有年龄段的人数=N/M。4.根据权利要求1所述的一种互联网用户行为采集及分析检测的大数据方法,其特征在于;所述步骤(2)中以数据的分析,挖掘为主;所述数据分析:企业用户可以按时间纬度自己的产品以及指定竞争对手在各个网络渠道的销售情况,以及这些产品的评论口碑,给企业用户多维查询;数据挖掘主要包括:(1)基于CRM库的定向营销:预先建立微博、qq、微信等实体用户数据库,并且为这些用户的贴上喜好标签,企业方可以对这些用户发送广告信息;(2)交叉销售;购买了某品牌产品的用户,也同时购买了其他产品;建议增加绑定,提高销量;(3)促销活动预测和结果分析;对促销前,对目标客户群锁定,计算促销方案,促销之后,评价;促销前,一般促销方案分为:满减,满赠,积分等;比如,满300元送精美餐具一套,预估日均业绩100万,送多少比合适;预测的参加率为30%,(100万*30%)/300元=1000笔(合适);促销后,评测促销结果:a.促销活动的效益增加率;b.基于微博,评论数据,了解有多少人还记得这次促销活动,看法和态度如何,对品牌的忠诚度的上升或下跌;(4)时间序列预测;基于全网的用户发言倾向,产品数据,对企业方的产品销量,市场饱和度,市场走势发展做出预测;比如检测到某个时间段,笔记本电脑热卖;而且季节也临近夏季,那么笔记本用户对电脑散热的需求也随之而来。5.根据权利要求1所述的一种互联网用户行为采集及分析检测的大数据方法,其特征在于:所述步骤(3)中第三阶段以数据的展现、可视化、数据结果集的操作利用为主;除了常规的表示数据走势的曲线图,数据份额的饼状图以外,该系统可以为企业方提供向特定用户群发联络信的功能。6.根据权利要求1所述的一种互联网用户行为采集及分析检测的大数据方法,其特征在于;针对互联网上海量用户的发言,采用的技术是中文的文本挖掘;中文的文本分析首先用到的是中文分词;本发明采用的是IKAnalyzer中文分词系统,这是一个开源的分词系统,在这个工具的基础上,创建了多达250个分类词库;在经过“分词”这一基本的文字...

【专利技术属性】
技术研发人员:潘争
申请(专利权)人:上海晶樵网络信息技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1