一种基于大数据的客户网络行为画像方法技术

技术编号:18205251 阅读:48 留言:0更新日期:2018-06-13 06:45
本发明专利技术公开了一种基于大数据的客户网络行为画像方法,包括步骤一:根据客户浏览网页频度,初步筛选活跃客户为目标客户,通过目标客户请求的URL提取网页的信息,提取客户关键词;步骤二:根据业务需求,筛选网络语料库种子URL;爬取网络语料库种子URL以下各层级的网页数据,提取网络事件关键词;步骤三:对客户关键词和网络事件关键词进行相似度计算,用网络事件关键词替换客户关键词,得到客户的网络事件标签,构建客户画像。本发明专利技术提供的基于大数据的客户网络行为画像方法,通过对网络数据的自动爬取、特征抽取、相似度匹配、数据处理,最终实现相对精准全面的客户画像。

【技术实现步骤摘要】
一种基于大数据的客户网络行为画像方法
本专利技术涉及一种客户网络行为分析收集方法,尤其涉及一种基于大数据的客户网络行为画像方法。
技术介绍
随着互联网的飞速发展,人们每天花在网上的时间越来越多,搜索、阅读、购物等行为产生大量的点击数据。如能对这类点击数据进行深入挖掘,了解客户真实的使用习惯和偏好,进行有针对性的营销,可以产生巨大的商业价值。现阶段,如搜索引擎厂商、浏览器厂商、网络运营商等企业均可以获得较为全面的用户点击数据,然而目前的点击数据分析大多局限于域名分析,缺少对用户访问网页内容的理解,使得精细化的营销无法开展。此外,大部分企业的客户标签也只是解析客户点击数据中与本企业元数据(如商品信息、新闻分类等)存在交集的部分,使得数据来源较为单一,客户画像较为粗糙,难以利用与本企业从事行业无关的页面浏览行为。鉴于这种现状,有必要对现有的客户网络行为分析收集方法进行改进。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于大数据的客户网络行为画像方法,能够实现点击数据与互联网内容数据的高效对接,形成精准全面的客户画像。本专利技术为解决上述技术问题而采用的技术方案是提供一种基于大数据的客户网络行为画像方法,包括以下步骤:步骤一:客户关键词提取步骤1.1:根据客户浏览网页频度,初步筛选活跃客户为目标客户;步骤1.2:通过目标客户请求的URL提取网页的信息;步骤1.3:对提取的网页信息进行解析和正文分词;步骤1.4:计算客户关键词;步骤二:网络事件关键词提取步骤2.1:根据业务需求,筛选网络语料库种子URL;步骤2.2:爬取网络语料库种子URL以下各层级的网页数据;步骤2.3:对爬取的网页信息进行解析和正文分词;步骤2.4:计算网络事件关键词;步骤三:根据客户关键词和网络事件关键词,构建客户画像步骤3.1:对客户关键词和网络事件关键词进行相似度计算;步骤3.2:用网络事件关键词替换客户关键词,得到客户的网络事件标签;步骤3.3:构建客户画像。上述的基于大数据的客户网络行为画像方法,其中,所述步骤1.1包括:根据客户质量和业务需求预设检测周期和点击量,根据客户在预设的检测周期内浏览网页的点击量是否超过预设点击量来确定客户是否为活跃客户。上述的基于大数据的客户网络行为画像方法,其中,所述步骤1.2包括:对目标客户某时间段内浏览网页的日志信息进行清洗并抽取得到URL集合,再通过爬虫工具将URL对应的网页文本信息爬取到本地,并采用关系型数据库或NoSQL数据库对网页数据进行储存。上述的基于大数据的客户网络行为画像方法,其中,所述步骤1.3中网页信息解析是采用正则表达式、XPATH以及CSS选择器对网页元素解析,并提取出标题、作者、关键字和正文元素,所述正文分词采用基于逆向隐马尔可夫模型的算法对网页正文部分进行分词。上述的基于大数据的客户网络行为画像方法,其中,所述步骤1.4包括:对步骤1.3得到的分词结果过滤停止词,剩余的实词按客户维度汇总计算词频并从高到低排序,保留词频靠前的词汇,再通过词典合并同义词,最后留下的词汇作为客户关键词进行储存。上述的基于大数据的客户网络行为画像方法,其中,所述步骤2.1包括:根据关注的特定业务领域,结合网站搜索排名、网站用户数指标,选择网络语料库的种子URL,通过所选的种子URL向下逐层爬取,从而得到特定网站特定分类的全部文章。上述的基于大数据的客户网络行为画像方法,其中,所述步骤2.2包括:使用调度工具和爬虫工具,定时爬取目标网页的文本数据,并采用关系型数据库或NoSQL数据库对网页数据进行储存。上述的基于大数据的客户网络行为画像方法,其中,所述步骤2.4包括:对步骤2.3得到的分词结果过滤停止词,剩余的实词按内容分类维度汇总计算词频并从高到低排序,保留词频靠前的词汇,再通过词典合并同义词,最后留下的词汇作为网络事件关键词进行储存。上述的基于大数据的客户网络行为画像方法,其中,所述步骤3.1包括对步骤1.4和步骤2.4生成的关键词,两两配对计算其语义相似度;所述步骤3.2设置阈值t,如果相似度大于等于阈值t,则用该网络事件关键词替换该客户关键词,并记录相似度;否则舍弃该客户关键词;全部替换完后,将所留下的网络事件关键词的相似度进行汇总,即得到客户网络事件标签,并采用关系型数据库或NoSQL数据库对标签数据进行储存。上述的基于大数据的客户网络行为画像方法,其中,所述步骤3.3包括:将客户网络事件标签与客户静态标签,按照客户id进行关联,使得客户标签数据具有网络事件标签与静态标签两类数据,得到相对精准全面的客户画像。本专利技术对比现有技术有如下的有益效果:本专利技术提供的基于大数据的客户网络行为画像方法,对网络数据的自动爬取、特征抽取、相似度匹配、数据处理,最终实现相对精准全面的客户画像。本专利技术数据准备简单,使用者只需对客户浏览网页频度和种子URL进行简单配置,即可完成用户数据与语料数据的输入;利用客户浏览的文本内容来计算客户关键词,避免客户画像局限于本企业内部数据;通过计算词汇相似度,使用网络事件关键词替换客户关键词,既保证了标签的收敛性,又保证了标签的多样性;灵活的实现方式,系统逻辑实现可使用Java、Python等任意一种高级语言,爬虫数据和标签数据的存储支持关系型数据库或NoSQL数据库,使得整个系统具备广泛的适用范围。附图说明图1为本专利技术基于大数据的客户网络行为画像流程示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的描述。图1为本专利技术基于大数据的客户网络行为画像流程示意图。本专利技术提供的基于大数据的客户网络行为画像方法,包括客户关键词提取和网络事件关键词提取,然后根据客户关键词和网络事件关键词,构建客户画像。本专利技术通过点击数据生成客户标签的标准流程,可自定义客户范围、爬取周期、爬虫策略等。在使用时,使用者先进行简单的配置,然后启动系统,系统即可按配置的周期和策略自动爬取用户访问网页和语料库网页,并进行分词、相似度计算等各种处理,最后自动输出客户标签。使用者可将这种动态的客户标签与静态客户标签结合,生成客户画像。请参见图1,本专利技术详细步骤如下:步骤1.1:根据客户浏览网页频度,初步筛选活跃客户即目标客户。使用者可根据客户特定周期内浏览网页的点击量(PV)来确定客户是否活跃,筛选出活跃客户进行后续计算。周期、点击量参数可根据客户质量、业务需求等因素自行决定,如使用者得到的客户访问清单中,正常用户的月PV量在100以上,小部分异常用户月PV为数次或数十次,则可将单月PV量大于等于100次的客户定义为活跃客户。步骤1.2:通过客户请求的URL提取网页的信息。步骤1.1筛选出的活跃客户,对其某时间段内浏览网页的日志信息进行清洗并抽取得到URL集合,再通过爬虫工具(包括开源爬虫框架如Nutch、pyspider或使用者自行开发的爬虫工具)将URL对应的网页文本信息爬取到本地,并采用关系型数据库(包括Oracle、mysql等)或NoSQL数据库(包括Elasticsearch、HBase等)对网页数据进行储存。步骤1.3:网页信息解析、正文分词。网页信息解析是指从原始网页上解析出标题、作者、关键字、正文等元素。优先采用XPATH以及CSS选择器对网页元素解析并提取,对少量这两个提取器无法本文档来自技高网...
一种基于大数据的客户网络行为画像方法

【技术保护点】
一种基于大数据的客户网络行为画像方法,其特征在于,包括以下步骤:步骤一:客户关键词提取步骤1.1:根据客户浏览网页频度,初步筛选活跃客户为目标客户;步骤1.2:通过目标客户请求的URL提取网页的信息;步骤1.3:对提取的网页信息进行解析和正文分词;步骤1.4:计算客户关键词;步骤二:网络事件关键词提取步骤2.1:根据业务需求,筛选网络语料库种子URL;步骤2.2:爬取网络语料库种子URL以下各层级的网页数据;步骤2.3:对爬取的网页信息进行解析和正文分词;步骤2.4:计算网络事件关键词;步骤三:根据客户关键词和网络事件关键词,构建客户画像步骤3.1:对客户关键词和网络事件关键词进行相似度计算;步骤3.2:用网络事件关键词替换客户关键词,得到客户的网络事件标签;步骤3.3:构建客户画像。

【技术特征摘要】
1.一种基于大数据的客户网络行为画像方法,其特征在于,包括以下步骤:步骤一:客户关键词提取步骤1.1:根据客户浏览网页频度,初步筛选活跃客户为目标客户;步骤1.2:通过目标客户请求的URL提取网页的信息;步骤1.3:对提取的网页信息进行解析和正文分词;步骤1.4:计算客户关键词;步骤二:网络事件关键词提取步骤2.1:根据业务需求,筛选网络语料库种子URL;步骤2.2:爬取网络语料库种子URL以下各层级的网页数据;步骤2.3:对爬取的网页信息进行解析和正文分词;步骤2.4:计算网络事件关键词;步骤三:根据客户关键词和网络事件关键词,构建客户画像步骤3.1:对客户关键词和网络事件关键词进行相似度计算;步骤3.2:用网络事件关键词替换客户关键词,得到客户的网络事件标签;步骤3.3:构建客户画像。2.如权利要求1所述的基于大数据的客户网络行为画像方法,其特征在于,所述步骤1.1包括:根据客户质量和业务需求预设检测周期和点击量,根据客户在预设的检测周期内浏览网页的点击量是否超过预设点击量来确定客户是否为活跃客户。3.如权利要求1所述的基于大数据的客户网络行为画像方法,其特征在于,所述步骤1.2包括:对目标客户某时间段内浏览网页的日志信息进行清洗并抽取得到URL集合,再通过爬虫工具将URL对应的网页文本信息爬取到本地,并采用关系型数据库或NoSQL数据库对网页数据进行储存。4.如权利要求1所述的基于大数据的客户网络行为画像方法,其特征在于,所述步骤1.3中网页信息解析是采用正则表达式、XPATH以及CSS选择器对网页元素解析,并提取出标题、作者、关键字和正文元素,所述正文分词采用基于逆向隐马尔可夫模型的算法对网页正文部分进行分词。5.如权利要求1所述的基于大数据的客户网络行为画像方法,其特征在于,所述步骤...

【专利技术属性】
技术研发人员:程永新郭伟马彦平邓学梅
申请(专利权)人:上海新炬网络技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1