基于中文网页自动分类技术的Web用户行为分析方法技术

技术编号:7249844 阅读:154 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种基于中文网页自动分类技术的web用户行为分析方法,采用朴素贝叶斯分类方法,使用类别概率和特征项的联合分布概率自动推理出web用户所浏览的网页的类别,在网页分类的基础上对web用户的上网习惯进行分析,得出用户行为分析结果。本发明专利技术的关键技术是构造了一个动态的训练集,能够根据分类准确度指标自动更新,使得训练集更加具有时效性和代表性。本方法一共分为四个模块:数据处理模块、特征提取模块、网页分类模块和用户行为分析模块。数据处理模块主要是获取用户的基本信息和用户所浏览的网页的源码,并从源码中提取出中文部分。特征提取模块主要筛选出能描述网页类别特征的特征项,最后表示成向量形式。

【技术实现步骤摘要】

本专利技术提供了一种基于中文网页自动分类技术的web用户行为分析方法,采用朴素贝叶斯分类方法,使用类别概率和特征项的联合分布概率自动推理出web用户所浏览的网页的类别,在网页分类的基础上对web用户的上网习惯进行分析,得出用户行为分析结果。本专利技术的关键技术是构造了一个动态的训练集,能够根据分类准确度指标自动更新,使得训练集更加具有时效性和代表性。本方法涉及人工智能、用户行为分析、网页分类、网络管理等领域。
技术介绍
Internet的迅猛发展带来了用户数的剧增,用户对网络的要求也越来越高。分析用户的群体构成及其习惯爱好,向用户提供更具个性化的服务,已经成为一个重要的研究方向。而随着业务的多元化,对hternet及其用户行为的研究,也是网络的规划、设计和管理的重要依据。在采集用于分析用户行为的数据时,我们可以获得用户所访问的站点的URL,但是并不清楚这些URL属于什么类别,因此需要将URL和具体语意(如体育/财经/军事等) 对应起来。建立一个完整、准确、动态的网页自动分类系统,就可以通过URL得到其所属类别。在已知访问站点类别的基础上,可以对Web业务进行深度分析,挖掘用户的网络行为, 获知用户的行为习惯和喜好趋向,从而为提供个性化的服务提供依据。
技术实现思路
技术问题本专利技术提供了一种基于中文网页自动分类技术的web用户行为分析方法,采用朴素贝叶斯分类方法,使用类别概率和特征项的联合分布概率自动推理出web用户所浏览的网页的类别,在网页分类的基础上对web用户的上网习惯进行分析,得出用户行为分析结果。本专利技术的关键技术是构造了动态的训练集,设置一个评价分类准确度的指标和阈值,每次分类完成后计算该分类结果的准备度指标,如果分类结果的准确度指标大于阈值,则自动更新训练集,将待测网页的网页向量加到训练集的相关类别中。与以往的静态训练集相比,动态训练集更加具有时效性和代表性,能使得分类结果更加准确。技术方案本专利技术提出一种基于中文网页自动分类技术的web用户行为分析方法,其具体的实现步骤如下(1)数据采集。根据需求采集信息,主要是采集Web用户的基本信息和提取用户所浏览网页的URL。(2)网页源码提取。根据URL获取网页的源代码,并且除去Html标记、文本、图像、 客户脚本等信息,只留下纯净的中文文本。(3)分词。采用最大双向匹配法,通过与中文词典的词条匹配,将中文Web文本的内容切分成若干词条组成的集合。(4)筛选关键词。筛选关键词分为关键词条长度筛选和去除重复关键词两个步骤。 首先,将词条的范围限制到2到4之间,不在此范围内的词条对分类作用不大甚至起干扰作用,将这些词条剔除。然后,对每个文本中重复出现的词条只记录一次,并记录与之相关的词频,可以提高计算速度,减少计算错误。(5)确定特征项。网页中的中文关键词同类别之间满足X2分布,所以采用X2统计方法来确定特征项。先计算关键词在各类别中的频数,然后通过X2统计公式来计算统计量, 最后选择统计量较大的前1000个关键词作为特征项。(6)网页向量表示。记录所选定的特征项和与之相关的词频,并用向量的形式表示。网页向量的元素是特征项,元素值是本网页文本中特征项的词频。(7)用朴素贝叶斯分类方法进行网页分类。将类别概率作为先验概率,特征项的联合分布概率作为条件概率,根据贝叶斯理定理可求出后验概率。选择后验概率最大的类别作为待测网页的类别。(8)更新训练集。设置一个评价分类结果准确率的量度指标和阈值,每次分类完成后计算该分类结果的准备度指标,如果分类结果的准确度指标大于阈值,则更新训练集,将待测网页的网页向量加到训练集的相关类别中。否则,保持原有的训练集不变。(9) Web用户行为分析。组合不同的查询条件,结合用户基本信息和所浏览的网页的类别信息,可得出不同条件下用户浏览不同类型的Web网页的分布情况,根据这些信息可得出Web用户的行为习惯和爱好趋向,有助于提供更加个性化的服务。有益效果通过基于中文网页自动分类技术的web用户行为分析方法,我们能够实现(1)能够根据分类准确度指标自动更新训练集,相较于以往的静态训练集,动态训练集更加具有时效性和代表性。(2)在训练集实时更新的基础上,采用朴素贝叶斯分类方法对网页自动分类,其分类结果比较准确。(3)基于网页分类结果,结合用户的基本信息,能对Web用户的行为进行更深层次的挖掘分析,使得分析结果更加接近用户的行为习惯和爱好趋向。附图说明图1是本专利技术的模块框架图。 具体实施例方式下面结合附图对专利技术的技术方案进行详细说明本专利技术提供了一种,采用朴素贝叶斯分类方法,使用类别概率和特征项的联合分布概率自动推理出Web用户所浏览的网页的类别,在网页分类的基础上对web用户的上网习惯进行分析,得出用户行为分析结果。其具体步骤如下(1)数据采集。根据需求采集信息,主要是采集Web用户的基本信息和提取用户所浏览网页的URL。用户基本信息包括用户的IP地址、归属地、浏览网页的时间、接收的IP 包字节数、发送的IP包字节数、接收的IP包数、发送的IP包数。(2)网页源码提取。提取网页源码是通过Web URL来找到Web文本,读取Web文本的内容。Web文本包含了大量的Html标记、文本、图像、客户脚本,在提取网页源代码的同时应对Web文本进行预处理,除掉的Html标记、图像、客户脚本,最后只留下纯净的中文文本fn息ο(3)分词。由于汉语语言文字的词与词之间是没有显示的分隔标记的,必须要将语流中的各个词条分离出来,在中文词典的支持下将中文Web文本的内容切分成若干词条组成的向量,通过与中文词典中的词条匹配来分词。其主要思想如下1)预分词。利用标点、数字、英文等非汉字符号将句子切分成多个汉字串;2)采用正向最大匹配(MM)和逆向最大匹配方法(RMM)相结合的双向最大匹配方法作为基本分词方法。双向均采用增字最大匹配,从句子头部上一切分点开始逐步向后增字,直至待切分的汉字序列为空。该次切分的结果是得到成功匹配的最大字串。双向最大匹配方法的步骤如下①取句子的当前汉字序列中的前6个汉字作为匹配字段,查找词典,若词典中有这样的一个词条,则匹配成功,匹配字段作为一个词从当前汉字序列中被切分出来,放入词条集中,继续执行步骤①,否则执行步骤②;②去掉该匹配字段尾部一个汉字后作为新的匹配字段,再与词典中的词条进行匹配,若匹配成功,则新的匹配字段作为一个词从当前汉字序列中切分出来放入词条集中,否则继续执行步骤②。若对最后一个汉字查找词典都匹配不成功,则将该汉字从当前字符序列中切分出来放入词条集中;③若文本的当前汉字序列不为空,则转步骤①,否则结束。(4)筛选关键词。去掉长度不符和重复出现的词条。其具体步骤如下①词条长度筛选,将所有词条的长度限制到2到4之间,不在此长度范围内的词条被认为对分类作用不大甚至起干扰作用,将这些词条剔除;②对词条唯一性做限定,对每个文本中重复出现的词条只记录一次,并记录与之相关的词频。将总词汇文本中的所有词条频数限制到一次,以提高计算速度,减少计算错误。(5)确定特征项。网页中的中文关键词同类别之间满足X2分布,所以采用X2统计方法来确定特征项。这一统计量值越高,关键词同类别之间的独立性越小,相关性越强,即关键词对该类别的作用越大。χ2统计本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:孙建张梅琴张顺颐王攀
申请(专利权)人:江苏欣网视讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术