基于中文网页自动分类技术的Web用户行为分析方法技术

技术编号：7249844 阅读：154 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供了一种基于中文网页自动分类技术的web用户行为分析方法，采用朴素贝叶斯分类方法，使用类别概率和特征项的联合分布概率自动推理出web用户所浏览的网页的类别，在网页分类的基础上对web用户的上网习惯进行分析，得出用户行为分析结果。本发明专利技术的关键技术是构造了一个动态的训练集，能够根据分类准确度指标自动更新，使得训练集更加具有时效性和代表性。本方法一共分为四个模块：数据处理模块、特征提取模块、网页分类模块和用户行为分析模块。数据处理模块主要是获取用户的基本信息和用户所浏览的网页的源码，并从源码中提取出中文部分。特征提取模块主要筛选出能描述网页类别特征的特征项，最后表示成向量形式。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术提供了一种基于中文网页自动分类技术的web用户行为分析方法，采用朴素贝叶斯分类方法，使用类别概率和特征项的联合分布概率自动推理出web用户所浏览的网页的类别，在网页分类的基础上对web用户的上网习惯进行分析，得出用户行为分析结果。本专利技术的关键技术是构造了一个动态的训练集，能够根据分类准确度指标自动更新，使得训练集更加具有时效性和代表性。本方法涉及人工智能、用户行为分析、网页分类、网络管理等领域。
技术介绍
Internet的迅猛发展带来了用户数的剧增，用户对网络的要求也越来越高。分析用户的群体构成及其习惯爱好，向用户提供更具个性化的服务，已经成为一个重要的研究方向。而随着业务的多元化，对hternet及其用户行为的研究，也是网络的规划、设计和管理的重要依据。在采集用于分析用户行为的数据时，我们可以获得用户所访问的站点的URL，但是并不清楚这些URL属于什么类别，因此需要将URL和具体语意(如体育/财经/军事等) 对应起来。建立一个完整、准确、动态的网页自动分类系统，就可以通过URL得到其所属类别。在已知访问站点类别的基础上，可以对Web业务进行深度分析，挖掘用户的网络行为，获知用户的行为习惯和喜好趋向，从而为提供个性化的服务提供依据。
技术实现思路
技术问题本专利技术提供了一种基于中文网页自动分类技术的web用户行为分析方法，采用朴素贝叶斯分类方法，使用类别概率和特征项的联合分布概率自动推理出web用户所浏览的网页的类别，在网页分类的基础上对web用户的上网习惯进行分析，得出用户行为分析结果。本专利技术的关键技术是构造了动态的训练集，设置一个...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：孙建，张梅琴，张顺颐，王攀，
申请(专利权)人：江苏欣网视讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人