基于训练集的网页分类方法技术

技术编号:3793521 阅读:315 留言:0更新日期:2012-04-11 18:40
基于训练集网页自动分类方法,分类过程由特征选取,特征权值确定,文本向量比较等方法的结合。基于分类体系的自动分类法主要是根据事先建立好的类别模型即训练集,将待分类文档归入相应类别。随着多媒体技术的发展,网页信息的内容形式也丰富多彩,不仅包括文本信息,还包括很多的结构信息,以及声音、图形、图像等其他形式信息。但是,由于基于文本的网页仍然占有较大的比例,因此基于网页文本分类仍然占主导地位。本方法有可靠的理论支持、良好的可扩展性和准确性,且易于与运营商相关的应用接口对接。

【技术实现步骤摘要】

本专利技术是针对任意中文网页进行网页内容自动分类方法的研究,主要研究如何构建训 练集并利用向量比较法准确地对未知网页进行分类,设计了网页自动分类模型和算法,涉 及文档特征提取及特征权值计算等

技术介绍
随着互联网技术的飞速发展和普及,Web上的网页信息量迅猛地增加,人们已经步入 了一个信息丰富的时代。面对如此丰富的Web信息,人们往往感到无所适从,如何有效査找 到所需资源成为人们关注的问题。作为用户最常用的网上信息检索工具(如baidu和 google),关键词搜索引擎存在诸如查准率低、信息冗余大等缺点。由于中文网页自动分 类技术上的不成熟,大多数目录搜索引擎采用人工分类的方法,如YAHOO。虽然査准率有一 定的提高,却存在时效性差、分类结果不一致、数据库规模小等弊端,单纯的使用人工分 类代价昂贵而且是不现实的。因此,中文网页自动分类便成了快速且有效地组织网络上海 量信息的一个重要技术。针对未知的中文网页进行自动分类具备一定的难度,有如下原因 第一、 中文网页使用中文编辑,不像英语单词之间存在自然的间隔,中文需要进行分词的处理,而且分词的效果能够显著地影响分类效果。 第二、 网页格式的多样化。多种格式并存,而且同一格式的网页也存在多个标准,同时由于网页的写作风格及内容变化都很大,因此如何解析不同格式、不同风格的网页成为网页预处理的一个难点。 第三、 分类主题的模糊。互联网的知识系统发展异常迅猛,各种新的知识结构不断的涌现,如果训练语料库得不到及时更新,就会导致网页无法分类或者分类准确率大幅下降。第四、 网页去噪。网页中存在大量与页面主题无关的噪音信息,如何提高去噪算法的性能是有待研究的问题。第五、 网页结构信息。网页含有丰富的结构信息,除纯文本以外,还有其他一些内容对分类有贡献。如Head和Title标注网页的标题和段落子标题,meta标记中的 na鹏属性值和content属性值是对网页主题的描述,网页中的超链接指向的内 容有可能是与网页主题相关的内容,也有可能是噪声,如何区分和提取是难点所在。由上可见,中文网页的自动分类系统的设计和实现存在很多的问题和很大的难度,因 此我们对此进行了研究。
技术实现思路
技术问题本专利技术的目的是建立一种,即对未知分类网页 同训练集比较以得到该网页对应分类的方法,并设计网页的向量表示模型和向量的特征提取算法、距离向量比较算法,通过对网页分类确定可以对用户上网访问行为做更深入的分 析。技术方案本专利技术的包括3个部分,分别是网页内容处理、 网页向量表示和网页向量比较 网页内容处理部分Al.)根据网页URL自动获取到该网页源码内容,A2.)利用正则表达式过滤掉网页内容中的图片,超链接等噪音信息,提取出有效 的文本信息,A3.)将过滤后的网页文本,经分词处理,A4.)对分词后的文本进行过滤,将虚词,助词等词条过滤,留下能概括文本内容 的关键词; 网页向量表示部分-该部分又分为向量特征词维数约减,特征词特征值确定2个过程, 特征词维数约减Bl.)训练集中所有分词汇总,训练集在上一步操作后,提交过来的形 式是分好词的文本,文本按照不同分类分别存放在不同的文件夹中,按需要将所有文本通 过批处理进行汇总;这样就有了所有分类的关键词词条,B2.)词条长度筛选,将所有词条的长度限制到2到5之间,不在此长度范围内的 词条视为对分类作用不大甚至起干扰作用,将这些词条剔除,B3.)对词条唯一性做限定,将总词汇文本中的所有词条频数限制到一次,以提高 计算速度,和减少计算错误,B4.)分别计算每个词条在不同分类中出现的频数,然后将所有频数求和,特征项 选取算法结束,B5.)计算每对不同的词条类别之间四种关系频数,然后按照《2计算方法得到每 对词条的维数约减权值,B6.)将权值按降序排序,取前1000个词条作为特征项,完成特征项的确定; 特征词特征值确定 B7.)获取特征项,B8.)根据特征项的数量动态创建数据表, B9.)在训练集中计算包含特征项的文档数, B10.)统计总文本数量,总类别数量,各类所含文本数量, Bll.)计算特征项在每个文中的频数,并用矩阵形式处理, B12.)根据不同文本,计算特征项的特征值,完成文本的向量表示, B13.)向量表示算法结束; 网页向量比较部分Cl.)获取测试文本X的特征向量,C2.)从训练集中取出一个文本特征向量Ti,C3.)计算两个特征向量的相似度sim (X, Ti),C4.)判断是否同训练集中所有向量计算完毕,是则执行C5),否则跳到步骤C2)继续执行,C5.)将计算的相似度计算结果进行快速排序,取出相似度最高的K个文本, C6.)把这k个文本的相似度按类别累加, C7.)取相似度最大值Si以及对应的类别Ci, C8.)标识该文本可能属于Ci类, C9.)分类算法结束。有益效果,即对未知分类网页同训练集比较以得到该 网页对应分类的方法,并设计网页的向量表示模型和向量的特征提取算法、距离向量比较 算法,通过对网页分类确定可以对用户上网访问行为做更深入的分析。用户是网络的直接使用者,同时也是对网络服务质量好坏判断的最终审判者。传统的 网络服务在给用户带来巨大便捷的同时,也存在着不足,如不能对用户主动提供所需信息。 用户行为分析,可以把隐藏在用户行为之下的信息,如用户的兴趣爱好,用户的领域,用 户的访问频率等进行归纳总结,通过对用户行为的学习,使网络服务更加有针对性地面向 特定用户,优先或主动返回用户所需的基本信息。利用可以对用户浏览web记录进行分类分析,可获得用户 利用网络经常关注哪方面的信息,从事哪方面工作,和喜欢在哪些网站上进行消费活动等 用户行为信息。这对于提高网络服务质量,完善网络管理都是很重要的。传统的网页分类方法都是利用人工处理,这种方法准确率能够很好保证,而对于网页 数量过大的时候这种处理方法的低效率就会暴露出来,更无法达到实时的效果。而基于训 练集的网页分类方法能将分类过程自动化,且采用的方法在准确率上有一定保证。附图说明图1是网页分类功能图。图中给出了分类的各个处理过程。图2是网页向量的特征项确定方法流程图。图中给出了特征项确定方法的具体处理过程。图3是网页向量的特征项的特征值确定方法流程图。图中给出了特征项的特征值确定 方法的具体处理过程。图4是向量比较方法流程图。图中给出了向量比较方法的具体处理过程。具体实施例方式本专利技术提出了一种有效对网页自动分类的技术框架,并且详细设计了分类算法,如附图1所示。从图中可以看出,系统分为三个部分,分别是网页内容处理、网页向量表示 和网页向量比较。这里需要指出2个文本术语。训练集指大量已知分类的网页源码集合,源码用文本形 式存储,并按照对应文类分别存储在不同文件夹中,这些文本最终都经过处理转换成对应 向量的形式表示。特征提取是指网页向量的每一个元素的确定过程,其中元素是能体现网 页内容的关键词词条,元素的值为词条对分类重要性的权值计算结果。每一个网页都有自 己的向量表示。本专利技术的关键方法在向量表示部分和向量比较部分,向量表示部分主要包含两个方法网页向量的特征项确定方法和特征项的特征值确定方法;向量比较部分的主要方法是待测网页向量同训练集向量比较的方法。网页向量的特征项确定方法:特征选择的本文档来自技高网
...

【技术保护点】
一种基于训练集的网页分类方法,其特征在于该方法包括3个部分,分别是网页内容处理、网页向量表示和网页向量比较: 网页内容处理部分: A1.)根据网页URL自动获取到该网页源码内容, A2.)利用正则表达式过滤掉网页内容中的图 片,超链接等噪音信息,提取出有效的文本信息, A3.)将过滤后的网页文本,经分词处理, A4.)对分词后的文本进行过滤,将虚词,助词等词条过滤,留下能概括文本内容的关键词; 网页向量表示部分: 该部分又分为向量特征词 维数约减,特征词特征值确定2个过程,特征词维数约减: B1.)训练集中所有分词汇总,训练集在上一步操作后,提交过来的形式是分好词的文本,文本按照不同分类分别存放在不同的文件夹中,按需要将所有文本通过批处理进行汇总;这样就有了所有分类的 关键词词条, B2.)词条长度筛选,将所有词条的长度限制到2到5之间,不在此长度范围内的词条视为对分类作用不大甚至起干扰作用,将这些词条剔除, B3.)对词条唯一性做限定,将总词汇文本中的所有词条频数限制到一次,以提高计算速度, 和减少计算错误, B4.)分别计算每个词条在不同分类中出现的频数,然后将所有频数求和,特征项选取算法结束, B5.)计算每对不同的词条类别之间四种关系频数,然后按照χ↑[2]计算方法得到每对词条的维数约减权值, B6.)将 权值按降序排序,取前1000个词条作为特征项,完成特征项的确定;特征词特征值确定: B7.)获取特征项, B8.)根据特征项的数量动态创建数据表, B9.)在训练集中计算包含特征项的文档数, B10.)统计总文本数量 ,总类别数量,各类所含文本数量, B11.)计算特征项在每个文中的频数,并用矩阵形式处理, B12.)根据不同文本,计算特征项的特征值,完成文本的向量表示, B13.)向量表示算法结束; 网页向量比较部分 C1 .)获取测试文本X的特征向量, C2.)从训练集中取出一个文本特征向量Ti, C3.)计算两个特征向量的相似度sim(X,Ti), C4.)判断是否同训练集中所有向量计算完毕,是则执行(C5),否则跳到步骤C2)继续执行,  C5.)将计算的相似度计算结果进行快速排序,取出相似度最高的K个文本, C6.)把这k个文本的相似度按类别累加, C7.)取...

【技术特征摘要】

【专利技术属性】
技术研发人员:王攀张顺颐汤琛于伟涛
申请(专利权)人:南京邮电大学
类型:发明
国别省市:84[中国|南京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1