一种对互联网用户访问的网页内容自动分类的方法技术

技术编号：11003462 阅读：152 留言：0更新日期：2015-02-05 03:40

一种对互联网用户访问的网页内容自动分类的方法，基于文本分类技术，依据支持向量机和决策森林技术，通过对有限的互联网用户访问的网页内容样本进行机器学习，然后由多个分类器构建一套决策系统，最后自适应获得新的网页样本，实现对新的网页样本的自动分类。本发明专利技术能较好地解决小样本、非线性转线性、数据稀疏、数据高维度、训练分类器时间长和局部极小点等实际问题，决策系统也解决了单个分类器带来的分类不准的问题，由于很多操作可以采用并行的MapReduce架构，所以大大减小了分类器的训练时间，分类过程也可以在毫秒级的时间对移动互联网的网页内容进行分析最后划分到预定义的类别中。

全部详细技术资料下载

【技术实现步骤摘要】
-种对互联网用户访问的网页内容自动分类的方法
本专利技术属于计算机
，涉及网络技术，为一种对互联网用户访问的网页内容自动分类的方法。
技术介绍
随着移动互联网信息的迅猛发展，面对上亿级的海量信息，人们已经不能简单地靠人工来处理所有的信息，需要辅助工具来帮助人们更好地发现、过滤和管理该些信息资源，海量信息的挖掘成为了科学技术发展和人类生活质量进一步提高的瓶颈，文本自动分类作为挖掘的基础也成为现代信息处理研究的一大研究热点。文本自动分类系统经历了H个里程碑阶段：阶段一；知识工程法。最初大多使用知识工程的方法建立自动分类系统，即利用专家规则来进行分类，该样需要花费大量的人力、物力制定规则，而且只能在有限的领域内发挥作用，对于上亿级的数据更是束手无策；阶段二；统计方法与机器学习相结合。九十年代W后，统计方法和机器学习的方法被引入到文本自动分类中，取得了丰硕的成果并逐渐取代了知识工程方法，但统计方法是从事物的外在数量上的表现去推断该事物可能的规律性，它主要考虑测试预想的假设和数据模型拟合，依赖于显式的基本概率模型。所W在实际问题中，样本数量往往是有限的，因此一些理论上很优秀的学习方法实际中表现却可能不尽人意，而且分类结果的准确率很低，原因在于机器学习方法较少考虑文本的语义信息。阶段H ;统计学习理论与机器学习相结合。传统统计学研究的是样本数目趋于无穷大时的渐近理论，现有学习方法也多是基于此假设，但与传统统计学相比，统计学习理论就是研究小样本统计估计和预测，建立在一套较坚实的理论基...
一种对互联网用户访问的网页内容自动分类的方法

【技术保护点】
一种对互联网用户访问的网页内容自动分类的方法，其特征是基于文本分类技术，依据支持向量机和决策森林技术，通过对有限的互联网用户访问的网页内容样本进行机器学习，然后由多个分类器构建一套决策系统，最后自适应获得新的网页样本，实现对新的网页样本的自动分类，包括以下步骤：1)训练网页文本分类器，构建分类模型，得到决策系统：首先从用户访问的网页内容中抽取训练样本集，用于训练网页文本分类器，训练样本集中，训练语料通过定向爬虫定向爬取获得，采用支持向量机对爬取的训练语料实施预处理，通过挑选最可能为支持向量的训练样本，或筛减最不可能为支持向量的训练样本，或所述两种方法同时采用，来实现训练样本集的减小，然后进行以下步骤训练网页文本分类器：11)抽取训练样本：采用聚类算法K‑MEANS，首先将训练语料按照互联网网页固有的类别划分成N个大类，设定K值和阈值，然后分别对每个大类进行聚类，类簇中心点和到中心点的距离小于阈值的样本点组成一个子类，得到K个子类，依次对N个大类进行聚类，一共聚出N*K个子类，然后从N*K个子类中每类随机抽取M篇作为训练语料；12)特征选择：网页文本分类器内的特征选择是指使用指定的词汇代...

【技术特征摘要】
1. 一种对互联网用户访问的网页内容自动分类的方法，其特征是基于文本分类技术，依据支持向量机和决策森林技术，通过对有限的互联网用户访问的网页内容样本进行机器学习，然后由多个分类器构建一套决策系统，最后自适应获得新的网页样本，实现对新的网页样本的自动分类，包括以下步骤： 1) 训练网页文本分类器，构建分类模型，得到决策系统：首先从用户访问的网页内容中抽取训练样本集，用于训练网页文本分类器，训练样本集中，训练语料通过定向爬虫定向爬取获得，采用支持向量机对爬取的训练语料实施预处理，通过挑选最可能为支持向量的训练样本，或筛减最不可能为支持向量的训练样本，或所述两种方法同时采用，来实现训练样本集的减小，然后进行以下步骤训练网页文本分类器： 11) 抽取训练样本：采用聚类算法K-MEANS，首先将训练语料按照互联网网页固有的类别划分成N个大类，设定K值和阈值，然后分别对每个大类进行聚类，类簇中心点和到中心点的距离小于阈值的样本点组成一个子类，得到K个子类，依次对N个大类进行聚类，一共聚出N*K个子类，然后从N*K个子类中每类随机抽取M篇作为训练语料； 12) 特征选择：网页文本分类器内的特征选择是指使用指定的词汇代表网页正文内容，特征词的衡量标准是看能够为分类系统带来多少信息，带来的信息越多，该特征越重要；使用特征词直接代表正文，降低处理数据量和空间维度，减少数据稀疏问题；特征选择的过程为：将样本的网页正文中每个词作为一个特征词候选，首先通过分词后的词性过滤和去停用词两种策略筛掉一部分的特征词候选；然后采用信息增益选择特征向量，对每个特征词候选计算信息增益公式为： IG (T) = Entropy (C)-Entropy(C|T) (1) 其中T表示特征词候选，C表示网页文本内容的类别； Entropy(C)表示包含所有特征词候选时的信息量； Entropy (C | T)表示特征词候选T已经完全确定时的...

【专利技术属性】
技术研发人员：孙洋，
申请(专利权)人：亚信科技南京有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人