一种对互联网用户访问的网页内容自动分类的方法技术

技术编号:11003462 阅读:152 留言:0更新日期:2015-02-05 03:40
一种对互联网用户访问的网页内容自动分类的方法,基于文本分类技术,依据支持向量机和决策森林技术,通过对有限的互联网用户访问的网页内容样本进行机器学习,然后由多个分类器构建一套决策系统,最后自适应获得新的网页样本,实现对新的网页样本的自动分类。本发明专利技术能较好地解决小样本、非线性转线性、数据稀疏、数据高维度、训练分类器时间长和局部极小点等实际问题,决策系统也解决了单个分类器带来的分类不准的问题,由于很多操作可以采用并行的MapReduce架构,所以大大减小了分类器的训练时间,分类过程也可以在毫秒级的时间对移动互联网的网页内容进行分析最后划分到预定义的类别中。

【技术实现步骤摘要】
-种对互联网用户访问的网页内容自动分类的方法
本专利技术属于计算机
,涉及网络技术,为一种对互联网用户访问的网页内 容自动分类的方法。
技术介绍
随着移动互联网信息的迅猛发展,面对上亿级的海量信息,人们已经不能简单地 靠人工来处理所有的信息,需要辅助工具来帮助人们更好地发现、过滤和管理该些信息资 源,海量信息的挖掘成为了科学技术发展和人类生活质量进一步提高的瓶颈,文本自动分 类作为挖掘的基础也成为现代信息处理研究的一大研究热点。 文本自动分类系统经历了H个里程碑阶段: 阶段一;知识工程法。最初大多使用知识工程的方法建立自动分类系统,即利用专 家规则来进行分类,该样需要花费大量的人力、物力制定规则,而且只能在有限的领域内发 挥作用,对于上亿级的数据更是束手无策; 阶段二;统计方法与机器学习相结合。九十年代W后,统计方法和机器学习的方 法被引入到文本自动分类中,取得了丰硕的成果并逐渐取代了知识工程方法,但统计方法 是从事物的外在数量上的表现去推断该事物可能的规律性,它主要考虑测试预想的假设和 数据模型拟合,依赖于显式的基本概率模型。所W在实际问题中,样本数量往往是有限的, 因此一些理论上很优秀的学习方法实际中表现却可能不尽人意,而且分类结果的准确率很 低,原因在于机器学习方法较少考虑文本的语义信息。 阶段H ;统计学习理论与机器学习相结合。传统统计学研究的是样本数目趋于无 穷大时的渐近理论,现有学习方法也多是基于此假设,但与传统统计学相比,统计学习理论 就是研究小样本统计估计和预测,建立在一套较坚实的理论基础之上,为解决有限样本学 习问题提供了一个框架。统计学习理论主要包括四个方面;(1)经验风险最小化准则下统 计学习一致性的条件;(2)学习过程收敛速度的理论;(3)学习过程泛化能力的理论,即建 立的小样本归纳推理准则;(4)实现新的准则的实际方法(算法)。 针对目前移动互联网的大数据,人为的干预已经不能满足要求,如何能够获得一 套既解放人力又能够分类准确的文本分类系统,为W后对用户上网浏览网页打上准确的类 别标签,该样对W后分析用户的行为,挖掘用户潜在价值等提供巧实的基础。目前有很多的 文本分类器应用到文本当中,但是对于大规模的网页文本分类过程中存在分类规模小、文 本数据稀疏、数据维度高无法解决的、分类器运行一段时间后分类效果差的缺陷。
技术实现思路
本专利技术要解决的技术问题是:随着互联网技术的发展,现有的文本自动分类系统 对于大规模的网页文本分类过程中存在分类规模小、文本数据稀疏、数据维度高无法解决 的、分类器运行一段时间后分类效果差的缺陷。 本专利技术的技术方案为:,基于 文本分类技术,依据支持向量机和决策森林技术,通过对有限的互联网用户访问的网页内 容样本进行机器学习,然后由多个分类器构建一套决策系统,最后自适应获得新的网页样 本,实现对新的网页样本的自动分类,包括W下步骤: 1)训练网页文本分类器,构建分类模型,得到决策系统:首先从用户访问的网页 内容中抽取训练样本集,用于训练网页文本分类器,训练样本集中,训练语料通过定向爬虫 定向爬取获得,采用支持向量机对爬取的训练语料实施预处理,通过挑选最可能为支持向 量的训练样本,或筛减最不可能为支持向量的训练样本,或所述两种方法同时采用,来实现 训练样本集的减小,然后进行W下步骤训练网页文本分类器: 11)抽取训练样本: 采用聚类算法K-MEANS,首先将训练语料按照互联网网页固有的类别划分成N个 大类,设定K值和阔值,然后分别对每个大类进行聚类,类簇中也点和到中也点的距离小于 阔值的样本点组成一个子类,得到K个子类,依次对N个大类进行聚类,一共聚出N*K个子 类,然后从N*K个子类中每类随机抽取M篇作为训练语料; [001引特征选择: 网页文本分类器内的特征选择是指使用指定的词汇代表网页正文内容,特征词的 衡量标准是看能够为分类系统带来多少信息,带来的信息越多,该特征越重要;使用特征词 直接代表正文,降低处理数据量和空间维度,减少数据稀疏问题;特征选择的过程为:将样 本的网页正文中每个词作为一个特征词候选,首先通过分词后的词性过滤和去停用词两种 策略筛掉一部分的特征词候选;然后采用信息增益选择特征向量,对每个特征词候选计算 信息增益公式为: IG (T) = Elntropy (C)-Entropy (CI T) (1) 其中T表示特征词候选,C表示网页文本内容的类别; 化tropy (C)表示包含所有特征词候选时的信息量; 化tropy(ClT)表示特征词候选T已经完全确定时的信息量,其中包含两种情况: 一种是特征词候选T出现标记为t,一种是特征词候选T不出现标记为t',所W E:nt;rop5f(C I T) = P (T化 ntrop5f(C 11)+P 订'化 ntrop5f(C 11'); (2) 其中化tropy 0是信息赌公式;求得化tropy (CI T)和化tropy (C),最后得到每个 特征词候选的信息增益IG (T),对所有特征词候选按照信息增益值进行由大到小排序,取前 3000维构成一个特征词库;将所有训练样本中的网页正文使用特征词库表示后,进行文本 分类器的训练; [002。 蝴使用支持向量机训练文本分类器,构建决策系统,决策系统包括由不同训练样 本集训练得到的多个文本分类器; 2)对未知网页正文进行分类;首先将分类器训练出的决策系统读入到分类系统 中,然后进行W下步骤: 21)首先经过Nutch适配器,Nutch适配器包括模板抽取、最大正文抽取和PDF抽 取手段,根据网页的结构来自动选择适合的方法,然后抽取出网页正文; 22)对抽取出的正文,进行文本分词,表示为词汇空间; 23)通过文本分类器训练过程构建的特征词库来过滤词汇空间的特征词,通过词 汇空间将未知网页的网页正文映射到特征词库构成的特征向量空间中; 24)经过决策系统内的多个文本分类器对步骤23)得到的数据进行分类,按照决 策森林的方法投票表决网页正文最终的分类结果。 进一步的,定时自适应获得新样本,训练增强文本分类器: 如果某个网页样本点已经被准确地分类,那么在选入样本训练集中的概率就被降 低或者不变;相反,如果某个网页样本点没有被准确地分类,那么它被选中的概率被提高; 将文本分类器分类错误的或者分类模糊的网页文本作为新样本,加入原有训练样本集,得 到新的训练样本集,当新的训练样本集达到设定的规模,自动重新依据步骤1)训练网页文 本分类器。 对于移动互联网该个大数据平台来说,选择支持向量机(SVM)的模型理论无疑是 一个非常好的文本分类方式,从算法本身已体现了它独特的优点,只需要确立最优的分类 间隔,而最终的支持向量是两类样本中离分类面最近且平行于最优分类超平面的样本点, 所W在文本分类过程中只是与支持向量做计算,所W计算过程会非常快。 但是支持向量机虽然分类过程很快,但是使用网页文本内容作为样本训练过程却 出现时间和空间复杂度比较高,所W本专利技术在网页样本和空间维度上着手做改进。样本上 选取训练网页样本集的时本文档来自技高网
...
一种对互联网用户访问的网页内容自动分类的方法

【技术保护点】
一种对互联网用户访问的网页内容自动分类的方法,其特征是基于文本分类技术,依据支持向量机和决策森林技术,通过对有限的互联网用户访问的网页内容样本进行机器学习,然后由多个分类器构建一套决策系统,最后自适应获得新的网页样本,实现对新的网页样本的自动分类,包括以下步骤:1)训练网页文本分类器,构建分类模型,得到决策系统:首先从用户访问的网页内容中抽取训练样本集,用于训练网页文本分类器,训练样本集中,训练语料通过定向爬虫定向爬取获得,采用支持向量机对爬取的训练语料实施预处理,通过挑选最可能为支持向量的训练样本,或筛减最不可能为支持向量的训练样本,或所述两种方法同时采用,来实现训练样本集的减小,然后进行以下步骤训练网页文本分类器:11)抽取训练样本:采用聚类算法K‑MEANS,首先将训练语料按照互联网网页固有的类别划分成N个大类,设定K值和阈值,然后分别对每个大类进行聚类,类簇中心点和到中心点的距离小于阈值的样本点组成一个子类,得到K个子类,依次对N个大类进行聚类,一共聚出N*K个子类,然后从N*K个子类中每类随机抽取M篇作为训练语料;12)特征选择:网页文本分类器内的特征选择是指使用指定的词汇代表网页正文内容,特征词的衡量标准是看能够为分类系统带来多少信息,带来的信息越多,该特征越重要;使用特征词直接代表正文,降低处理数据量和空间维度,减少数据稀疏问题;特征选择的过程为:将样本的网页正文中每个词作为一个特征词候选,首先通过分词后的词性过滤和去停用词两种策略筛掉一部分的特征词候选;然后采用信息增益选择特征向量,对每个特征词候选计算信息增益公式为:IG(T)=Entropy(C)‑Entropy(C|T)             (1)其中T表示特征词候选,C表示网页文本内容的类别;Entropy(C)表示包含所有特征词候选时的信息量;Entropy(C|T)表示特征词候选T已经完全确定时的信息量,其中包含两种情况:一种是特征词候选T出现标记为t,一种是特征词候选T不出现标记为t',所以Entropy(C|T)=P(T)Entropy(C|t)+P(T')Entropy(C|t');       (2)其中Entropy()是信息熵公式;求得Entropy(C|T)和Entropy(C),最后得到每个特征词候选的信息增益IG(T),对所有特征词候选按照信息增益值进行由大到小排序,取前3000维构成一个特征词库;将所有训练样本中的网页正文使用特征词库表示后,进行文本分类器的训练;13)使用支持向量机训练文本分类器,构建决策系统,决策系统包括由不同训练样本集训练得到的多个文本分类器;2)对未知网页正文进行分类:首先将分类器训练出的决策系统读入到分类系统中,然后进行以下步骤:21)首先经过Nutch适配器,Nutch适配器包括模板抽取、最大正文抽取和PDF抽取手段,根据网页的结构来自动选择适合的方法,然后抽取出网页正文;22)对抽取出的正文,进行文本分词,表示为词汇空间;23)通过文本分类器训练过程构建的特征词库来过滤词汇空间的特征词,通过词汇空间将未知网页的网页正文映射到特征词库构成的特征向量空间中;24)经过决策系统内的多个文本分类器对步骤23)得到的数据进行分类,按照决策森林的方法投票表决网页正文最终的分类结果。...

【技术特征摘要】
1. 一种对互联网用户访问的网页内容自动分类的方法,其特征是基于文本分类技术, 依据支持向量机和决策森林技术,通过对有限的互联网用户访问的网页内容样本进行机器 学习,然后由多个分类器构建一套决策系统,最后自适应获得新的网页样本,实现对新的网 页样本的自动分类,包括以下步骤: 1) 训练网页文本分类器,构建分类模型,得到决策系统:首先从用户访问的网页内容 中抽取训练样本集,用于训练网页文本分类器,训练样本集中,训练语料通过定向爬虫定向 爬取获得,采用支持向量机对爬取的训练语料实施预处理,通过挑选最可能为支持向量的 训练样本,或筛减最不可能为支持向量的训练样本,或所述两种方法同时采用,来实现训练 样本集的减小,然后进行以下步骤训练网页文本分类器: 11) 抽取训练样本: 采用聚类算法K-MEANS,首先将训练语料按照互联网网页固有的类别划分成N个大类, 设定K值和阈值,然后分别对每个大类进行聚类,类簇中心点和到中心点的距离小于阈值 的样本点组成一个子类,得到K个子类,依次对N个大类进行聚类,一共聚出N*K个子类,然 后从N*K个子类中每类随机抽取M篇作为训练语料; 12) 特征选择: 网页文本分类器内的特征选择是指使用指定的词汇代表网页正文内容,特征词的衡量 标准是看能够为分类系统带来多少信息,带来的信息越多,该特征越重要;使用特征词直接 代表正文,降低处理数据量和空间维度,减少数据稀疏问题;特征选择的过程为:将样本的 网页正文中每个词作为一个特征词候选,首先通过分词后的词性过滤和去停用词两种策略 筛掉一部分的特征词候选;然后采用信息增益选择特征向量,对每个特征词候选计算信息 增益公式为: IG (T) = Entropy (C)-Entropy(C|T) (1) 其中T表示特征词候选,C表示网页文本内容的类别; Entropy(C)表示包含所有特征词候选时的信息量; Entropy (C | T)表示特征词候选T已经完全确定时的...

【专利技术属性】
技术研发人员:孙洋
申请(专利权)人:亚信科技南京有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1