一种网络数据挖掘方法技术

技术编号：10914117 阅读：111 留言：0更新日期：2015-01-14 20:13

本发明专利技术提出了一种网络数据挖掘方法，对获取的网页信息进行文本分类和文本聚类，从而提取话题，具体包括以下步骤：S1、预设网络探针根据行业本体抓取网页信息；S2、对获得的网页信息进行文本提取；S3、预设分类器，将提取的文本进行文本分类，生成多个文本类系；S4、分别对每一个文本类系下的文本进行聚类，生成多个文本子类，每一个文本子类对应一个话题；S5、存储网页链接，并根据文本类系和文本子类建立索引。本发明专利技术提出的一种网络数据挖掘方法，可对重复信息进行合并。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术提出了，对获取的网页信息进行文本分类和文本聚类，从而提取话题，具体包括以下步骤：S1、预设网络探针根据行业本体抓取网页信息；S2、对获得的网页信息进行文本提取；S3、预设分类器，将提取的文本进行文本分类，生成多个文本类系；S4、分别对每一个文本类系下的文本进行聚类，生成多个文本子类，每一个文本子类对应一个话题；S5、存储网页链接，并根据文本类系和文本子类建立索引。本专利技术提出的，可对重复信息进行合并。【专利说明】
本专利技术涉及信息处理
，尤其涉及。
技术介绍
随着信息化程度不断加深，人们对情报信息化集成的渴求也日益强烈；互联网持续增长信息资源蕴含了巨量的具有价值的信息，成为重要的情报信息源头。不同的网站中存在着大量的重复信息，这些信息被搜索引擎反复的索引，因此在用户使用搜索引擎检索信息的时候就会发现有很多是来自不同网站的相同信息。对于用户来说相同的文章只检索出一篇就够了，但对于搜索引擎来说保存相同内容的网页，也会造成存储资源的浪费和检索时的低效率。
技术实现思路
基于
技术介绍
存在的技术问题，本专利技术提出了，可对重复信息进行合并。本专利技术提出的，对获取的网页信息进行文本分类和文本聚类，从而提取话题，具体包括以下步骤: S1、预设网络探针根据行业本体抓取网页信息； S2、对获得的网页信息进行文本提取； S3、预设分类器，将提取的文本进行文本分类，生成多个文本类系； S4、分别对每一个文本类系下的文本进行聚类，生成多个文本子类,每一个文本子类对应一个话题； S5、存储网...

【技术保护点】
一种网络数据挖掘方法，其特征在于，对获取的网页信息进行文本分类和文本聚类，从而提取话题，具体包括以下步骤：S1、预设网络探针根据行业本体抓取网页信息；S2、对获得的网页信息进行文本提取；S3、预设分类器，将提取的文本进行文本分类，生成多个文本类系；S4、分别对每一个文本类系下的文本进行聚类，生成多个文本子类，每一个文本子类对应一个话题；S5、存储网页链接，并根据文本类系和文本子类建立索引。

【技术特征摘要】

【专利技术属性】
技术研发人员：贾岩，
申请(专利权)人：安徽华贞信息科技有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人