一种基于文本分类技术的信息处理方法技术

技术编号：14015992 阅读：71 留言：0更新日期：2016-11-18 01:03

本发明专利技术公开了一种基于文本分类技术的信息处理方法，采用HTML文本标记加权方案对文本进行预处理，在对 HTML 文档进行扫描处理前，首先需要对 HTML 标记进行正确的识别和处理，并根据 HTML 标记对网页不同部分的文本进行加权处理，可以保留标题、页面描述、关键词和超链接等描述信息，从而提高分类效果，建立符号字典过滤非汉字字符，从而降低了初始文本向量的维度，提高了文本向量中的特征信息含量，去除停用词，可以提高后期对文本过滤的准确率和速率，该信息处理方法操作简单、实用性强，能够提高后期信息过滤的准确性和效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于网络方法领域，更具体地说，本专利技术涉及一种基于文本分类技术的信息处理方法。
技术介绍
目前，网络信息呈现出数量巨大、内容广泛、形式多样等特点，就我国而言，相关调查报告显示到 2005 年底全国网页总数为 1.87 亿，包含科技、新闻、教育、商务、娱乐等诸多方面的内容。如此大量的信息给人们的生活带来了极大便利的同时，也存在着一些日益突出的问题：一是大量的信息资源给检索带来困难，基于关键字的检索结果会有很多不相关的文档；二是网络安全的问题；如何在这些大量、异质的海量信息资源中，快速有效的发掘具有巨大潜在价值的有用知识和信息；如何合理分类及准确地定位所需信息，同时处理大量无用的或不相关的内容，已成为知识获取和信息过滤的瓶颈以及当今网络安全技术中的一大热门课题。
技术实现思路
本专利技术所要解决的问题是提供一种基于文本分类技术的信息处理方法。为了实现上述目的，本专利技术采取的技术方案为：一种基于文本分类技术的信息处理方法，包括如下步骤：（1）文本预处理对含有无关文本信息和错误文本信息进行过滤。无关文本信息的处理主要是删除描述网页信息的标签、脚本及非文本对象等。对于错误信息本文主要针对将汉字拆分成偏旁部首的错误信息；（2）分词处理利用中文自动分词系统对经过预处理后的文本进行分词处理，所述中文自动分词系为汉语词法分析系统 ICTCLAS；（3）停用词处理将在所有类别文本中都通用的功能词和针对用户感兴趣的某类别敏感信息提取的两类词去除；（4）加权文本进行预处理后，被表示为词的集合，在该模块中利用加权函数对词集中的词加权，生成特征向量模型；（5）文本特征的提...

【技术保护点】
一种基于文本分类技术的信息处理方法，其特征在于，包括如下步骤：（1）文本预处理对含有无关文本信息和错误文本信息进行过滤，无关文本信息的处理主要是删除描述网页信息的标签、脚本及非文本对象等，对于错误信息本文主要针对将汉字拆分成偏旁部首的错误信息；（2）分词处理利用中文自动分词系统对经过预处理后的文本进行分词处理，所述中文自动分词系为汉语词法分析系统 ICTCLAS；（3）停用词处理将在所有类别文本中都通用的功能词和针对用户感兴趣的某类别敏感信息提取的两类词去除；（4）加权文本进行预处理后，被表示为词的集合，在该模块中利用加权函数对词集中的词加权，生成特征向量模型；（5）文本特征的提取文本被表示为向量空间模型后，在该模块中引入属性因子的概念，将文本的统计特征和简单的知识特征结合，提取出文本的整体特征。

【技术特征摘要】
1.一种基于文本分类技术的信息处理方法，其特征在于，包括如下步骤：（1）文本预处理对含有无关文本信息和错误文本信息进行过滤，无关文本信息的处理主要是删除描述网页信息的标签、脚本及非文本对象等，对于错误信息本文主要针对将汉字拆分成偏旁部首的错误信息；（2）分词处理利用中文自动分词系统对经过预处理后的文本进行分词处理，所述中文自动分词系为汉语词法分析系统 ICTCLAS；（3）停用词处理将在所有类别文本中都通用的功能词和针对用户感兴趣的某类别敏感信息提取的两类词去除；（4）加权文本进行预处理后，被表示为词的集合，在该模块中利用加权函数对词集中的词加权，生成特征向量模型；（5）文本特征的提取文本被表示为向量空间模型后，在该模块中引入属性因子的概念，将文本的统计特征和简单的知识特征结合，提取出文本的整体特征。2.按照权利要求1所述的一种基于文本分类技术的信息处理方法，其特征在于：所述步骤（1）采用HTML文本标记加权方案对文本进行预处理。3.按照权利要求2所述的一种基于文本分类技术的信息处理方法，其特征在于：所述步骤（1）在对 HTML 文档进行扫描处理前，首先需要对 HTML 标记进行正确的识别和处理，并根据 HTML...

【专利技术属性】
技术研发人员：董雄飞，
申请(专利权)人：合肥酷睿网络科技有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人