中文文本自动分类用的特征降维方法技术

技术编号：2932602 阅读：271 留言：0更新日期：2012-04-11 18:40

中文文本自动分类用的特征降维方法属于中文文本自动分类领域，其特征在于：首先选用一种特征选择方法对原始特征集进行降维，得到中间特征集；再对中间特征集进行分析，找出“高度重叠二元串”和“高度偏差二元串”；把高度重叠二元串合并为对应的三元串，把高度偏差二元串删除，得到最后用于机器学习的学习特征集；再由此得到分类器，供分类阶段使用。它充分利用语言本身的特点，在中间特征集的基础上大幅度降维，以保证所选择的特征具有较好的分类能力和描述能力，克服了单一采用统计量进行特征选择的不足。

全部详细技术资料下载

【技术实现步骤摘要】

属于中文文本自动分类
，尤其涉及各种基于汉字串作为特征的中文文本自动分类

技术介绍
计算机网络和电子技术的发展，彻底改变了人们的工作、生活和获取信息的方式。人类的绝大部分信息已经放在网上。现在的问题是如果有效地组织和管理这些海量的信息，如何使用户方便有效地访问到想要的信息。文本自动分类(TC)技术为解决这些问题提供了一个有效的途径。它以计算机作为工具，应用机器学习技术，使计算机能够对自然语言电子文本按照预定的类型集合进行自动分类。从二十世纪八十年代末九十年代初开始，基于统计的机器学习方法被引入到文本自动分类中，提出了许多具有实用价值的分类器和分类模型。例如基于概率模型(ProbabilisticModel)的贝叶斯分类器(Bayesian Classifier)，基于规则(Rule)的决策树/决策规则(DecisionTree/Decision Rule Classifier)分类器，基于类描述的线性分类器(Profile-Based LinearClassifier)，基于人类分类经验的K最近邻分类器(K-Nearest Neighbor)，基于最优超平面的支持向量机(Support Vector Machine，简称SVM)，通过对多个分类方法进行组合的分类器委员会(Classifier Committee)等。为了使计算机能够识别自然语言文本，需要先对文本进行描述。向量空间模型(VectorSpace Model，简称VSM)是被广泛采用的方法。它将文本描述为向量。向量的元素为文本中出现的特征(例如字、字串、词等)。所有潜在的文本...

【技术保护点】
中文文本自动分类用的特征降维方法，其特征在于，它以计算机作为工具，依次执行以下步骤：在学习阶段，含有以下步骤：（１）．初始化输入大小为Ｎ的学习文本集Ｄ，Ｍ为Ｄ的类型数（ｊ＝１，…，Ｍ）；采用特征频度作为统计量，输入低频噪声二元串的阈值；　采用Ｃｈｉ特征选择方法，输入二元串的权值阈值；输入δ、σ和ｋ值，其定义及实值范围见下面所述；（２）．用公知方法对学习文本集Ｄ进行预处理；（３）．对学习文本集Ｄ分别进行一元、二元、三元串标引，得到一元串原始特征集、二元串原始特征集和三元串原始特征集；根据二元串原始特征集生成各个学习文本ｄ的特征频度向量，它用ｄ表示为：ｄ＝（ｔｆ（Ｔ↓［１ｄ］），ｔｆ（Ｔ↓［２ｄ］），…，ｔｆ（Ｔ↓［ｎｄ］））ｎ为二元串原始特征集包含的特征总数，ｔｆ（Ｔ↓［ｉｄ］）为第ｉ个二元串特征在文本ｄ中的特征频度值（ｉ＝１，…，ｎ）；（４）．对上述二元串原始特征集进行降维，得到二元串中间特征集：（４．１）．根据特征频度值，去掉频度小于设定频度阈值的低频噪声二元串；　（４．２）．根据Ｃｈｉ特征选择方法，去掉权值小于设定的权值阈值的二元串；特征Ｔ↓［ｋ］在Ｃ↓［ｊ］类中的Ｃｈｉ权值为：＊...

【技术特征摘要】

【专利技术属性】
技术研发人员：孙茂松，薛德军，
申请(专利权)人：清华大学，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人