当前位置: 首页 > 专利查询>清华大学专利>正文

中文文本自动分类用的特征降维方法技术

技术编号:2932602 阅读:271 留言:0更新日期:2012-04-11 18:40
中文文本自动分类用的特征降维方法属于中文文本自动分类领域,其特征在于:首先选用一种特征选择方法对原始特征集进行降维,得到中间特征集;再对中间特征集进行分析,找出“高度重叠二元串”和“高度偏差二元串”;把高度重叠二元串合并为对应的三元串,把高度偏差二元串删除,得到最后用于机器学习的学习特征集;再由此得到分类器,供分类阶段使用。它充分利用语言本身的特点,在中间特征集的基础上大幅度降维,以保证所选择的特征具有较好的分类能力和描述能力,克服了单一采用统计量进行特征选择的不足。

【技术实现步骤摘要】

属于中文文本自动分类
,尤其涉及各种基于汉字串作为特征的中文文本自动分类

技术介绍
计算机网络和电子技术的发展,彻底改变了人们的工作、生活和获取信息的方式。人类的绝大部分信息已经放在网上。现在的问题是如果有效地组织和管理这些海量的信息,如何使用户方便有效地访问到想要的信息。文本自动分类(TC)技术为解决这些问题提供了一个有效的途径。它以计算机作为工具,应用机器学习技术,使计算机能够对自然语言电子文本按照预定的类型集合进行自动分类。从二十世纪八十年代末九十年代初开始,基于统计的机器学习方法被引入到文本自动分类中,提出了许多具有实用价值的分类器和分类模型。例如基于概率模型(ProbabilisticModel)的贝叶斯分类器(Bayesian Classifier),基于规则(Rule)的决策树/决策规则(DecisionTree/Decision Rule Classifier)分类器,基于类描述的线性分类器(Profile-Based LinearClassifier),基于人类分类经验的K最近邻分类器(K-Nearest Neighbor),基于最优超平面的支持向量机(Support Vector Machine,简称SVM),通过对多个分类方法进行组合的分类器委员会(Classifier Committee)等。为了使计算机能够识别自然语言文本,需要先对文本进行描述。向量空间模型(VectorSpace Model,简称VSM)是被广泛采用的方法。它将文本描述为向量。向量的元素为文本中出现的特征(例如字、字串、词等)。所有潜在的文本向量组成一个高维向量空量,所有特征组成原始特征集。在一种自然语言中,作为特征的字串或词等数量非常巨大(通常以万为单位)。因此,在VSM模型中,高维问题是一个巨大障碍。它不仅影响分类效率,而且会带来大量的噪声和严重的数据稀疏,降低分类准确率。因此,在机器学习之前,应该先进行降维操作,即从原特征集中删除那些对分类没有作用或作用不大的特征。在TC中用于降维的方法可以分为两类特征选择(Term Selection)和特征抽取(TermExtraction)。特征选择通过构造一个统计量来度量特征对文本分类作用的大小,以选择那些重要的特征。常用的统计量有特征频率(Term Frequency,简称TF),文档频率(DocumentFrequency,简称DF),特征频率-逆文档频率(Term Frequency-Inverse Document Frequency,简称TF-DF),信息增益(Information Gain,简称IG),互信息(Mutual Information,简称MI),信息熵(Entropy),Chi-分布权重(Chi-Square,简称Chi)等。这些统计量都是根据特征的一般统计特性来构造的,它反映了特征分类能力的一般规律。当基于大规模的训练集时,统计量能够较准确地刻划特征某方面的统计特性,通常能够取得较好的降维效果,例如Chi方法。当训练集规模较小时,这些统计量的度量能力会下降,而且,它们对不同特征的统计性能也存在不同程度的扭曲。另外,统计量关心的是特征对分类作用的一般规律,对某个具体特征来说会不准确,因为它们不关心特征的具体结构和语法功能,即特征的意义。特征抽取也称为重参数化(Reparametrization)。由于自然语言表达的灵活性,使得原始特征空间的各维之间不是完全正交的。特征抽取通过坐标空间变换,力图构建一个各维正交的特征空间。然后在该正交空间中选择作用最大的特征子集,构造一个全新的低维正交空间作为原始特征空间的近似。常用的方法有特征聚类、主成分分析法、潜在语义标引(LatentSemantic Indexing)等。特征聚类是将作用相同的特征聚合在一起,作为一个新特征。主成分分析法和潜在语义标引都是利用线性代数技术,对原始特征空间进行线性变换,得到新的正交空间。这些方法的计算复杂性很高。而且,由于自然语言目前不能被有效地形式化,这些方法的降维效果并不理想。分词是中文自然语言处理的一大难题。由于受词典规模、成词标准、分词歧义、未登录词识别等因素影响,在真实环境下中文分词的准确率一直不高。因此,在中文文本分类中,通常采用字串作为特征来描述文本,特别是二元汉字串(以下简称二元串)。实验表明,采用二元串的分类效果要优于一元串、三元串以及分词。但是对于一个文本集,二元串的特征集(数百万)要远远大于词的特征集(数十万),因此在采用二元串作为特征的中文文本分类中,降维的任务更为艰巨。
技术实现思路
本专利技术的目的在于提供一种在采用二元串作为特征的中文文本分类中进行降维的方法。在文本分类中,降维的目标是保留对分类作用大的特征。我们认为,要度量一个特征对分类作用的大小,应该从两个方面考虑一是特征在文本中出现是否能够为决定文本的类型提供足够强的证据(分类能力);二是这个特征是否能够足够好地描述文本的内容(描述能力)。如果这两个条件都满足,那么这个特征对分类的作用是很大的,应该保留。如果只满足第一个条件,即特征的分类能力强,但描述能力弱,那么这个特征不是很好的特征,因为它不能很好地反应文本的内容。它们通常是一些低频特征或偶然出现的特征。过多强调这类特征会使损害分类器的推广能力,引起过学习(Overfitting);如果只满足第二个条件,即特征的描述能力强,但分类能力弱,那这个特征也不是好特征,因为它不能为区别文本提供足够的信息。过多强调这类特征会使分类器欠学习,即不能将两类文本很好地区分开。由于统计量固有的特点,使得基于某个统计量的特征选择方法在度量特征的重要性时主要强调第一个条件,即特征的分类能力。因此,在采用汉字二元串为特征的中文文本分类中,采用这种方法进行特征选择后得到的特征集中会包含大量的没有实际意义的中、低频特征。虽然这些特征具有较好的分类能力,但是描述能力很弱。它们应该被进一步删除。而有些相邻接的特征,在文本集中表示的是同一个概念,而由于串长的限制被分解为多个二元串。这些特征应该合并在一起,作为一个完整的概念发挥作用。例如中文句子“我的音乐书”,标引为二元串后为“我的”、“的音”、“音乐”、“乐书”。在这四个二元串中,从字面上,我们或多或少能够理解二元串“我的”、“音乐”、“乐书”的部分含义,但是二元串“的音”却是毫无意义的。但是由于它集中出现在少数文本中,在Chi,IG等具有较好效果的特征选择方法中会得到较大的权值而被保留。二元串“我的”,由于是高频常用特征会得到较小的权值而被删除。这时经过特征选择以后,保留下来的有三个特征“的音”、“音乐”、“乐书”。理想的降维操作是选用一种特征选择方法删除特征“我的”;对保留的三个特征进行进一步分析,删除特征“的音”,合并“音乐”和“乐书”,生成三元特征“音乐书”。最后得到只有一个特征“音乐书”的特征集。这样,特征数由4降为1,保留的特征也较好地描述了文本的内容。这样做的依据是二元串“的音”中“的”是虚词,虽然“音”具有一定意义,但是由于与“的”相连,它的作用在这里消失了。在中文中,与“的”字相连的二元串中,除了“目的”、“的士”等个别串有实际意义外,绝大多数情况下是没有实际意义的本文档来自技高网
...

【技术保护点】
中文文本自动分类用的特征降维方法,其特征在于,它以计算机作为工具,依次执行以下步骤:在学习阶段,含有以下步骤:(1).初始化输入大小为N的学习文本集D,M为D的类型数(j=1,…,M);采用特征频度作为统计量,输入低频噪声二元串的阈值; 采用Chi特征选择方法,输入二元串的权值阈值;输入δ、σ和k值,其定义及实值范围见下面所述;(2).用公知方法对学习文本集D进行预处理;(3).对学习文本集D分别进行一元、二元、三元串标引,得到一元串原始特征集、二元串原始特征集和三元串原始特征集;根据二元串原始特征集生成各个学习文本d的特征频度向量,它用d表示为:d=(tf(T↓[1d]),tf(T↓[2d]),…,tf(T↓[nd]))n为二元串原始特征集包含的特征总数,tf(T↓[id])为第i个二元串特征在文本d中的特征频度值(i=1,…,n);(4).对上述二元串原始特征集进行降维,得到二元串中间特征集:(4.1).根据特征频度值,去掉频度小于设定频度阈值的低频噪声二元串; (4.2).根据Chi特征选择方法,去掉权值小于设定的权值阈值的二元串;特征T↓[k]在C↓[j]类中的Chi权值为:***,其中,P↓[d](T↓[k],C↓[j])为包含特征T↓[k]的C↓[j]类文本在N中所占的比重;P↓[d](*↓[k],*↓[j])为未包含特征T↓[k]的非C↓[j]类文本在N中所占的比重;P↓[d](T↓[k],*↓[j])为包含特征T↓[k]的非C↓[j]类文本在N中所占的比重;P↓[d](*↓[k],C↓[j])为未包含特征T↓[k]的C↓[j]类文本在N中所占的比重;P↓[d](T↓[k])为包含特征T↓[k]的文本在N中所占的比重;P↓[d](C↓[j])为C↓[j]类文本在N中所占的比重;P↓[d](*↓[k])为未包含特征T↓[k]的文本在N中所占的比重;P↓[d](*↓[j])为非C↓[j]类文本在N中所占的比重;特征T↓[k]在学习文本集D中的Chi权重值(取各类型中的最大值)为:Chi(T↓[k])=*{Chi(T↓[k],C↓[j])};(5).在上述二元串中间特征集中,找出“δ-重叠二元串”和对应的三元串,把“δ-重叠二元串”替换为对应的三元串;设:有两个不同的二元串T↓[1](t↓[11]t↓[12])和T↓[2](t↓[21]t↓[22]),若:字符t↓[12]=t↓[21],则T↓[1](t...

【技术特征摘要】

【专利技术属性】
技术研发人员:孙茂松薛德军
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1