文本分类方法技术

技术编号:3904935 阅读:272 留言:0更新日期:2012-04-11 18:40
一种文本分类方法,包括以下步骤:根据类别将初始训练文本集划分为多个分别包含相同类别文本的子集,并从每个子集中抽取出对应的概率主题模型;利用对应的概率主题模型生成新的文本来均衡所述多个子集的类别;根据所述多个子集对应的均衡训练文本集构造分类器;以及利用所述分类器进行文本分类。本发明专利技术能够提高文本分类方法在数据倾斜条件下的分类效果。

【技术实现步骤摘要】

本专利技术涉及数据预处理技术,尤其涉及一种。
技术介绍
随着互联网的迅速发展,网络上的网页、电子邮件、数据库、数字图 书馆等电子文本成几何级数不断增长,如何有效处理这些文本并进行分类 是一个非常重要的课题。文本分类是指在已有数据的基础上构造一个分类 模型,即,分类器。它按照预先定义的分类体系为测试文档集合中的每个 文档确定一个类别,使得用户能够方便地浏览文档,也可以通过限制搜索 范围来使文档的查找更为容易。文本自动分类就是用大量的带有类标志的 文本,对分类准则或模型参数进行训练,然后用训练得到的结果对未知类别 的文本进4于识别。然而在实际分类应用中,经常会遇到数据倾斜,又称作数据不平衡或 者类别不平衡,这是影响分类性能的重要因素之一,对传统的分类方法构 成了挑战。大多数分类算法都是面向均匀分布数据提出的,对于数据倾斜 的情况,仅利用传统的分类方法并不能取得理想的文本分类效果。
技术实现思路
本专利技术的目的旨在至少解决现有技术中的上述问题之一 。 为此,本专利技术的实施例提出一种提高存在数据倾斜的文本分类效果的 。本专利技术实施例提出了 一种,所述分类方法包括以下步骤 a)根据类别将初始训练文本集划分为多个分别包含相同类别文本的子集, 并从每个子集中抽取出对应的概率主题模型;b)利用对应的概率主题模型 生成新的文本来均衡所述多个子集的类别;c)根据所述多个子集对应的均衡训练文本集构造分类器;以及d)利用所述分类器进行文本分类。根据本专利技术进一步的实施例,所述概率主题模型为LDA概率主题模型。根据本专利技术进一步的实施例,所述步骤b包括确定包含最多文本数 量的子集;每个概率主题模型根据所述最多文本数量生成对应的新文本, 其中所述新文本数量为所述最多文本数量与每个子集包含的文本数量的差 值;以及将所述新文本加入到对应的子集中。根据本专利技术进一步的实施例,还包括利用所述概率主题模型生成新的 文本代替所述初始文本训练集包含的文本。根据本专利技术进一步的实施例,还包括对构造分类器的所述均衡训练文 本集进行特征降维的步骤。根据本专利技术进一步的实施例,所述分类器为支持向量机。根据本专利技术进一步的实施例,还包括对所述初始训练文本集进行预处 理的步骤,以过滤常用词以及进行词才艮还原。本专利技术通过从文本训练集上抽取出对应的概率主题模型,并利用对应 的概率主题模型生成稀有类别的样本,扩大稀有类别在整个文本集的比例, 对文本集进行数据平衡,从而利用模型所反映的文本全局语义信息来提高 数据倾斜下的文本分类效果。此外,本专利技术通过概率主题模型重新生成该类别的所有样本,替代原 来的样本作为新的训练样本,可以达到数据平滑的效果,削弱噪声对文本分类的影响。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面 、的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从下面结合附图对实施例的描 述中将变得明显和容易理解,其中图1为本专利技术实施例的流程图; 图2为本专利技术实施例的概率主题模型示例;5图3为本专利技术实施例的利用概率主题模型生成新的文本的示例图4为本专利技术实施例的LDA概率主题模型抽取步骤流程图5为本专利技术实施例基于LDA概率主题模型的文本生成步骤流程图;图6为本专利技术具体实施例的的流程图;以及图7为本专利技术实施例的对应的总体结构框架具体实施例方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发 明.,而不能解释为对本专利技术的限制。图1为本专利技术实施例的流程图,如图所示,首先根据类 别将初始训练文本集划分为多个分别包含相同类别文本的子集,并从每个 子集中抽取出对应的概率主题模型(步骤102)。当然,这里初始训练文 本集可能存在数据倾斜,或者类别不平衡的问题。文本类别是指对应的文 本属于新闻、体育、娱乐还是其他,这里不——举例。例如,设初始训练文本集中含有11个类别〔={£:1^2,..., },则训练文本集可以根据类别划分为n个子集"={《^2,...,《}。当然,每个子集对应相同类 型的文本,文本的数量为一个或多个。概率主题模型的主要思想认为文档是若干主题的混合分布,而每个主 题又是一个关于单词的概率分布。主题模型可以看作是文档的一种生成模 型文档的生成就是基于主题模型的一个筒单概率过程。当生成一个新的 文档时,首先得到一个关于主题的分布,对于该文档的每一个词符,先通 过主题的分布随机得到某个主题,接着通过该主题的单词分布随机得到一 个单词作为该词符的具体单词。目前存在多种概率主题模型,例如隐迪列彻莱特分配(Latent Dirichlet Allocation, LDA )模型,弹球盘分配模型(Pachinko Allocation Model, PAM ), 互相关主题模型(Correlated Topic Model, CTM )及概率隐语义分配 (Probabilistic Latent Semantic Allocation, pLSA )才莫型等等。本专利技术以LDA模型作为实施示例,但本专利技术的应用范围并不局限于LDA模型,而是适用 于绝大多数概率主题模型。图2给出了从某篇文章抽取出的概率主题模型的一个示例,如图所示 该文章有40个主题,每个主题底下有40个单词,需要注意的是一个单词 可以同时出现在多个主题下面。每个主题在文章中出现的概率都不一样, 例如主题1出现的概率是主题2的将近2倍,同时每个单词在同一主题下 面出现的概率也是不一样的。可以看出,主题1主要谈论的是图形方面的 话题,而主题40主要谈论的是概率统计方面的话题。图3给出了利用概率主题模型生成新的文本的示例图。如图所示,主 题1和主题2都与money和river相关。它们具有不同的词分布。可通过从 主题中选择对该主题重要程度不同的词构成文档。文档1和文档3是由主 题1和主题2分别随机抽样得到的,而文档2则是由主题1和主题2根据 不同的主题分布混合得到的。注意,词的右上角标的数字是其所属的主题 号,即该词是有所标主题随机抽样得到的。在抽取得到每个子集的概率主题模型之后,在步骤104中可以利用对 应的概率主题模型生成新的文本,扩充对应子集类别的规模,从而实现对 多个子集类别的均衡。在经典的LDA模型当中,每个文本都有自己独立的主题分布,而在文 本分类任务中,假设同一类别的文本具有相同的主题分布。则可以把训练 文本集的构造过程看成主题模型的一个生成过程对于文本集中的每一个 类别,都存在一个潜在的概率主题模型,该类别的所有文本都是由其对应 的主题模型按照自己的生成过程产生的。也就是说,由某个概率主题模型 生成的新文本一定还是属于这个模型对应的类别。在均衡每个子集的类别时,首先确定包含最多文本数量的子集。例如 对于n个类别C = {Cl,c2,...,c },把含有最多文本的类别的文本数目记为 M^T—S/Z£。对于其他任何类别c,.,通过其对应的概率主题模型生成—S/Z五-I《l个新的文本,并加入到原来的文本集里面,其中l《l表示c,原来的文本数目。这些新生成的文本与原来的旧 本一起构成新的训练集 = ,满足K =|《| = ... = |《| 。这样,通过从文本集上抽取出对应的概率主题本文档来自技高网...

【技术保护点】
一种文本分类方法,其特征在于,所述分类方法包括以下步骤: a)根据类别将初始训练文本集划分为多个分别包含相同类别文本的子集,并从每个子集中抽取出对应的概率主题模型; b)利用对应的概率主题模型生成新的文本来均衡所述多个子集的类别 ; c)根据所述多个子集对应的均衡训练文本集构造分类器;以及 d)利用所述分类器进行文本分类。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈恩红林洋港马海平曹欢欢
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:34[中国|安徽]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1