一种文本分类方法和装置制造方法及图纸

技术编号:4196611 阅读:168 留言:0更新日期:2012-04-11 18:40
本发明专利技术的实施例公开了一种文本分类方法和装置。该方法包括:从输入的文本中获取情感特征词;根据预先构造的同义词库,获取所述情感特征词的情感倾向度;根据所述情感特征词的情感倾向度,对所述文本进行分类。通过使用本发明专利技术的实施例,根据预先构造的同义词库,获取文本中情感特征词的情感倾向度以用于文本的分类,提高了对词汇的情感倾向度的判断准确程度。

【技术实现步骤摘要】

本专利技术涉及网络
,特别涉及一种文本分类方法和装置
技术介绍
随着通信技术的飞速发展以及互联网的普及,对互联网信息的有效处理和过滤成为一个重要的研究课题。 语义倾向性研究在这一背景下应运而生。所谓词汇的语义倾向,即对于词汇的褒贬程度计算出一个度量值。为了便于统计和比较,目前比较常用的做法是将度量值规定为位于[-1,1]之间的实数。若度量值高于某阈值时,判别为褒义倾向;反之,则判为贬义倾向。此外,可以通过对篇章中词汇的语义倾向值求平均值而获得篇章的语义倾向。因此,对词汇的语义倾向计算是此类研究中的关键工作。 此外,语义倾向判别也为文本过滤、自动文摘的研究工作提供了新的思路和新的手段。例如可以对语义倾向度量值设定一个合适的阈值,对于倾向值低于或高于阈值,也就是态度倾向过于偏激的文章进行过滤操作,或者可将倾向值赋予一定的权值,作为文本过滤中需要考虑的一个因素。该方法如果应用在网络新闻组的自动过滤中,有利于维护讨论秩序,缓和讨论气氛。而自动文摘的生成,可将具有强烈褒贬倾向的语句作为关键句摘出,从而更好地保留原作者的观点和意见。 单词的语义倾向判别是篇章语义倾向研究的基础。目前,在中文词汇倾向性计算方面,主要的方法是选择基准词对,利用知网(Hownet)计算倾向性待定的词汇与基准词汇的相似度,从而判定词汇的倾向性。Hownet是一个以词语所代表的概念为描述对象,以揭示概念和概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。 该方法的基本思想是设想所有的概念都可以分解成各种各样的义原,同时应该有一个有限的义原集合,其中的义原组合成一个无限的概念集合。如果能够把握这一有限的义原集合,并利用它来描述概念间的关系以及属性之间的关系,就可能建立所设想的知识系统。词汇相似度是一个数值,一般取值范围在之间,一个词语与其自身的语义相似度为1。如果两个词语在任何上下文中都不可替换,那么其相似度为0。 使用该方法获取词汇的倾向度的一例如下首先选择一个基准词,比如选择“好”和“坏”分别代表褒义和贬义的基准词。然后判别待定词t与基准词在Hownet中是否是同义词,计算词汇的倾向度,计算公式如下 函数d表示两个词汇t1,t2在由Hownet生成的相似图中的最短路径,记作d(t,好)。d(好,坏)是两个基准词好和坏在Hownet中的最短路径;d(t,坏)是词汇t到基准词坏在Hownet中的最短路径;d(t,好)是词汇t到基准词好在Hownet中的最短路径;公式(1)对词汇t到两个基准词的最短路径进行归一化处理,得到词汇的倾向度是介于[-1,1]的浮点数。正数表示倾向于好,负数表示倾向于坏。 根据词汇的倾向度,使用文本分类算法对待判定文档进行分类。该方法是利用词汇相似度来间接计算篇章的语义倾向,因此,词汇相似度算法是该方案的核心。方案使用的Hownet是Hownet的源文件由词典学家编写。这些文件是词汇语义学分析的产物多种词汇关系和语义关系被用来表示词汇知识的组织方式。词形式(word form)和词义(word meaning)是这些文件中可见的两个基本构件。词形式以规范的词形表示;词义以同义词集合(synset)表示。词汇关系是两个词形式之间的关系;语义关系是两个词义之间的关系。 在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题 没有包含指示词语在特定的篇章话题领域的相关概念关系,也缺少关于词语的句法信息和不同词类词语间的关系,这样会对在不同语境中表达不同情感倾向度的判定有一定误差。
技术实现思路
本专利技术实施例提供一种文本分类方法和装置,用于提高基于情感倾向对文本进行分类的准确程度。 本专利技术实施例提供一种文本分类方法,包括 从输入的文本中获取情感特征词; 根据预先构造的同义词库,获取所述情感特征词的情感倾向度; 根据所述情感特征词的情感倾向度,对所述文本进行分类。 本专利技术实施例还提供一种文本分类装置,包括 情感特征词获取单元,用于从输入的文本中获取情感特征词; 情感倾向度获取单元,用于根据预先构造的同义词库,获取所述情感特征词获取单元获取的情感特征词的情感倾向度; 分类单元,用于根据所述情感倾向度获取单元获取的情感特征词的情感倾向度,对所述文本进行分类。 本专利技术的实施例还提供一种计算机可存储介质,存储有可读写程序,使得处理器执行上述的方法。 与现有技术相比,本专利技术实施例具有以下优点 根据预先构造的同义词库,获取文本中情感特征词的情感倾向度以用于文本的分类,提高了对词汇的情感倾向度的判断准确程度。 附图说明 图1是本专利技术实施例中文本分类方法的流程图; 图2是本专利技术实施例中从输入的文本中获取情感特征词并获取情感特征词的情感倾向度的流程图; 图3是本专利技术实施例中利用LSA和关联规则构造同义词库的流程图; 图4是本专利技术实施例中根据情感倾向度对文档进行分类的流程图; 图5是本专利技术实施例中文本分类装置的结构示意图; 图6是本专利技术实施例中文本分类装置的另一结构示意图。 具体实施例方式 本专利技术实施例提供了一种文本分类方法,如图1所示,包括以下步骤 步骤s101、从输入的文本中获取情感特征词。 步骤s102、根据预先构造的同义词库,获取情感特征词的情感倾向度。 步骤s103、根据情感特征词的情感倾向度,对文本进行分类。 以下结合具体的实施例,对上述图1中所描述的文本分类方法中的各步骤进行进一步的详细描述。 如图2所示,为本专利技术实施例中从输入的文本中获取情感特征词并获取情感特征词的情感倾向度的流程图,包括 步骤s201,给定一任意文本d,首先使用一个中文分词器对文档d进行分析处理,该中文分词器的输入为构成文本d的一串文本,输出为一个带有词性标注的词列表。 具体的,该分析处理过程包括分词预处理,分词(带分词词库),歧义词重切分(如果存在歧义切分,则按照规则重切分)。词性包括名词、动词、形容词、断句符号等语言学常用词语属性类型。 步骤s202,使用语法分析器对分词处理后的词列表进行语法分析。该语法分析器的输入为带有词性标注的词列表,输出为一个经约简和转化的带有词性标注的词列表。 步骤s203,将输出后的带有词性标注列表对词语进行统计,根据统计信息获取情感特征词。 具体的,统计信息可以包括词频、句子的长度、平均词长、功能词(functionword,具体指前置词,连词等)等。以该统计信息为权重,词性为类别,对每类词取权重大于阈值的作为情感特征词,输出的词语的属性包括词、词性、统计数据。 步骤s204,进行情感特征词的情感倾向度计算。 具体的,应用LSA(Latent Semantic Analysis,潜在语义分析)和关联规则构造的同义词库来获取情感特征词之间的语义关联强度,在计算情感特征词的情感倾向度时,采用根据情感特征词与预先设定的特征词之间的关联度计算情感倾向度的方法。因此,在进行情感倾向度计算的时候,预先设定一些情感倾向度反差明显的词语对,如“支持”、“反对”,对于其他某一情感特征词,分别计算计算该情感特征词与两者的关联强弱程度,作为该情感特征词的情感倾向度。 以下介绍利用LSA和关联规则构造同义词库的方法。在LSA本文档来自技高网
...

【技术保护点】
一种文本分类方法,其特征在于,包括: 从输入的文本中获取情感特征词; 根据预先构造的同义词库,获取所述情感特征词的情感倾向度; 根据所述情感特征词的情感倾向度,对所述文本进行分类。

【技术特征摘要】
1、一种文本分类方法,其特征在于,包括从输入的文本中获取情感特征词;根据预先构造的同义词库,获取所述情感特征词的情感倾向度;根据所述情感特征词的情感倾向度,对所述文本进行分类。2、如权利要求1所述的方法,其特征在于,所述从输入的文本中获取情感特征词包括对所述输入的文本进行分析,获取带有词性标注的词列表;对所述带有词性标注的词列表进行分析,获取约简和转化后的带有词性标注的词列表;对所述约简和转化后的带有词性标注的词列表进行统计,获取词语的统计信息;根据词语的统计信息,获取特定的词语作为情感特征词。3、如权利要求2所述的方法,其特征在于,所述根据词语的统计信息,获取特定的词语作为情感特征词包括对于不同的词语,以统计信息为权重,词性为类别,对每类词获取权重大于阈值的词语作为情感特征词。4、如权利要求1所述的方法,其特征在于,所述预先构造同义词库包括根据潜在语义分析LSA以及关联规则,构造同义词库。5、如权利要求4所述的方法,其特征在于,所述根据潜在语义分析LSA以及关联规则,构造同义词库包括构造词汇-文档矩阵;对所述词汇-文档矩阵中的元素进行信息熵变换,得到信息熵变换后的词汇-文档矩阵;对所述信息熵变换后的词汇-文档矩阵进行奇异值分解,得到变换后的词汇-文档矩阵;根据所述变换后的词汇-文档矩阵,生成关联词集合;根据所述关联词集合以及预设的分类对应的基本词集合,构成类对应的同义词库。6、如权利要求5所述的方法,其特征在于,所述构造词汇-文档矩阵包括构造词语-文档矩阵为X=|aij|m×n,m代表词汇总量,n代表文档个数,所述词语-文档矩阵的行向量代表情感词词汇量,列向量代表文档个数,所述造词语-文档矩阵的每一个元素aij代表第i个词对第j个文档而言的权重值。7、如权利要求6所述的方法,其特征在于,所述aij的值为第i个词在第j个文档中出现的次数tf、乘以所述第i个词的反文档频率idf;词C的反文档频率idf为其中N为文档总数,docNum(C)为包含词C的文档数。8、如权利要求5或6所述的方法,其特征在于,所述对所述词汇-文档矩阵中的元素进行信息熵变换包括所述aij为信息熵变换前词语-文档矩阵中的元素,所述aij′为信息熵变换后的词语-文档矩阵X′=|aij′|m×n中的元素,。9、如权利要求8所述的方法,其特征在于,所述对所述信息熵变换后的词汇-文档矩阵进行奇异值分解,得到变换后的词汇-文档矩阵包括将所述X′=|aij′|m×n分解为X′=U∑VT;其中U和V分别是X′的奇异值对应的左、右奇异向量矩阵,且U和V为正交矩阵;∑是标准型,VT是V的转秩,X′的奇异值按递减排列构成对角矩阵∑k,取U和V最前而的k个列,构建X′的k-秩近似矩阵10、如权利要求5所述的方法,其特征在于,所属根据所述变换后的词汇-文档矩阵,生成关联词集合包括生成频繁项集合;根据所属频繁项集合生成关联规则;根据所述关联规则获取情感词汇的关联词集合。11、如权利要求1所述的方法,其特征在于,所述获取所述情感特征词的情感倾向度后,还包括对所述情感特征词的情感倾向度进行归一化;根据否定词词表寻找在文档中出现的否定词,对所述否定词修饰范围内的情感特征词归一化后的情感倾向度进行反向修正;所...

【专利技术属性】
技术研发人员:佘莉张翼
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1