【技术实现步骤摘要】
本专利技术涉及网络
,特别涉及一种文本分类方法和装置。
技术介绍
随着通信技术的飞速发展以及互联网的普及,对互联网信息的有效处理和过滤成为一个重要的研究课题。 语义倾向性研究在这一背景下应运而生。所谓词汇的语义倾向,即对于词汇的褒贬程度计算出一个度量值。为了便于统计和比较,目前比较常用的做法是将度量值规定为位于[-1,1]之间的实数。若度量值高于某阈值时,判别为褒义倾向;反之,则判为贬义倾向。此外,可以通过对篇章中词汇的语义倾向值求平均值而获得篇章的语义倾向。因此,对词汇的语义倾向计算是此类研究中的关键工作。 此外,语义倾向判别也为文本过滤、自动文摘的研究工作提供了新的思路和新的手段。例如可以对语义倾向度量值设定一个合适的阈值,对于倾向值低于或高于阈值,也就是态度倾向过于偏激的文章进行过滤操作,或者可将倾向值赋予一定的权值,作为文本过滤中需要考虑的一个因素。该方法如果应用在网络新闻组的自动过滤中,有利于维护讨论秩序,缓和讨论气氛。而自动文摘的生成,可将具有强烈褒贬倾向的语句作为关键句摘出,从而更好地保留原作者的观点和意见。 单词的语义倾向判别是篇章语义倾向研究的基础。目前,在中文词汇倾向性计算方面,主要的方法是选择基准词对,利用知网(Hownet)计算倾向性待定的词汇与基准词汇的相似度,从而判定词汇的倾向性。Hownet是一个以词语所代表的概念为描述对象,以揭示概念和概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。 该方法的基本思想是设想所有的概念都可以分解成各种各样的义原,同时应该有一个有限的义原集合,其中的义原组合成一个 ...
【技术保护点】
一种文本分类方法,其特征在于,包括: 从输入的文本中获取情感特征词; 根据预先构造的同义词库,获取所述情感特征词的情感倾向度; 根据所述情感特征词的情感倾向度,对所述文本进行分类。
【技术特征摘要】
1、一种文本分类方法,其特征在于,包括从输入的文本中获取情感特征词;根据预先构造的同义词库,获取所述情感特征词的情感倾向度;根据所述情感特征词的情感倾向度,对所述文本进行分类。2、如权利要求1所述的方法,其特征在于,所述从输入的文本中获取情感特征词包括对所述输入的文本进行分析,获取带有词性标注的词列表;对所述带有词性标注的词列表进行分析,获取约简和转化后的带有词性标注的词列表;对所述约简和转化后的带有词性标注的词列表进行统计,获取词语的统计信息;根据词语的统计信息,获取特定的词语作为情感特征词。3、如权利要求2所述的方法,其特征在于,所述根据词语的统计信息,获取特定的词语作为情感特征词包括对于不同的词语,以统计信息为权重,词性为类别,对每类词获取权重大于阈值的词语作为情感特征词。4、如权利要求1所述的方法,其特征在于,所述预先构造同义词库包括根据潜在语义分析LSA以及关联规则,构造同义词库。5、如权利要求4所述的方法,其特征在于,所述根据潜在语义分析LSA以及关联规则,构造同义词库包括构造词汇-文档矩阵;对所述词汇-文档矩阵中的元素进行信息熵变换,得到信息熵变换后的词汇-文档矩阵;对所述信息熵变换后的词汇-文档矩阵进行奇异值分解,得到变换后的词汇-文档矩阵;根据所述变换后的词汇-文档矩阵,生成关联词集合;根据所述关联词集合以及预设的分类对应的基本词集合,构成类对应的同义词库。6、如权利要求5所述的方法,其特征在于,所述构造词汇-文档矩阵包括构造词语-文档矩阵为X=|aij|m×n,m代表词汇总量,n代表文档个数,所述词语-文档矩阵的行向量代表情感词词汇量,列向量代表文档个数,所述造词语-文档矩阵的每一个元素aij代表第i个词对第j个文档而言的权重值。7、如权利要求6所述的方法,其特征在于,所述aij的值为第i个词在第j个文档中出现的次数tf、乘以所述第i个词的反文档频率idf;词C的反文档频率idf为其中N为文档总数,docNum(C)为包含词C的文档数。8、如权利要求5或6所述的方法,其特征在于,所述对所述词汇-文档矩阵中的元素进行信息熵变换包括所述aij为信息熵变换前词语-文档矩阵中的元素,所述aij′为信息熵变换后的词语-文档矩阵X′=|aij′|m×n中的元素,。9、如权利要求8所述的方法,其特征在于,所述对所述信息熵变换后的词汇-文档矩阵进行奇异值分解,得到变换后的词汇-文档矩阵包括将所述X′=|aij′|m×n分解为X′=U∑VT;其中U和V分别是X′的奇异值对应的左、右奇异向量矩阵,且U和V为正交矩阵;∑是标准型,VT是V的转秩,X′的奇异值按递减排列构成对角矩阵∑k,取U和V最前而的k个列,构建X′的k-秩近似矩阵10、如权利要求5所述的方法,其特征在于,所属根据所述变换后的词汇-文档矩阵,生成关联词集合包括生成频繁项集合;根据所属频繁项集合生成关联规则;根据所述关联规则获取情感词汇的关联词集合。11、如权利要求1所述的方法,其特征在于,所述获取所述情感特征词的情感倾向度后,还包括对所述情感特征词的情感倾向度进行归一化;根据否定词词表寻找在文档中出现的否定词,对所述否定词修饰范围内的情感特征词归一化后的情感倾向度进行反向修正;所...
【专利技术属性】
技术研发人员:佘莉,张翼,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:94[中国|深圳]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。