一种文本分类方法和装置制造方法及图纸

技术编号：4196611 阅读：187 留言：0更新日期：2012-04-11 18:40

本发明专利技术的实施例公开了一种文本分类方法和装置。该方法包括：从输入的文本中获取情感特征词；根据预先构造的同义词库，获取所述情感特征词的情感倾向度；根据所述情感特征词的情感倾向度，对所述文本进行分类。通过使用本发明专利技术的实施例，根据预先构造的同义词库，获取文本中情感特征词的情感倾向度以用于文本的分类，提高了对词汇的情感倾向度的判断准确程度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络
，特别涉及一种文本分类方法和装置。
技术介绍
随着通信技术的飞速发展以及互联网的普及，对互联网信息的有效处理和过滤成为一个重要的研究课题。语义倾向性研究在这一背景下应运而生。所谓词汇的语义倾向，即对于词汇的褒贬程度计算出一个度量值。为了便于统计和比较，目前比较常用的做法是将度量值规定为位于[-1，1]之间的实数。若度量值高于某阈值时，判别为褒义倾向；反之，则判为贬义倾向。此外，可以通过对篇章中词汇的语义倾向值求平均值而获得篇章的语义倾向。因此，对词汇的语义倾向计算是此类研究中的关键工作。此外，语义倾向判别也为文本过滤、自动文摘的研究工作提供了新的思路和新的手段。例如可以对语义倾向度量值设定一个合适的阈值，对于倾向值低于或高于阈值，也就是态度倾向过于偏激的文章进行过滤操作，或者可将倾向值赋予一定的权值，作为文本过滤中需要考虑的一个因素。该方法如果应用在网络新闻组的自动过滤中，有利于维护讨论秩序，缓和讨论气氛。而自动文摘的生成，可将具有强烈褒贬倾向的语句作为关键句摘出，从而更好地保留原作者的观点和意见。单词的语义倾向判别是篇...

【技术保护点】
一种文本分类方法，其特征在于，包括：　从输入的文本中获取情感特征词；　根据预先构造的同义词库，获取所述情感特征词的情感倾向度；　根据所述情感特征词的情感倾向度，对所述文本进行分类。

【技术特征摘要】
1、一种文本分类方法，其特征在于，包括从输入的文本中获取情感特征词；根据预先构造的同义词库，获取所述情感特征词的情感倾向度；根据所述情感特征词的情感倾向度，对所述文本进行分类。2、如权利要求1所述的方法，其特征在于，所述从输入的文本中获取情感特征词包括对所述输入的文本进行分析，获取带有词性标注的词列表；对所述带有词性标注的词列表进行分析，获取约简和转化后的带有词性标注的词列表；对所述约简和转化后的带有词性标注的词列表进行统计，获取词语的统计信息；根据词语的统计信息，获取特定的词语作为情感特征词。3、如权利要求2所述的方法，其特征在于，所述根据词语的统计信息，获取特定的词语作为情感特征词包括对于不同的词语，以统计信息为权重，词性为类别，对每类词获取权重大于阈值的词语作为情感特征词。4、如权利要求1所述的方法，其特征在于，所述预先构造同义词库包括根据潜在语义分析LSA以及关联规则，构造同义词库。5、如权利要求4所述的方法，其特征在于，所述根据潜在语义分析LSA以及关联规则，构造同义词库包括构造词汇-文档矩阵；对所述词汇-文档矩阵中的元素进行信息熵变换，得到信息熵变换后的词汇-文档矩阵；对所述信息熵变换后的词汇-文档矩阵进行奇异值分解，得到变换后的词汇-文档矩阵；根据所述变换后的词汇-文档矩阵，生成关联词集合；根据所述关联词集合以及预设的分类对应的基本词集合，构成类对应的同义词库。6、如权利要求5所述的方法，其特征在于，所述构造词汇-文档矩阵包括构造词语-文档矩阵为X＝|aij|m×n，m代表词汇总量，n代表文档个数，所述词语-文档矩阵的行向量代表情感词词汇量，列向量代表文档个数，所述造词语-文档矩阵的每一个元素aij代表第i个词对第j个文档而言的权重值。7、如权利要求6所述的方法，其特征在于，所述aij的值为第i个词在第j个文档中出现的次数tf、乘以所述第i个词的反文档频率idf；词C的反文档频率idf为其中N为文档总数，docNum(C)为包含词C的文档数。8、如权利要求5或6所述的方法，其特征在于，所述对所述词汇-文档矩阵中的元素进行信息熵变换包括所述aij为信息熵变换前词语-文档矩阵中的元素，所述aij′为信息熵变换后的词语-文档矩阵X′＝|aij′|m×n中的元素，。9、如权利要求8所述的方法，其特征在于，所述对所述信息熵变换后的词汇-文档矩阵进行奇异值分解，得到变换后的词汇-文档矩阵包括将所述X′＝|aij′|m×n分解为X′＝U∑VT；其中U和V分别是X′的奇异值对应的左、右奇异向量矩阵，且U和V为正交矩阵；∑是标准型，VT是V的转秩，X′的奇异值按递减排列构成对角矩阵∑k，取U和V最前而的k个列，构建X′的k-秩近似矩阵10、如权利要求5所述的方法，其特征在于，所属根据所述变换后的词汇-文档矩阵，生成关联词集合包括生成频繁项集合；根据所属频繁项集合生成关联规则；根据所述关联规则获取情感词汇的关联词集合。11、如权利要求1所述的方法，其特征在于，所述获取所述情感特征词的情感倾向度后，还包括对所述情感特征词的情感倾向度进行归一化；根据否定词词表寻找在文档中出现的否定词，对所述否定词修饰范围内的情感特征词归一化后的情感倾向度进行反向修正；所...

【专利技术属性】
技术研发人员：佘莉，张翼，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：94[中国|深圳]

全部详细技术资料下载我是这个专利的主人