文本情感倾向性分析方法技术

技术编号:3847044 阅读:392 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种文本情感倾向性分析方法,包括下列步骤:1)根据训练文本的标签确定测试文本的初始情感分;2)基于图排序算法利用所述测试文本的初始情感分迭代计算所述测试文本的情感分并进行归一化;3)当所述迭代结束时,根据所述计算的结果判别所述测试文本的情感倾向性。本发明专利技术提供的文本情感倾向性方法能够大幅提高对新领域的文本进行分类的精度。

【技术实现步骤摘要】

本专利技术涉及模式识别领域,具体涉及一种文本分析方法。
技术介绍
论坛、博客等网络交流平台的快速发展使得网上存在大量带有情感倾向性的文 本。如何从大规模富含情感信息的文本中快速进行倾向性分析,成为越来越引起广泛关注 的研究问题。文本情感倾向性分析研究就是在这样的背景下开展起来的,它就是对整篇文 本所体现出的情感进行判断,也就是对文本中的主观信息进行判断。随着信息量的急速增加、新领域的不断涌现,人们需要在越来越多的新领域里进 行倾向性分析,而在新领域里重新进行人工标注是个费时费力的事情。因此要尽量基于已 经标注好的数据对新领域进行分析,这使得跨领域的倾向性分析具有重大意义。文本倾向性分析具有很强的领域依赖性。训练域里有强烈倾向性的词在测试域里 不再有强烈倾向性,反之亦然。例如,“便携的”在电子评论里就是一个具有正面倾向性的 词,而在酒店评论里就不具有强烈的倾向性。当用来训练分类器的已判断倾向性的集合和 待判断倾向性的集合不是同一个领域的时候,例如,已知酒店评论数据集的倾向性需要判 断电子评论数据集的倾向性的情况,传统的分类方法的效果就变得很差。
技术实现思路
本专利技术目的在于提供一种精度高的。根据本专利技术的一个方面,提供了一种,包括下列步骤1)根据训练文本的标签确定测试文本的初始情感分;2)基于图排序算法利用所述测试文本的初始情感分迭代计算所述测试文本的情 感分并进行归一化;3)当所述迭代结束时,根据所述计算的结果判别所述测试文本的情感倾向性。在上述方法中,所述步骤1)还包括根据训练文本的标签确定训练文本的初始情 感分; 所述步骤2)进一步包括21)基于所述图排序算法,利用所述训练文本的初始情感分计算所述测试文本的 情感分的第一分量;22)基于所述图排序算法,利用所述测试文本的初始情感分计算所述测试文本的 情感分的第二分量;23)利用所述两个分量迭代计算所述测试文本的情感分并归一化。在上述方法中,所述步骤21)进一步包括以所述测试文本和训练文本为结点、所述训练文本和所述测试文本间的内容相似 度为边建立图模型;根据所述图模型构建联接矩阵并归一化;3将所述归一化的联接矩阵的每一行降序排列;根据所述降序排列后的联接矩阵的每一行的前K1个元素对应的训练文本的情感 分计算所述测试文本的情感分的第一分量,其中K1的取值范围为。在上述方法中,所述步骤22)进一步包括以所述测试文本为结点、所有测试文本间的内容相似度为边建立图模型;根据所述图模型构建联接矩阵并归一化;将所述归一化的联接矩阵的每一行降序排列;根据所述降序排列后的联接矩阵的每一行的前K2个元素对应的测试文本的情感 分计算所述测试文本的情感分的第二分量,其中K2的取值范围为。在上述方法中,所述步骤1)包括根据所述训练文本的标签对所述测试文本进行 分类,根据所述分类确定所述测试文本的初始情感分。本专利技术提供的文本情感倾向性方法能够大幅提高对新领域的文本进行分类的精度。附图说明图1是根据本专利技术的优选实施例的的流程图。 具体实施例方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发 明一个实施例的进一步详细说明。应当理解,此处所描述的具体 实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术利用一个领域的标注文本对另一领域未标注文本按其倾向性进行分类。具 体地,假定测试集为Du= Wu1,...,dun},其中Clui是第i个测试文本的特征向量,用其表示第 i个测试文本,测试文本Clui e Du (i = 1,. . .,η)且没有被标注。训练集为护=IcIl1 dLffl}, 其中是第j个训练文本的特征向量,用其表示第j个训练文本。训练文本e DL(j = l,...,m)且具有一个来自类别集C= {支持,反对}中的标签。测试集Du和训练集护可 以来自相关但不相同的领域。利用训练集护对测试集中的每一个测试文本Clui e Du(i = 1, . . . , η)分类。根据本专利技术的一个具体实施例,将文本的倾向性与图排序算法结合起来,根据训 练文本的标签为测试集和训练集中的每一个文本分配一个初始情感分,来表示该文本情感 倾向性的程度;然后基于迭代方法利用初始情感分计算测试文本的情感分并归一化;当迭 代算法收敛时得到测试文本的最终情感分,并据此判别测试文本的倾向性。首先为训练集与测试集中每一个文本的情感分赋一个初始值,得到初始情感分向 量 S° = {sV. · ·,S0n, s°n+1,. . .,S°n+m},其中 Stli (i = 1,...,η)表示测试文本的初始情感分, S0jU = 1,...,m)表示训练文本的初始情感分。对于训练文本,它们已经有正确标签,则如 果文本具有正面标签,则文本对应的情感分为1,如果文本具有负面标签,它对应的情感分 为-1。对于测试文本,基于文本分类算法中的任意一种分类器,诸如原型“Prototype”倾向 性分析方法、朴素贝叶斯“Nai've Bayes”方法、支持向量机“SVM”分类器、k-最近邻方法、 决策树方法等,用训练集训练,对测试文本分类使其具有一个伪标签,此时的分类准确度通常很低,根据此伪标签得到测试文本的情感分的初始值。然后,根据初始情感分向量S°迭代计算测试文本的最终情感分。下面详细介绍根 据本专利技术的一个优选实施例,计算测试文本的最终情感分的过程首先根据训练集的情感分计算测试集的情感分的一个分量。建立一个图模型,结点表示D1和Du中的文本,边表示文本间的内容相似度。如果 两个文本间内容相似度为0,则图中两结点间无边,如果不为0,则图中两结点间有边且边 的权重为该内容相似度。本领域普通技术人员可以理解,文本的内容相似度有多种计算方 法,例如利用余弦相似度或者基于诸如明氏“Minkowski”距离、马氏“Mahalanois”距离、兰 氏“Lance”距离的某种距离函数计算相似度。在此实施例中利用余弦相似度来计算。根据 该图模型构建联接矩阵U,其元素表示测试文本和训练文本间的内容相似度,U= [UijJnxm 定义如下Uv = flUTTTn^ i = l-,n,J(1)IKIHKI其中,用文本的特征向量来表示文本,Clui是第i个测试文本的特征向量,Clui= (W1, f W2ji, ... ,Wpji), Wtji(t = 1,...,p)表示该向量中第t个特征的权重,根据该特征在文本 中的词频tft来计算。屯与Clui类似。将联接矩阵U归一化为矩阵,使得(}中每一行的和为1 :/mm.MMU)0,否则将[>的每一行降序排序得到i ,也就是欢(i = 1,· · ·,η ;j,t = 1,. · · m ;t ^ j),以从训练集中找出与该行对应的测试文本最相似的文本集,该文本集包括K1个训 练文本,K1的取值范围为。对于Clui e Du(i = 1,...,n) Aj (j = 1,...,K)可以示出其在训练域中的K1个邻居。简化起见,使用矩阵# =来表示测试文本在训练域中的邻居,其中Nu对应于Clui的第j个邻居,即JV" =巧。本领域普通技术人员可以理解,可以把所有训练文本都作为测试文本在训练域中 的邻居,即直接根据矩阵来确定测试文本在训练域中的邻居,而不必对进行本文档来自技高网...

【技术保护点】
一种文本情感倾向性分析方法,包括下列步骤:1)根据训练文本的标签确定测试文本的初始情感分;2)基于图排序算法利用所述测试文本的初始情感分迭代计算所述测试文本的情感分并进行归一化;3)当所述迭代结束时,根据所述计算的结果判别所述测试文本的情感倾向性。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴琼谭松波程学旗
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1