情感词典构建系统及构建方法技术方案

技术编号:20075323 阅读:36 留言:0更新日期:2019-01-15 00:42
本发明专利技术提供情感词典构建系统及方法,包括:设定情感词属于每一情感极性的情感强度条件,第一条件为情感强度与情感词及其词性在每一类文档中出现频次成正相关,第二条件为情感强度与情感词在每一类文档中出现频次成正相关,第三条件为情感强度与情感词在正类文档和负类文档中出现频次差的绝对值成正相关,第四条件为情感强度与情感词在正类文档和负类文档中出现频次和成负相关;上述条件结合TF‑IDF方法构建条件模型;根据条件模型构建情感词及其词性属于不同情感极性的情感强度模型;根据情感词及其词性属于正极性的情感强度与其属于负极性的情感强度的差值构建情感值模型。上述系统及方法将词性及类内分布因素结合,提高分类准确性。

Construction System and Method of Emotional Dictionary

The invention provides an emotional dictionary construction system and method, which includes: setting the emotional intensity condition that emotional words belong to each emotional polarity, the first condition is that emotional intensity is positively correlated with the frequency of emotional words and their parts of speech appearing in each category of documents, the second condition is that emotional intensity is positively correlated with the frequency of emotional words appearing in each category of documents, and the third condition is emotional intensity and emotional words. The absolute value of frequency difference between positive and negative documents is positively correlated. The fourth condition is that emotional intensity is negatively correlated with the frequency of emotional words appearing in positive and negative documents. The difference between the emotional intensity of sex which belongs to positive polarity and that of sex which belongs to negative polarity constructs an emotional value model. The above systems and methods combine parts of speech and intra-class distribution factors to improve the accuracy of classification.

【技术实现步骤摘要】
情感词典构建系统及构建方法
本专利技术涉及自然语言处理
,更为具体地,涉及一种情感词典构建系统及构建方法。
技术介绍
如今随着计算机技术的发展,互联网普及到千家万户,每个人都可以在网络上发表意见观点,这些观点表达大众的好恶,为了能够挖掘观点中的情感偏好,文本情感分析必不可少。基于情感词典的方法是如今使用广泛的一种情感分析方法。很多领域用于情感分析的词典仍然是通过手动标注情感词汇,这不仅需要耗费大量人力,而且由于人的主观性影响,标注的情感可靠性以及词汇全面性都受到质疑,使得自动构建情感词典成为研究的关键技术,但是也存在诸如上下文词汇多义性、特定领域情感词典的缺乏、高质量训练语料难以获得等等。因此研究自动构建基于特定领域的情感词典方法是十分有必要的。TF-IDF算法主要是一种用于资讯检索与资讯探勘的常用加权方法,TF-IDF的主要思想是如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语对这篇文档很重要,可以作为文本特征。TF-IDF主要是通过词频(TermFrequency,TF)与逆向文件频率(InverseDocumentFrequency,IDF)来衡量词汇的重要程度。TF-IDF中TF方法对任意单词wordi词频的计算如公式(1)所示:其中,tfi,j表示文档中第i个词wordi在第j篇文档dj中出现的频率,ni,j表示第i个词wordi在文档dj中出现的次数,nk,j表示文档dj中任意序号为k的单词wordk出现的频次,K表示在文档dj出现的单词的总数。TF-IDF中IDF方法对词wordi逆向文件频率的计算如公式(2)所示:其中,idfi是文档中第i个词wordi普遍重要性的度量,|D|表示语料中的文档总数,|{j:wordi∈dj}|表示语料中包含词wordi的文档总数,dj表示语料中含有词wordi且文档序号j为文档。词频TF以及逆文档频率IDF,共同决定词语的重要性,可以过滤掉常见的词语,保留重要的词语。但是并没有考虑到词语在类内的分布,也没有考虑不同词性词语的分布情况。
技术实现思路
鉴于上述问题,本专利技术的目的是提供一种将情感词的词性及其在正类文档和负类文档内的分布情况(类内分布因素)结合到情感值分析的情感词典构建方法及系统。根据本专利技术的一个方面,提供一种情感词典构建系统,包括:采集部,采集文档;分词部,对文档进行分词,得到文档内的情感词;文档分类部,将采集部采集的文档分为正类文档和负类文档;设定部,设定确定情感词属于每一情感极性的情感强度的条件,所述情感极性包括正极性、负极性和中性,所述条件包括第一条件、第二条件、第三条件和第四条件中的一个或多个,所述第一条件为情感强度与情感词及其词性在每一类文档中出现频次成正相关,所述第二条件为情感强度与情感词在每一类文档中出现频次成正相关,所述第三条件为情感强度与情感词在正类文档和负类文档中出现频次差的绝对值成正相关,所述第四条件为情感强度与情感词在正类文档和负类文档中出现频次和成负相关;条件模型构建部,根据设定部设定的条件结合TF或/和IDF方法构建条件模型,所述条件模型包括第一条件结合TF方法形成的第一TF模型、第二条件结合TF方法形成的第二TF模型、第三条件结合TF方法形成的第三TF模型和第四条件结合IDF方法形成的IDF模型中的一个或多个;情感强度模型构建部,根据条件模型构建情感词及其词性属于不同情感极性的情感强度模型,所述情感强度模型为条件模型中的任一个模型或为条件模型中多个模型的组合;情感值模型构建部,根据情感词及其词性属于正极性的情感强度与其属于负极性的情感强度的差值构建情感值模型,情感值为正值将情感词归属于正极性,情感值为负值将情感词归属于负极性,情感值为0将情感词归属于中性。根据本专利技术的另一个方面,提供一种情感词典构建系统,包括:第一调用部,调用语料中的文档、情感词及其词性,文档包括正类文档和负类文档;设定部,设定确定情感词属于每一情感极性的情感强度的条件,所述情感极性包括正极性、负极性和中性,所述条件包括第一条件、第二条件、第三条件和第四条件中的一个或多个,所述第一条件为情感强度与情感词及其词性在每一类文档中出现频次成正相关,所述第二条件为情感强度与情感词在每一类文档中出现频次成正相关,所述第三条件为情感强度与情感词在正类文档和负类文档中出现频次差的绝对值成正相关,所述第四条件为情感强度与情感词在正类文档和负类文档中出现频次和成负相关;条件模型构建部,根据设定部设定的条件结合TF或/和IDF方法构建条件模型,所述条件模型包括第一条件结合TF方法形成的第一TF模型、第二条件结合TF方法形成的第二TF模型、第三条件结合TF方法形成的第三TF模型和第四条件结合IDF方法形成的IDF模型中的一个或多个;情感强度模型构建部,根据条件模型构建情感词及其词性属于不同情感极性的情感强度模型,所述情感强度模型为条件模型中的任一个模型或为条件模型中多个模型的组合;情感值模型构建部,根据情感词及其词性属于正极性的情感强度与其属于负极性的情感强度的差值构建情感值模型,情感值为正值将情感词归属于正极性,情感值为负值将情感词归属于负极性,情感值为0将情感词归属于中性。根据本专利技术的第三个方面,提供一种情感词典构建系统,用于统一已有情感词典,包括:第二调用部,调用已有的情感词典;第一判断部,判断情感词典中的情感词是否具有情感值,如果具有情感值,将情感词典发送给第一先验情感值模型构建部,如果不具有情感值,将情感词典发送给第二先验情感值模型构建部;第一先验情感值模型构建部,在每一本情感词典中,将每个情感词及其词性对应的多个情感值取平均值,作为所述情感词及其词性的先验情感值;第二先验情感值模型构建部,在每一本情感词典中,设定与情感词及其词性的情感强度正相关的强度因子,通过强度因子确定先验情感值的绝对值的大小,通过情感词及其词性在情感词典中的情感极性确定先验情感值为正值或负值;统一部,将各情感词及其词性在第一先验情感值模型构建部的各词典的先验情感值与对应的第二先验情感值模型构建部的各词典的先验情感值组合,得到各情感词及其词性的先验情感知识。根据本专利技术的第四个方面,提供情感词典构建系统,包括:基于文档的情感词典构建系统或/和基于语料的情感词典构建系统作为第一情感词典构建系统;将统一已有情感词典的情感词典构建系统作为第二情感词典构建系统;系统统一部,根据下式(11)统一上述第一情感词典构建系统和第二情感词典构建系统,Uni_senti(SWi,pu)=β×ITI_senti(SWi,pu)+(1-β)×Pri_senti(SWi,pu)(11)其中,UniS(SWi,pu)表示统一第一情感词典构建系统和第二情感词典构建系统得到的统一情感值,β是两者的融合贡献比例,Pri_senti(SWi,pu)表示通过第二情感构建系统得到的(SWi,pu)的先验情感知识,ITI_senti(SWi,pu)表示通过第一情感词典构件系统得到的(SWi,pu)的情感值。根据本专利技术的第五个方面,提供一种情感词典构建方法,包括:采集文档;对文档进行分词,得到文档内的情感词;将采集的文档分为正类文档和负类文档;设定确定情感词属于每一情感极性的情感强本文档来自技高网
...

【技术保护点】
1.一种情感词典构建系统,其特征在于,包括:采集部,采集文档;分词部,对文档进行分词,得到文档内的情感词;文档分类部,将采集部采集的文档分为正类文档和负类文档;设定部,设定确定情感词属于每一情感极性的情感强度的条件,所述情感极性包括正极性、负极性和中性,所述条件包括第一条件、第二条件、第三条件和第四条件中的一个或多个,所述第一条件为情感强度与情感词及其词性在每一类文档中出现频次成正相关,所述第二条件为情感强度与情感词在每一类文档中出现频次成正相关,所述第三条件为情感强度与情感词在正类文档和负类文档中出现频次差的绝对值成正相关,所述第四条件为情感强度与情感词在正类文档和负类文档中出现频次和成负相关;条件模型构建部,根据设定部设定的条件结合TF或/和IDF方法构建条件模型,所述条件模型包括第一条件结合TF方法形成的第一TF模型、第二条件结合TF方法形成的第二TF模型、第三条件结合TF方法形成的第三TF模型和第四条件结合IDF方法形成的IDF模型中的一个或多个;情感强度模型构建部,根据条件模型构建情感词及其词性属于不同情感极性的情感强度模型,所述情感强度模型为条件模型中的任一个模型或为条件模型中多个模型的组合;情感值模型构建部,根据情感词及其词性属于正极性的情感强度与其属于负极性的情感强度的差值构建情感值模型,情感值为正值将情感词归属于正极性,情感值为负值将情感词归属于负极性,情感值为0将情感词归属于中性。...

【技术特征摘要】
1.一种情感词典构建系统,其特征在于,包括:采集部,采集文档;分词部,对文档进行分词,得到文档内的情感词;文档分类部,将采集部采集的文档分为正类文档和负类文档;设定部,设定确定情感词属于每一情感极性的情感强度的条件,所述情感极性包括正极性、负极性和中性,所述条件包括第一条件、第二条件、第三条件和第四条件中的一个或多个,所述第一条件为情感强度与情感词及其词性在每一类文档中出现频次成正相关,所述第二条件为情感强度与情感词在每一类文档中出现频次成正相关,所述第三条件为情感强度与情感词在正类文档和负类文档中出现频次差的绝对值成正相关,所述第四条件为情感强度与情感词在正类文档和负类文档中出现频次和成负相关;条件模型构建部,根据设定部设定的条件结合TF或/和IDF方法构建条件模型,所述条件模型包括第一条件结合TF方法形成的第一TF模型、第二条件结合TF方法形成的第二TF模型、第三条件结合TF方法形成的第三TF模型和第四条件结合IDF方法形成的IDF模型中的一个或多个;情感强度模型构建部,根据条件模型构建情感词及其词性属于不同情感极性的情感强度模型,所述情感强度模型为条件模型中的任一个模型或为条件模型中多个模型的组合;情感值模型构建部,根据情感词及其词性属于正极性的情感强度与其属于负极性的情感强度的差值构建情感值模型,情感值为正值将情感词归属于正极性,情感值为负值将情感词归属于负极性,情感值为0将情感词归属于中性。2.一种情感词典构建系统,其特征在于,包括:第一调用部,调用语料中的文档、情感词及其词性,文档包括正类文档和负类文档;设定部,设定确定情感词属于每一情感极性的情感强度的条件,所述情感极性包括正极性、负极性和中性,所述条件包括第一条件、第二条件、第三条件和第四条件中的一个或多个,所述第一条件为情感强度与情感词及其词性在每一类文档中出现频次成正相关,所述第二条件为情感强度与情感词在每一类文档中出现频次成正相关,所述第三条件为情感强度与情感词在正类文档和负类文档中出现频次差的绝对值成正相关,所述第四条件为情感强度与情感词在正类文档和负类文档中出现频次和成负相关;条件模型构建部,根据设定部设定的条件结合TF或/和IDF方法构建条件模型,所述条件模型包括第一条件结合TF方法形成的第一TF模型、第二条件结合TF方法形成的第二TF模型、第三条件结合TF方法形成的第三TF模型和第四条件结合IDF方法形成的IDF模型中的一个或多个;情感强度模型构建部,根据条件模型构建情感词及其词性属于不同情感极性的情感强度模型,所述情感强度模型为条件模型中的任一个模型或为条件模型中多个模型的组合;情感值模型构建部,根据情感词及其词性属于正极性的情感强度与其属于负极性的情感强度的差值构建情感值模型,情感值为正值将情感词归属于正极性,情感值为负值将情感词归属于负极性,情感值为0将情感词归属于中性。3.根据权利要求1或2所述的情感词典构建系统,其特征在于,所述条件模型构建部包括第一TF模型构建单元、第二TF模型构建单元、第三TF模型构建单元和IDF模型构建单元中的一个或多个,其中:第一TF模型构建单元,根据下式(3)构建第一TF模型其中,SWi表示第i个情感词,pu表示SWi对应的第u个词性,xm表示对应的情感极性,包括正极性和负极性,dm为情感极性对应的xm文档类,当xm表示正极性时,dm表示正类文档,当xm表示负极性时,dm表示负类文档,F1(SWi,pu,xm)表示情感词SWi及其词性pu属于情感极性xm的第一TF模型,count(SWi,pu,xm)表示(SWi,pu)在xm情感极性对应的文档类中出现的次数,∑ucount(SWi,pu,xm)表示在xm情感极性对应的文档类中不同词性的情感词SWi出现的总频次;第二TF模型构建单元,根据下式(4)构建第二TF模型其中,F2(SWi,pu,xm)表示情感词SWi及其词性pu属于情感极性xm的第二TF模型,count(dm)表示dm文档类的文档数量;第三TF模型构建单元,根据下式(5)构建第三TF模型其中,F3(SWi,pu)表示情感词SWi及其词性pu的第三TF模型,count(SWi,pu,dpos)表示正类文档中(SWi,pu)出现的频次,count(SWi,pu,dneg)表示负类文档中(SWi,pu)出现的频次∑zcount(SWi,pu,dz)表示正类文档和负类文档中(SWi,pu)的总频次;IDF模型构建单元,根据下式(6)构建IDF模型其中,F4(SWi,pu)表示情感词SWi及其词性pu的IDF模型,∑zcount(dz)表示正类文档和负类文档的文档总数,ε是常数。4.一种情感词典构建系统,用于统一已有情感词典,其特征在于,包括:第二调用部,调用已有的情感词典;第一判断部,判断情感词典中的情感词是否具有情感值,如果具有情感值,将情感词典发送给第一先验情感值模型构建部,如果不具有情感值,将情感词典发送给第二先验情感值模型构建部;第一先验情感值模型构建部,在每一本情感词典中,将每个情感词及其词性对应的多个情感值取平均值,作为所述情感词及其词性的先验情感值;第二先验情感值模型构建部,在每一本情感词典中,设定与情感词及其词性的情感强度正相关的强度因子,通过强度因子确定先验情感值的绝对值的大小,通过情感词及其词性在情感词典中的情感极性确定先验情感值为正值或负值;统一部,将各情感词及其词性在第一先验情感值模型构建部的各词典的先验情感值与对应的第二先验情感值模型构建部的各词典的先验情感值组合,得到各情感词及其词性的先验情感知识。5.一种情感词典构建系统,其特征在于,包括:权利要求1-3中任一权利要求所述的情感词典构建系统,将其作为第一情感词典构建系统;权利要求4所述的情感词典构建系统,将其作为第二情感词典构建系统;系统统一部,根据下式(11)统一上述第一情感词典构建系统和第二情感词典构建系统,Uni_senti(SWi,pu)=β×ITI_senti(SWi,pu)+(1-β)×Pri_senti(SWi,pu)(11)其中,UniS(SWi,pu)表示统一第一情感...

【专利技术属性】
技术研发人员:殷复莲王颜颜刘剑波贺夏婷苏沛吴佳乐邵雪莹
申请(专利权)人:中国传媒大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1