一种文本情感分析的方法及装置制造方法及图纸

技术编号:35032260 阅读:12 留言:0更新日期:2022-09-24 23:07
本申请适用于自然语言处理技术领域,提供了一种文本情感分析的方法及装置。该方法包括:根据第一情感词在语料库中出现的次数,确定所述第一情感词的情感倾向强度值;根据所述第一情感词典中的第二情感词,在所述语料库中提取与所述第二情感词具有相似句法结构的第三情感词;根据所述情感倾向强度值和所述第三情感词,生成第二情感词典,所述第二情感词典包括所述第一情感词、所述第二情感词和所述第三情感词;根据所述第二情感词典对待测文本的情感极性进行分析。本申请可以提高在基于情感词典对待测文本进行情感极性分析时的覆盖面和准确率。和准确率。和准确率。

【技术实现步骤摘要】
一种文本情感分析的方法及装置


[0001]本申请属于自然语言处理
,尤其涉及一种文本情感分析的方法及装置。

技术介绍

[0002]随着互联网技术的发展,大量包括了用户的情感倾向的文本信息汇集在各个网络平台,如对某种产品的批评或是喜好等。如果能及时获取这些文本中包括的情绪,将对于商业运行和学术研究具有重要的意义,例如可以用于产品分析推荐、消费预测等方面。因此,文本情感分析技术目前是一个活跃的研究领域并具有充分的发展空间。
[0003]文本情感分析(Sentiment Analysis)是指利用自然语言处理和文本挖掘技术,对带有感情色彩的主观性文本进行分析、处理和抽取的过程。目前,根据对文本进行情感分析时的层次不同,可以将文本情感分析技术分为篇章级、句子级和词语级文本情感极性的分析。
[0004]其中,词语级的文本情感分析即识别文本中包括的情感词,根据这些情感词所表达的情感倾向来推理整篇文本的情感。
[0005]但由于语言表达具有高度的复杂性,尤其是对中文文本进行分析时,词语具有非常灵活多样的使用方式,词语级的文本情感分析手段很容易得出片面的结果。现有技术在进行自然语言处理时,可能会忽略一些关键性的文本特征信息,导致文本的情感分析结果不准确。
[0006]此外,现有技术在进行文本情感分析时,通常需要大量的样本数据做支撑,且对样本具有较高的依赖性,在分析待测文本时容易存在覆盖面上的不足。

技术实现思路

[0007]有鉴于此,本申请提供了一种文本情感分析的方法及装置,可以提高在基于情感词典对进行文本情感分析时的覆盖面和准确率。
[0008]第一方面,本申请实施例提供了一种文本情感分析的方法,包括:
[0009]根据第一情感词在语料库中出现的次数,确定所述第一情感词的情感倾向强度值;
[0010]根据第二情感词在所述语料库中提取第三情感词,所述第二情感词指第一情感词典中的词,所述第三情感词与所述第二情感词具有相似的句法结构;
[0011]根据所述情感倾向强度值和所述第三情感词,生成第二情感词典,所述第二情感词典包括所述第一情感词、所述第二情感词和所述第三情感词;
[0012]根据所述第二情感词典对待测文本的情感极性进行分析。
[0013]本申请实施例通过所述第一情感词在所述语料库中的出现次数,来确定所述第一情感词的情感倾向强度值,提高了确定情感词所表达的情感强度时的准确性。此外,本申请实施例在所述语料库中提取第三情感词,并根据情感倾向强度值和第三情感词来生成第二情感词典,扩大了第二情感词典的覆盖面。因此,在根据所述第二情感词典对待测文本的情
感极性进行分析时,本申请实施例能够提高文本情感极性分析结果的准确率和覆盖面。
[0014]在一种可能的实现方式中,在根据所述第二情感词典对待测文本的情感极性进行分析之前,所述方法还包括:
[0015]确定所述待测文本的情感极性概率;
[0016]其中,所述根据所述第二情感词典对待测文本的情感极性进行分析,包括:
[0017]根据所述情感极性概率和所述第二情感词典,对所述待测文本的情感极性进行分析。
[0018]在一种可能的实现方式中,所述第一情感词包括正面情感词和负面情感词,所述语料库中包括正面情感语料和负面情感语料;
[0019]其中,所述根据第一情感词在语料库中出现的次数,确定所述第一情感词的情感倾向强度值,包括:
[0020]根据所述正面情感词在所述正面情感语料中表示正面语义时的出现次数、所述正面情感词在所述负面情感语料中表示正面语义时的出现次数、所述正面情感词在所述负面情感语料中出现次数、在所述正面情感语料中所有表示正面语义的情感词出现次数之和中的一项或多项,确定所述正面情感词的情感倾向强度值;
[0021]根据所述负面情感词在所述负面情感语料中表示负面语义时的出现次数、所述负面情感词在所述正面情感语料中表示负面语义时的出现次数、所述负面情感词在所述正面情感语料中出现次数、在所述负面情感语料中所有表示负面语义的情感词出现次数之和中的一项或多项,确定所述负面情感词的情感倾向强度值。
[0022]在一种可能的实现方式中,所述正面情感词的情感倾向强度值满足下式:
[0023][0024]其中,t
i
为所述正面情感词,为t
i
的情感倾向强度值,为t
i
在所述正面情感语料中表示正面语义时的出现次数,pwords为所有所述正面情感词构成的集合,为所述正面情感语料中所有表示正面语义的情感词出现次数之和,为t
i
在所述负面情感语料中表示正面语义时的出现次数,为t
i
在所述负面情感语料中出现次数;
[0025]所述负面情感词的情感倾向强度值满足下式:
[0026][0027]其中,t
i
为所述负面情感词,为t
i
的情感倾向强度值,为t
i
在所述负面情感语料中表示负面语义时的出现次数,nwords为所有所述负面情感词构成的集合,为所述负面情感语料中所有表示负面语义的情感词出现次数之和,为t
i
在所述正面情
感语料中表示负面语义时的出现次数,为t
i
在所述正面情感语料中出现次数。
[0028]在一种可能的实现方式中,所述根据第二情感词在所述语料库中提取第三情感词,包括:
[0029]对所述语料库中的文本进行句法分析,获得句法分析结果;
[0030]将所述文本划分为短句集;
[0031]根据所述第二情感词确定所述第二情感词所在的第一短句,所述第一短句为所述短句集中的短句;
[0032]对所述第二情感词和所述第一短句进行标注,获得句法结构标注结果;
[0033]根据所述句法分析结果以及所述句法结构标注结果,确定第二短句以及所述第三情感词,所述第二短句为所述第三情感词在所述短句集中所在的短句,且所述第二短句与所述第一短句具有相似的句法结构,其中,所述第三情感词在语料库中的出现次数大于第一阈值;
[0034]根据所述第二情感词,确定所述第三情感词的情感倾向,所述情感倾向包括正面情感倾向和负面情感倾向;
[0035]根据所述第三情感词的情感倾向,确定所述第三情感词的情感倾向强度值。
[0036]应该理解,本申请实施例基于第二情感词与第三情感词具有句法结构的相似性,通过对第二情感词和第一短句进行标注,在语料库中获取第三情感词。在本申请实施例生成的第二情感词典中,包括第一情感词,第二情感词和第三情感词。因此。本申请实施例有效扩大了第二情感词典的覆盖面。
[0037]在一种可能的实现方式中,所述根据所述第二情感词,确定所述第三情感词的情感倾向,包括:
[0038]根据所述第二情感词和所述第三情感词在同一所述文本中的共现关系,确定情感词图,所述情感词图包括正面情感子图和负面情感子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本情感分析的方法,其特征在于,包括:根据第一情感词在语料库中出现的次数,确定所述第一情感词的情感倾向强度值;根据第二情感词在所述语料库中提取第三情感词,所述第二情感词指第一情感词典中的词,所述第三情感词与所述第二情感词具有相似的句法结构;根据所述情感倾向强度值和所述第三情感词,生成第二情感词典,所述第二情感词典包括所述第一情感词、所述第二情感词和所述第三情感词;根据所述第二情感词典对待测文本的情感极性进行分析。2.根据权利要求1所述的方法,其特征在于,在根据所述第二情感词典对待测文本的情感极性进行分析之前,所述方法还包括:确定所述待测文本的情感极性概率;其中,所述根据所述第二情感词典对待测文本的情感极性进行分析,包括:根据所述情感极性概率和所述第二情感词典,对所述待测文本的情感极性进行分析。3.根据权利要求1或2所述的方法,其特征在于,所述第一情感词包括正面情感词和负面情感词,所述语料库中包括正面情感语料和负面情感语料;其中,所述根据第一情感词在语料库中出现的次数,确定所述第一情感词的情感倾向强度值,包括:根据所述正面情感词在所述正面情感语料中表示正面语义时的出现次数、所述正面情感词在所述负面情感语料中表示正面语义时的出现次数、所述正面情感词在所述负面情感语料中出现次数、在所述正面情感语料中所有表示正面语义的情感词出现次数之和中的一项或多项,确定所述正面情感词的情感倾向强度值;根据所述负面情感词在所述负面情感语料中表示负面语义时的出现次数、所述负面情感词在所述正面情感语料中表示负面语义时的出现次数、所述负面情感词在所述正面情感语料中出现次数、在所述负面情感语料中所有表示负面语义的情感词出现次数之和中的一项或多项,确定所述负面情感词的情感倾向强度值。4.根据权利要求3所述的方法,其特征在于,所述正面情感词的情感倾向强度值满足下式:其中,t
i
为所述正面情感词,为t
i
的情感倾向强度值,为t
i
在所述正面情感语料中表示正面语义时的出现次数,pwords为所有所述正面情感词构成的集合,为所述正面情感语料中所有表示正面语义的情感词出现次数之和,为t
i
在所述负面情感语料中表示正面语义时的出现次数,为t
i
在所述负面情感语料中出现次数;所述负面情感词的情感倾向强度值满足下式:
其中,t
i
为所述负面情感词,为t
i
的情感倾向强度值,为t
i
在所述负面情感语料中表示负面语义时的出现次数,nwords为所有所述负面情感词构成的集合,为所述负面情感语料中所有表示负面语义的情感词出现次数之和,为t
i
在所述正面情感语料中表示负面语义时的出现次数,为t
i
在所述正面情感语料中出现次数。5.根据权利要求1至4中任一项的所述方法,其特征在于,所述根据第二情感词在所述语料库中提取第三情感词,包括:对所述语料库中的文本进行句法分析,获得句法分析结果;将所述文本划分为短句集;根据所述第二情感词确定所述第二情感词所在的第一短句,所述第一短句为所述短句集中的短句;对所述第二情感词和所述第一短句进行标注,获得句法结构标注结果;根据所述句法分析结果以及所述句法结构标注结果,确定第二短句以及所述第三情感词,所述第二短句为所述第三情感词在所述短句集中所在的短句,且所述第二短句与所述第一短句具有相似的句法结构,其中,所述第三情感词在语料库中的出现次数大于第一阈值;根据所述第二情感词,确定所述第三情感词的情感倾向,所述情感倾向包括正面情感倾向和负面情感倾向;根据所述第三情感词的情感倾向,确定所述第三情感词的情感倾向强度值。6.根据权利要求5所述的方法,其特征在于,所述根...

【专利技术属性】
技术研发人员:李晓琼黄鼎陈昭
申请(专利权)人:深圳太极数智技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1