【技术实现步骤摘要】
一种文本情感分析的方法及装置
[0001]本申请属于自然语言处理
,尤其涉及一种文本情感分析的方法及装置。
技术介绍
[0002]随着互联网技术的发展,大量包括了用户的情感倾向的文本信息汇集在各个网络平台,如对某种产品的批评或是喜好等。如果能及时获取这些文本中包括的情绪,将对于商业运行和学术研究具有重要的意义,例如可以用于产品分析推荐、消费预测等方面。因此,文本情感分析技术目前是一个活跃的研究领域并具有充分的发展空间。
[0003]文本情感分析(Sentiment Analysis)是指利用自然语言处理和文本挖掘技术,对带有感情色彩的主观性文本进行分析、处理和抽取的过程。目前,根据对文本进行情感分析时的层次不同,可以将文本情感分析技术分为篇章级、句子级和词语级文本情感极性的分析。
[0004]其中,词语级的文本情感分析即识别文本中包括的情感词,根据这些情感词所表达的情感倾向来推理整篇文本的情感。
[0005]但由于语言表达具有高度的复杂性,尤其是对中文文本进行分析时,词语具有非常灵活多样的使用方式,词语级的文本情感分析手段很容易得出片面的结果。现有技术在进行自然语言处理时,可能会忽略一些关键性的文本特征信息,导致文本的情感分析结果不准确。
[0006]此外,现有技术在进行文本情感分析时,通常需要大量的样本数据做支撑,且对样本具有较高的依赖性,在分析待测文本时容易存在覆盖面上的不足。
技术实现思路
[0007]有鉴于此,本申请提供了一种文本情感分析的方法及装置,可以 ...
【技术保护点】
【技术特征摘要】
1.一种文本情感分析的方法,其特征在于,包括:根据第一情感词在语料库中出现的次数,确定所述第一情感词的情感倾向强度值;根据第二情感词在所述语料库中提取第三情感词,所述第二情感词指第一情感词典中的词,所述第三情感词与所述第二情感词具有相似的句法结构;根据所述情感倾向强度值和所述第三情感词,生成第二情感词典,所述第二情感词典包括所述第一情感词、所述第二情感词和所述第三情感词;根据所述第二情感词典对待测文本的情感极性进行分析。2.根据权利要求1所述的方法,其特征在于,在根据所述第二情感词典对待测文本的情感极性进行分析之前,所述方法还包括:确定所述待测文本的情感极性概率;其中,所述根据所述第二情感词典对待测文本的情感极性进行分析,包括:根据所述情感极性概率和所述第二情感词典,对所述待测文本的情感极性进行分析。3.根据权利要求1或2所述的方法,其特征在于,所述第一情感词包括正面情感词和负面情感词,所述语料库中包括正面情感语料和负面情感语料;其中,所述根据第一情感词在语料库中出现的次数,确定所述第一情感词的情感倾向强度值,包括:根据所述正面情感词在所述正面情感语料中表示正面语义时的出现次数、所述正面情感词在所述负面情感语料中表示正面语义时的出现次数、所述正面情感词在所述负面情感语料中出现次数、在所述正面情感语料中所有表示正面语义的情感词出现次数之和中的一项或多项,确定所述正面情感词的情感倾向强度值;根据所述负面情感词在所述负面情感语料中表示负面语义时的出现次数、所述负面情感词在所述正面情感语料中表示负面语义时的出现次数、所述负面情感词在所述正面情感语料中出现次数、在所述负面情感语料中所有表示负面语义的情感词出现次数之和中的一项或多项,确定所述负面情感词的情感倾向强度值。4.根据权利要求3所述的方法,其特征在于,所述正面情感词的情感倾向强度值满足下式:其中,t
i
为所述正面情感词,为t
i
的情感倾向强度值,为t
i
在所述正面情感语料中表示正面语义时的出现次数,pwords为所有所述正面情感词构成的集合,为所述正面情感语料中所有表示正面语义的情感词出现次数之和,为t
i
在所述负面情感语料中表示正面语义时的出现次数,为t
i
在所述负面情感语料中出现次数;所述负面情感词的情感倾向强度值满足下式:
其中,t
i
为所述负面情感词,为t
i
的情感倾向强度值,为t
i
在所述负面情感语料中表示负面语义时的出现次数,nwords为所有所述负面情感词构成的集合,为所述负面情感语料中所有表示负面语义的情感词出现次数之和,为t
i
在所述正面情感语料中表示负面语义时的出现次数,为t
i
在所述正面情感语料中出现次数。5.根据权利要求1至4中任一项的所述方法,其特征在于,所述根据第二情感词在所述语料库中提取第三情感词,包括:对所述语料库中的文本进行句法分析,获得句法分析结果;将所述文本划分为短句集;根据所述第二情感词确定所述第二情感词所在的第一短句,所述第一短句为所述短句集中的短句;对所述第二情感词和所述第一短句进行标注,获得句法结构标注结果;根据所述句法分析结果以及所述句法结构标注结果,确定第二短句以及所述第三情感词,所述第二短句为所述第三情感词在所述短句集中所在的短句,且所述第二短句与所述第一短句具有相似的句法结构,其中,所述第三情感词在语料库中的出现次数大于第一阈值;根据所述第二情感词,确定所述第三情感词的情感倾向,所述情感倾向包括正面情感倾向和负面情感倾向;根据所述第三情感词的情感倾向,确定所述第三情感词的情感倾向强度值。6.根据权利要求5所述的方法,其特征在于,所述根...
【专利技术属性】
技术研发人员:李晓琼,黄鼎,陈昭,
申请(专利权)人:深圳太极数智技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。