一种基于语法依赖图与词典扩展的中文情感极性检测方法技术

技术编号:32214004 阅读:40 留言:0更新日期:2022-02-09 17:19
本发明专利技术提供一种基于语法依赖图与词典扩展的中文情感极性检测方法,首先对目标文本进行预处理,进行语法依赖关系分析并生成相应的语法依赖图,对种子词典中的正向词汇列表和负向词汇列表进行交叉计算,去除交集部分,对图中每个节点词语进行分类,并将其归属至不同词汇表,计算得出该点情感极性,重复迭代计算出图中每一个词语的情感极性,对依赖图中所有节点词汇重新分类归纳,构建情感特征空间,采用词频对所获得的情感特征空间进行特征枝剪,提取情感特征子集。本发明专利技术能够有效避免了相同词语在不同情形下情感极性的不同的情形,克服了词语的不可罗列性,消除了情感极性模糊对极性分析精度的影响,提高了情感极性检测在中文领域的精确度。域的精确度。域的精确度。

【技术实现步骤摘要】
一种基于语法依赖图与词典扩展的中文情感极性检测方法


[0001]本专利技术属于情感极性检测
,具体设计的是一种基于语法依赖图与词典扩展的情 感检测的改进方法,适用于中文文本情感极性的分析与检测。

技术介绍

[0002]文本情感极性分析是自然语言处理中的一项重要应用。随着互联网的飞速发展,社交网 络已经成为人们生活中不可或缺的一部分,各个平台的日均用户集成文本信息数据量也不可 小觑。面对庞大的文本数据集,仅仅依靠人工收集并进行分析会消耗大量的资源,从而造成 资源的浪费,利用机器辅助对文本情感极性进行分析处理可以有效的解决上述问题。
[0003]目前,多数情感极性分析模型的建立都是基于语法信息与词典集。其中,基于语法信息 的文本情感极性分析方法中多采用语法依赖关系提取文本主要语义信息,如利用N

gram语言 模型以及语言特征进行短语间语法关系的提取,或者用树形结构来表示文本中各个词语间的 依赖关系。通过提取语法关系来表示文本主要的语义信息可以有效的消除文本中非主要词汇 对整体情感极性分析的干扰,但该类方法必须基于外本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于语法依赖图与词典扩展的中文情感极性检测方法,其特征在于,包括以下步骤:步骤1,输入待处理的语料库,对语料库中的文本进行预处理,对照所有种子词典将语料库中所有文本分词处理,进行词性标注以及去停用词工作,并添加否定标记,将具有否定意义的词汇否定标志置1;步骤2,对于步骤1得到的预处理之后的数据集中的文本视为词语序列,以词语为节点,依据词语间语法关系进行依赖关系分析,并根据依赖关系生成相应依赖图,依据所采用的种子词典对词语节点的情感极性强度值初始化处理;步骤3,对所采用的多个种子词典中的每一个种子词典中的正向词汇列表即P_WL、负向词汇列表即N_WL进行交叉计算,去除其交集部分得到极性种子词汇表,包括正向种子词汇表即P_SWL、负向种子词汇表即N_SWL;步骤4,根据步骤3中得出的极性种子词汇表,对步骤2所得出的依赖图中所有节点词汇进行分类并归纳进P_SWL、N_SWL,若节点词汇都不在P_SWL、N_SWL中,则单独归纳进未知词汇表Unknown_list;步骤5,对于步骤4中每一个节点词汇,基于步骤2所获得的依赖图中相邻节点的情感极性强度值进行情感极性强度值计算,可以得出部分未知词汇表中词汇的情感极性强度值,重复迭代直至未知词汇表中词汇清零;步骤6,对步骤5中所有得出情感极性的词汇依据其情感极性强度值进行降序排列并重新分组,将否定标记为1的词汇的情感极性逆置后把所有词汇的否定标记置0;步骤7,将步骤6中处理完毕的词汇记为词典扩展结果保存并反馈至步骤3)的种子词典中,从中抽取目标语料域即待处理语料库内词语的情感极性信息,将其作为初始情感特征对称映射,构建一个完整的情感特征空间;步骤8,采用词频对步骤7中所获得的情感特征空间进行特征枝剪,提取情感特征子集;步骤9,根据步骤8)中所提取的情感特征子集中的特征,通过关键情感特征将文本表示为n维0

1向量,再将n维向量依据“正向情感特征”与“负向情感特征”划分为两个子向量,最终对每个给定文本输出n+2维向量,其中n为情感特征子集中包含的特征总数,2为当前特征向量中“正向”与“负向”词语总数。2.根据权利要求1所述的基于语法依赖图与词典扩展的中文情感极性检测方法,其特征在于:步骤2中,根据词语间的语法关系,即词语共现关系,对所得语法依赖图的依赖关系进行限制缩减,以获得最终的语法依赖图,其中词语共现关系具体包括由连词连接的两个词语或在文本中常共同出现的词对以及形如“形容词/副词+动词/习语”的任意...

【专利技术属性】
技术研发人员:荣欢季俊如
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1