当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于到达定值的主题情感摘要方法技术

技术编号:39331036 阅读:12 留言:0更新日期:2023-11-12 16:07
本发明专利技术公开了计算机信息技术处理领域的一种基于到达定值的主题情感摘要方法,旨在解决现有技术中因忽略句子间的情感变化和整个文档中的情感流动而无法对富含情感的文档进行高质量摘要的技术问题。所述方法包括如下步骤:基于主题模型和情感词典,求取语料文档的主题分布和情感特征;基于文档的主题分布,构建文档的结构关系树;基于文档的结构关系树,生成情感流图;基于文档的情感特征和情感流图,生成主题情感摘要。生成主题情感摘要。生成主题情感摘要。

【技术实现步骤摘要】
一种基于到达定值的主题情感摘要方法


[0001]本专利技术涉及一种基于到达定值的主题情感摘要方法,属于计算机信息技术处理领域。

技术介绍

[0002]随着互联网社区的发展,人们在日常生活中会接收到海量的文本信息,但是其中只有少部分信息才是他们真正需要的。人们需要花费大量的时间来筛选信息。为了更加方便的从文本中获取主要内容,研究者们提出了文本摘要生成技术,这使得获取有效信息的成本大大降低。大多数文本信息都包含了情感,仅从表层含义对其进行摘要会造成情感的损失而导致最终摘要的质量较低。如何合理地利用情感信息生成更高质量的摘要,成为一个值得研究的方向。
[0003]早期,很多研究工作围绕着表层的统计信息特征进行文本摘要,Luhn等人提出来一种基于词和短语的频率的抽取式文本摘要方法,他们关注高频出现的词并忽略助词。后来得益于文本分析技术的发展,主题分析技术和情感分析技术被广泛的应用于文本摘要中。基于主题分析的文本摘要方法通常使用主题模型对文档进行建模。其中,LDA主题模型是最常用的。同时,还有一些神经主题模型,例如NQTM和CRNTM。LDA模型的输出是文档

主题分布和主题

词分布。二者都可以直接用于筛选句子或者帮助构建更好句子评价指标用于句子筛选。Roul等人就根据来自主题模型的分布构建了一个二维权重矩阵,行句子,列表示主题。在每一列中,选择权重较高的句子作为候选摘要中的组成部分。基于情感分析的文本摘要方法通常使用现有的情感词典计算句子的情感分数并选择最高分数的句子构建摘要。使用通用的情感词典往往存在两个问题:覆盖面不全和特异性不足。为了解决覆盖面不全的问题,Abdi等人提出了两种方式:一种是结合多个情感词典计算情感分数,最后将其标准化为一个统一的结果;另一种是计算同义词的情感分数。为了解决特异性不足的问题,研究者们介绍了一些机器学习方法,他们充分利用文本自身的语义特征来分析情感。
[0004]现有基于情感分析的文本摘要方法通常只关注一个句子整体的情感。然而,一个句子中可能包含多个主题,每个主题的情感可能是不同的。只关注句子整体的情感会导致一些主题情感的损失。联合情感主题模型可用于更加细粒度的分析文本,但是它们大多数都忽略了情感变化。Rahman等人介绍了一种将句子作为可观测状态的隐马尔可夫模型,通过对两个变量的采样判断在两个句子间是否存在情感变化。但他们也仅是考虑了情感变化的有无,没有对其进行量化。目前,能够充分利用情感信息生成高质量摘要的研究相对较少,迫切需要提供一种摘要方法,用以解决因忽略更细粒度的情感信息,如整个文档中的情感流动和句子间的局部情感变化,而导致最终摘要包含的情感受损的问题。

技术实现思路

[0005]针对现有技术的不足,本专利技术的目的在于提供一种基于到达定值的主题情感摘要方法,以解决现有技术中因忽略句子间的情感变化和整个文档中的情感流动这些更细粒度
的情感信息而导致最终摘要包含的情感受损的技术问题。
[0006]为解决上述技术问题,本专利技术所采用的技术方案是:
[0007]一种基于到达定值的主题情感摘要方法,包含如下步骤:
[0008]基于主题模型和情感词典,求取语料文档的主题分布和情感特征;
[0009]基于文档的主题分布,构建文档的结构关系树;
[0010]基于文档的结构关系树,生成情感流图;
[0011]基于文档的情感特征和情感流图,生成主题情感摘要。
[0012]进一步地,所述语料文档主题分布的求取方法,包括:
[0013]对语料文档中的字符串文本进行预处理,获取每篇文档的词语集合以训练一个主题模型;
[0014]基于训练好的主题模型,求取文档的句子

主题分布和句子的词

主题分布;
[0015]基于句子的词

主题分布,计算在每个主题下的词分布。
[0016]进一步地,所述预处理包括文本分词、停用词过滤、否定词标记中的至少任一项。
[0017]进一步地,所述语料文档情感特征的求取方法,包括:
[0018]基于情感词典查询句子中的词语,获取每个词语的情感向量;
[0019]基于同一个主题中的词语,求取情感向量的算术平均值,得到句子中每个主题的情感向量,作为文档在句子层级上的情感特征。
[0020]进一步地,所述文档结构关系树的构建方法,包括:
[0021]根据文档的句子顺序,选择一个句子作为起始点,并从该起始点依次向前和向后遍历每个句子;
[0022]基于句子包含的主题,在遍历过程中判断句子的主题集合与起始点句子之间的包含关系和等价关系;
[0023]基于句子主题集合之间的包含关系和等价关系,确定文档的总

分结构、分

总结构和循环结构;
[0024]基于文档的总

分、分

总和循环结构,构建文档结构关系树。
[0025]进一步地,所述句子之间包含关系和等价关系的判断方法,包括:
[0026]根据训练好的主题模型,依次获取起始点句子v
i
,向前遍历的句子v
i
‑1、v
i
‑2......,和向后遍历的句子v
i+1
、v
i+2
......的主题集合T


[0027]若连续的句子的主题集合之间的关系是或则句子之间存在包含关系;
[0028]若连续的句子的主题集合之间的关系是T

i
=T

i

j
,j∈{1,2,...}或T

i
=T

i+j
,j∈{1,2,...},则句子之间存在等价关系
[0029]进一步地,所述情感流图的生成方法,包括:
[0030]构建一个进入节点和一个退出节点;
[0031]将文档中的每个句子作为节点,句子中的主题作为节点中的变量,主题的情感向量作为对变量的赋值;
[0032]连接进入节点和文档结构关系树的根节点,连接文档结构关系树的叶子节点和退出节点,生成文档的情感流图。
[0033]进一步地,所述主题情感摘要的生成方法,包括:
[0034]构建一个初始情感向量,每个维度的值初始化为0,构建一个初始情感变化向量,每个维度的值也初始化为0;
[0035]基于情感流图和改进的到达定值方程,计算每个节点输出的情感向量和情感变化向量;
[0036]当情感达到稳定状态,即情感不再变化时,基于叶子节点在情感流图中的深度,对叶子节点输出的情感向量进行加权求和,获取最终的主题情感向量。
[0037]进一步地,所述初始情感向量的维度为50,对应10个主题,每个主题的情感向量维度为5,所述初始情感变化向量的维度等于对情感变量的赋值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于到达定值的主题情感摘要方法,其特征是,包括如下步骤:基于主题模型和情感词典,求取语料文档的主题分布和情感特征;基于文档的主题分布,构建文档的结构关系树;基于文档的结构关系树,生成情感流图;基于文档的情感特征和情感流图,生成主题情感摘要。2.根据权利要求1所述的基于到达定值的主题情感摘要方法,其特征是,所述语料文档主题分布的求取方法,包括:对语料文档中的字符串文本进行预处理,获取每篇文档的词语集合以训练一个主题模型;基于训练好的主题模型,求取文档的句子

主题分布和句子的词

主题分布;基于句子的词

主题分布,计算在每个主题下的词分布。3.根据权利要求2所述的基于到达定值的主题情感摘要方法,其特征是,所述预处理包括文本分词、停用词过滤、否定词标记中的至少任一项。4.根据权利要求1所述的基于到达定值的主题情感摘要方法,其特征是,所述语料文档情感特征的求取方法,包括:基于情感词典查询句子中的词语,获取每个词语的情感向量;基于同一个主题中的词语,求取情感向量的算术平均值,得到句子中每个主题的情感向量,作为文档在句子层级上的情感特征。5.根据权利要求1所述的基于到达定值的主题情感摘要方法,其特征是,所述文档结构关系树的构建方法,包括:根据文档的句子顺序,选择一个句子作为起始点,并从该起始点依次向前和向后遍历每个句子;基于句子包含的主题,在遍历过程中判断句子的主题集合与起始点句子之间的包含关系和等价关系;基于句子主题集合之间的包含关系和等价关系,确定文档的总

分结构、分

总结构和循环结构;基于文档的总

分、分

总和循环结构,构建文档结构关系树。6.根据权利要求5所述的基于到达定值的主题情感摘要方法,其特征是,所述句子之间包含关系和等价关系的判断方法,包括:根据训练好的主题模型,依次获取起始点句子v
i
,向前遍历的句子v
i
‑1、v
i
‑2......,和向后遍历的句子v
i+1
、v
i+2
......的主题集合T

。若连续的句子的主题集合之间的关系是或则句子之间存在包含关系;若连续的句子的主题集合之间的关系是T

i
=T
...

【专利技术属性】
技术研发人员:李晓东邹晨鑫
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1