当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于到达定值的主题情感摘要方法技术

技术编号:39331036 阅读:31 留言:0更新日期:2023-11-12 16:07
本发明专利技术公开了计算机信息技术处理领域的一种基于到达定值的主题情感摘要方法,旨在解决现有技术中因忽略句子间的情感变化和整个文档中的情感流动而无法对富含情感的文档进行高质量摘要的技术问题。所述方法包括如下步骤:基于主题模型和情感词典,求取语料文档的主题分布和情感特征;基于文档的主题分布,构建文档的结构关系树;基于文档的结构关系树,生成情感流图;基于文档的情感特征和情感流图,生成主题情感摘要。生成主题情感摘要。生成主题情感摘要。

【技术实现步骤摘要】
一种基于到达定值的主题情感摘要方法


[0001]本专利技术涉及一种基于到达定值的主题情感摘要方法,属于计算机信息技术处理领域。

技术介绍

[0002]随着互联网社区的发展,人们在日常生活中会接收到海量的文本信息,但是其中只有少部分信息才是他们真正需要的。人们需要花费大量的时间来筛选信息。为了更加方便的从文本中获取主要内容,研究者们提出了文本摘要生成技术,这使得获取有效信息的成本大大降低。大多数文本信息都包含了情感,仅从表层含义对其进行摘要会造成情感的损失而导致最终摘要的质量较低。如何合理地利用情感信息生成更高质量的摘要,成为一个值得研究的方向。
[0003]早期,很多研究工作围绕着表层的统计信息特征进行文本摘要,Luhn等人提出来一种基于词和短语的频率的抽取式文本摘要方法,他们关注高频出现的词并忽略助词。后来得益于文本分析技术的发展,主题分析技术和情感分析技术被广泛的应用于文本摘要中。基于主题分析的文本摘要方法通常使用主题模型对文档进行建模。其中,LDA主题模型是最常用的。同时,还有一些神经主题模型,例如NQTM和CRNTM。LDA模型本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于到达定值的主题情感摘要方法,其特征是,包括如下步骤:基于主题模型和情感词典,求取语料文档的主题分布和情感特征;基于文档的主题分布,构建文档的结构关系树;基于文档的结构关系树,生成情感流图;基于文档的情感特征和情感流图,生成主题情感摘要。2.根据权利要求1所述的基于到达定值的主题情感摘要方法,其特征是,所述语料文档主题分布的求取方法,包括:对语料文档中的字符串文本进行预处理,获取每篇文档的词语集合以训练一个主题模型;基于训练好的主题模型,求取文档的句子

主题分布和句子的词

主题分布;基于句子的词

主题分布,计算在每个主题下的词分布。3.根据权利要求2所述的基于到达定值的主题情感摘要方法,其特征是,所述预处理包括文本分词、停用词过滤、否定词标记中的至少任一项。4.根据权利要求1所述的基于到达定值的主题情感摘要方法,其特征是,所述语料文档情感特征的求取方法,包括:基于情感词典查询句子中的词语,获取每个词语的情感向量;基于同一个主题中的词语,求取情感向量的算术平均值,得到句子中每个主题的情感向量,作为文档在句子层级上的情感特征。5.根据权利要求1所述的基于到达定值的主题情感摘要方法,其特征是,所述文档结构关系树的构建方法,包括:根据文档的句子顺序,选择一个句子作为起始点,并从该起始点依次向前和向后遍历每个句子;基于句子包含的主题,在遍历过程中判断句子的主题集合与起始点句子之间的包含关系和等价关系;基于句子主题集合之间的包含关系和等价关系,确定文档的总

分结构、分

总结构和循环结构;基于文档的总

分、分

总和循环结构,构建文档结构关系树。6.根据权利要求5所述的基于到达定值的主题情感摘要方法,其特征是,所述句子之间包含关系和等价关系的判断方法,包括:根据训练好的主题模型,依次获取起始点句子v
i
,向前遍历的句子v
i
‑1、v
i
‑2......,和向后遍历的句子v
i+1
、v
i+2
......的主题集合T

。若连续的句子的主题集合之间的关系是或则句子之间存在包含关系;若连续的句子的主题集合之间的关系是T

i
=T
...

【专利技术属性】
技术研发人员:李晓东邹晨鑫
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1