当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于图模型的自动文摘方法技术

技术编号:12707130 阅读:155 留言:0更新日期:2016-01-14 03:46
本发明专利技术涉及自动文摘领域,是一种基于图模型的自动文摘方法。本发明专利技术的技术方案是将LDA概率主题模型应用于句子间语义相关性的度量,改进句子相关性的度量效果,并提出了句子的主题相关度和位置敏感度的概念,使得文摘的生成更加合理有效。该方法首先通过训练LDA主题模型获得文档的主题概率分布和主题的单词概率分布,然后求出句子主题概率分布,将句子间的语义相似度度量有效的转换成了句子主题概率分布的相似性度量问题;然后使用句子作为节点,根据句子间的语义相似性并结合余弦相似性构建边,生成一个代表文档的文本图;接下来根据句子与文档的主题概率分布计算句子的主题相关度,根据句子在文档中的位置计算句子的位置敏感度等。

【技术实现步骤摘要】

本专利技术涉及自动文摘领域,特别涉及到。
技术介绍
自动文摘技术是利用计算机对文档进行自动处理,生成包含原文档核心内容的摘 要,实现对文档的压缩,使得人们可以用较少的时间就可发现并获取需要的信息,可以有效 地解决信息超载问题。 尽管自动文摘自1960至今已有相当长的研究历史,但基于抽取的文摘方式即从 原文中直接抽取关键句子生成文摘依然是该领域最主流的方法。基于抽取的自动文摘的核 心思想是:首先对一篇或者多篇文档中句子的各种特征进行统计分析,计算句子的重要程 度,再通过适当的摘要方法选出摘要句子,形成文章摘要。基于抽取的自动文摘目前所应用 的技术可以分为5个类别:基于统计的技术;基于主题的技术;基于篇章关系的技术;机器 学习技术;基于图模型的技术。 统计模型在自然语言处理领域应用广泛,统计技术也是自动文摘最早应用的技 术,相对于其他技术,统计技术不需要复杂的建模,简单且易于实现;文本单元的重要性不 只决定于字面上的词语重复,还取决于文字背后的语义关联,基于主题的方法是通过挖掘 语义关联,将主题知识融入对文本单元权重的计算;除了以上提到的方法,从语言学的角度 同样可以解决自本文档来自技高网...

【技术保护点】
一种基于图模型的自动文摘方法,其特征在于,该方法首先通过训练LDA主题模型获得文档的主题概率分布和主题的单词概率分布,然后求出句子主题概率分布,将句子间的语义相似度度量有效的转换成了句子主题概率分布的相似性度量问题;然后使用句子作为节点,根据句子间的语义相似性并结合余弦相似性构建边,生成一个代表文档的文本图;接下来根据句子与文档的主题概率分布计算句子的主题相关度,根据句子在文档中的位置计算句子的位置敏感度,并根据这两项属性赋予节点静态权重,然后利用Biased‑PageRank算法对句子进行排序;最后根据要求选出高权重的句子根据原文顺序组合就得到了文章摘要。

【技术特征摘要】

【专利技术属性】
技术研发人员:王俊丽魏绍臣管敏
申请(专利权)人:同济大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1