一种基于图模型的自动文摘方法技术

技术编号：12707130 阅读：155 留言：0更新日期：2016-01-14 03:46

本发明专利技术涉及自动文摘领域，是一种基于图模型的自动文摘方法。本发明专利技术的技术方案是将LDA概率主题模型应用于句子间语义相关性的度量，改进句子相关性的度量效果，并提出了句子的主题相关度和位置敏感度的概念，使得文摘的生成更加合理有效。该方法首先通过训练LDA主题模型获得文档的主题概率分布和主题的单词概率分布，然后求出句子主题概率分布，将句子间的语义相似度度量有效的转换成了句子主题概率分布的相似性度量问题；然后使用句子作为节点，根据句子间的语义相似性并结合余弦相似性构建边，生成一个代表文档的文本图；接下来根据句子与文档的主题概率分布计算句子的主题相关度，根据句子在文档中的位置计算句子的位置敏感度等。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自动文摘领域，特别涉及到。
技术介绍
自动文摘技术是利用计算机对文档进行自动处理，生成包含原文档核心内容的摘要，实现对文档的压缩，使得人们可以用较少的时间就可发现并获取需要的信息，可以有效地解决信息超载问题。尽管自动文摘自1960至今已有相当长的研究历史，但基于抽取的文摘方式即从原文中直接抽取关键句子生成文摘依然是该领域最主流的方法。基于抽取的自动文摘的核心思想是：首先对一篇或者多篇文档中句子的各种特征进行统计分析，计算句子的重要程度，再通过适当的摘要方法选出摘要句子，形成文章摘要。基于抽取的自动文摘目前所应用的技术可以分为5个类别：基于统计的技术；基于主题的技术；基于篇章关系的技术；机器学习技术；基于图模型的技术。统计模型在自然语言处理领域应用广泛，统计技术也是自动文摘最早应用的技术，相对于其他技术，统计技术不需要复杂的建模，简单且易于实现；文本单元的重要性不只决定于字面上的词语重复，还取决于文字背后的语义关联，基于主题的方法是通过挖掘语义关联，将主题知识融入对文本单元权重的计算；除了以上提到的方法，从语言学的...

【技术保护点】
一种基于图模型的自动文摘方法，其特征在于，该方法首先通过训练LDA主题模型获得文档的主题概率分布和主题的单词概率分布，然后求出句子主题概率分布，将句子间的语义相似度度量有效的转换成了句子主题概率分布的相似性度量问题；然后使用句子作为节点，根据句子间的语义相似性并结合余弦相似性构建边，生成一个代表文档的文本图；接下来根据句子与文档的主题概率分布计算句子的主题相关度，根据句子在文档中的位置计算句子的位置敏感度，并根据这两项属性赋予节点静态权重，然后利用Biased‑PageRank算法对句子进行排序；最后根据要求选出高权重的句子根据原文顺序组合就得到了文章摘要。

【技术特征摘要】

【专利技术属性】
技术研发人员：王俊丽，魏绍臣，管敏，
申请(专利权)人：同济大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人