当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于图模型的自动文摘方法技术

技术编号:12707130 阅读:121 留言:0更新日期:2016-01-14 03:46
本发明专利技术涉及自动文摘领域,是一种基于图模型的自动文摘方法。本发明专利技术的技术方案是将LDA概率主题模型应用于句子间语义相关性的度量,改进句子相关性的度量效果,并提出了句子的主题相关度和位置敏感度的概念,使得文摘的生成更加合理有效。该方法首先通过训练LDA主题模型获得文档的主题概率分布和主题的单词概率分布,然后求出句子主题概率分布,将句子间的语义相似度度量有效的转换成了句子主题概率分布的相似性度量问题;然后使用句子作为节点,根据句子间的语义相似性并结合余弦相似性构建边,生成一个代表文档的文本图;接下来根据句子与文档的主题概率分布计算句子的主题相关度,根据句子在文档中的位置计算句子的位置敏感度等。

【技术实现步骤摘要】

本专利技术涉及自动文摘领域,特别涉及到。
技术介绍
自动文摘技术是利用计算机对文档进行自动处理,生成包含原文档核心内容的摘 要,实现对文档的压缩,使得人们可以用较少的时间就可发现并获取需要的信息,可以有效 地解决信息超载问题。 尽管自动文摘自1960至今已有相当长的研究历史,但基于抽取的文摘方式即从 原文中直接抽取关键句子生成文摘依然是该领域最主流的方法。基于抽取的自动文摘的核 心思想是:首先对一篇或者多篇文档中句子的各种特征进行统计分析,计算句子的重要程 度,再通过适当的摘要方法选出摘要句子,形成文章摘要。基于抽取的自动文摘目前所应用 的技术可以分为5个类别:基于统计的技术;基于主题的技术;基于篇章关系的技术;机器 学习技术;基于图模型的技术。 统计模型在自然语言处理领域应用广泛,统计技术也是自动文摘最早应用的技 术,相对于其他技术,统计技术不需要复杂的建模,简单且易于实现;文本单元的重要性不 只决定于字面上的词语重复,还取决于文字背后的语义关联,基于主题的方法是通过挖掘 语义关联,将主题知识融入对文本单元权重的计算;除了以上提到的方法,从语言学的角度 同样可以解决自动文摘问题。篇章关系分析在自动文摘领域也有广泛应用;二分分类器、隐 马尔科夫模型和贝叶斯方法是最早应用在自动文摘领域的机器学习方法。此外,其他机器 学习方法在自动文摘领域的应用也很广泛。 近几年基于图排序算法的自动文摘技术受到了越来越多的关注,因为该类方法在 文本单元权重排序的过程中可以根据文档的全局信息做出判断,而不仅仅是依赖局部有限 的信息,与人工摘要的思想类似。该类方法将文本单元作为图的节点,根据文本单元之间的 相关性生成节点之间的边,将文档表示成一个文本图,然后利用图排序算法,例如PageRank 对文本单元进行排序。在这种方法中,与网页的排序类似,与其他文本单元关系紧密的文本 单元会获得较高权重。 在图排序算法中,节点之间的相关性度量的精确度直接影响到图排序的结果,因 此在基于图排序算法的自动文摘中,文本单元的相关性度量是核心任务。在先前的诸多研 究中,使用句子作为文本图节点最为普遍,而句子间的相关性度量大多局限于句子中的单 词层面,例如利用句子间的单词的共现、句子的余弦相似度、利用WordNet度量单词相关性 等,但是单词层面的度量方法难以准确衡量句子间的语义相关性。另一方面,基于图排序的 文摘方法虽考虑了文本单元之间的相关性却忽略了一个重要指标--文本单元与文档主 题之间的相关性,这样可能导致文本单元排序出现局部最优的情况。例如,某文章中有大段 主题无关的非核心内容,但是这部分内容中的句子本身互相关系密切,那么在图排序后,这 段内容中很可能会出现权重较高的句子,然而这个局部最优句子只能代表这部分内容却不 能代表整个文档。此外,基于图排序的方法还忽略了文本单元自身的一些属性,例如句子长 度,句子位置等。在很多文章尤其是新闻类文章中,首段内容通常会说明文章大意,忽略句 子的位置属性,无疑会影响对句子权重的排序。
技术实现思路
本专利技术目的要克服现有技术中难以准确衡量句子间的语义相关性和忽略了文本 单元自身的一些属性的问题,提供一种改进的基于图模型的自动文摘方法。 为达到上述专利技术目的,本专利技术提出了一种结合LDA主题模型和余弦相似度的双 层相似度度量模型,在语义和单词两个层面度量句子间的相关性。并定义了句子的主题 相关度和位置敏感度,在图排序中通过主题相关度和位置敏感度赋予句子初始权重,利用 Biased-Pagerank算法进行排序,优化了句子排序的效果。 本专利技术是通过下述技术方案实现的: -种基于图模型的自动文摘方法,该方法首先通过训练LDA主题模型获得文档的 主题概率分布和主题的单词概率分布,然后求出句子主题概率分布,将句子间的语义相似 度度量有效的转换成了句子主题概率分布的相似性度量问题;然后使用句子作为节点,根 据句子间的语义相似性并结合余弦相似性构建边,生成一个代表文档的文本图;接下来根 据句子与文档的主题概率分布计算句子的主题相关度,根据句子在文档中的位置计算句子 的位置敏感度,并根据这两项属性赋予节点静态权重,然后利用Biased-PageRank算法对 句子进行排序;最后根据要求选出高权重的句子根据原文顺序组合就得到了文章摘要。 -种基于图模型的自动文摘方法,具体包括如下步骤: (1)文档预处理,清除语料中的无用信息。给定一组文档集合,通过分词、去停用 词、词干化预处理技术,清除语料中的无用信息,得到清洗过后的语料库。 (2)文档向量化,以便进行LDA主题模型的训练。对⑴中清洗过后的语料库中的 所有单词进行编号,根据编号将每篇文档转换为对应的向量。 (3)词频统计,生成词频矩阵。基于文档中词语出现频率的统计,生成一个文 档-术语的频率矩阵,即词频矩阵,矩阵中的每一项记录了每个单词在语料库中每个文档 中出现的频率。 (4)句子向量化,根据(3)中词频矩阵将文档中每个句子转换为对应向量,向量每 一维为该单词的TF*IDF(词频*逆文档频率)数值。 (5)LDA模型训练。对(2)中向量化的文档采用Gibbs抽样算法训练LDA主题模 型,估计文档的主题概率分布和主题的单词概率分布。 (6)句子间相似度计算。利用(5)中LDA模型的训练结果计算句子的概率主题分 布,然后根据不同句子主题概率分布的Jensen-Shannon距离计算句子间语义相似度的量 化值;根据句子TF*IDF向量计算句子间的余弦相似度,作为语义相似度的补充。 (7)文本图的构建。使用句子作为节点,根据(6)得出的句子间的相似度生成加权 边,将文档表示成一个文本图。 (8)主题相关度计算。根据句子主题概率分布与文档的主题概率分布的JS距离计 算句子的主题相关度。 (9)位置敏感度计算。根据句子在文档中的位置计算句子的位置敏感度。 (10)句子排序。根据⑶中的主题相关度和(9)中的位置敏感度赋予句子初始权 重,使用Biased-PageRank算法对(7)中生成的文本图进行排序。 (11)文摘生成。根据(10)中句子排序的结果选择权重较高句子组合生成文摘。 在实施中,步骤(6)中计算句子的概率主题分布的方法,其计算公式是: 其中PCTjlSr)为文档Dk*的句子Sr,其属于主题概率;ΡΟ^Ιη)表示单词^ 代表主题Tj的概率,根据LDA主题模型训练的主题-单词分布P(WIΤ)计算;P(TiIDk)表示 文档DJ1于主题?\的概率,根据LDA主题模型训练的文档主题分布P(T|D)计算。其有益 效果是,将句子间的语义相关性度量有效的转换成了句子概率主题分布的相关性度量。 在实施中,其中步骤(6)根据不同句子主题概率分布的Jensen-Shannon距离计 算句子间语义相似度的量化值,对于句子P、Q的主题分布P和Q,计算公式如下: 其有益效果是,更准确的衡量句子间的语义相关性。 在实施中,其中步骤(6)根据句子词频向量计算句子间的余弦相似度,作当前第1页1 2 3 本文档来自技高网
...

【技术保护点】
一种基于图模型的自动文摘方法,其特征在于,该方法首先通过训练LDA主题模型获得文档的主题概率分布和主题的单词概率分布,然后求出句子主题概率分布,将句子间的语义相似度度量有效的转换成了句子主题概率分布的相似性度量问题;然后使用句子作为节点,根据句子间的语义相似性并结合余弦相似性构建边,生成一个代表文档的文本图;接下来根据句子与文档的主题概率分布计算句子的主题相关度,根据句子在文档中的位置计算句子的位置敏感度,并根据这两项属性赋予节点静态权重,然后利用Biased‑PageRank算法对句子进行排序;最后根据要求选出高权重的句子根据原文顺序组合就得到了文章摘要。

【技术特征摘要】

【专利技术属性】
技术研发人员:王俊丽魏绍臣管敏
申请(专利权)人:同济大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1