一种基于语义依存的自动文本摘要方法技术

技术编号：32165783 阅读：25 留言：0更新日期：2022-02-08 15:20

本发明专利技术公开了一种基于语义依存的自动文本摘要方法，首先将输入的原始文档拆分成句子；其次将每个句子依次过滤掉停用词，并只保留指定词性的词，得到新的句子集合；而后将每个句子看成图中的一个节点，判断两个句子之间是否存在相似性，若两个句子之间有相似性，则认为对应的两个节点之间存在无向带权边，权值为相似度；否则，认为句间不存在相似性，舍去此边；得到一个无向带权图通过pagerank算法计算得到重要性最高的若干句子当作摘要，本发明专利技术的方法在原先基于图的文本摘要TextRank方法的基础上，充分考虑了语义信息和依存关系，能够更加准确的表达出原始句意，因此在抽取的摘要更能充分表达出原始文档的大意，有利于抽取摘要。要。要。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语义依存的自动文本摘要方法

[0001]本专利技术涉及一种自动文本摘要方法，尤其涉及一种基于语义依存的自动文本摘要方法。

技术介绍

[0002]随着互联网技术的蓬勃发展，如何从大量的冗余信息中高效地获取所需信息是一个亟待解决的问题。文本摘要技术的出现一定程度上解决了这个问题。文本摘要技术能够从长篇幅的文本中抽取提炼一段准确表达文本中心意的短文。现有的文本摘要技术主要包括抽取式方法和生成式方法，其中抽取式方法通过从原始文档中直接抽取关键的单词、短语、句子来组成摘要，其主要问题是容易产生大量的冗余信息，并且对短文本摘要的兼容性较差。生成式方法主要通过构造一个能够理解原始文档内容的模型，生成文本摘要，其主要问题是生成的摘要对原始文档大意可能存在偏离性，且生成的句子的连贯性也存在一定问题。具体来说：
[0003]1：基于主题模型的方法，如文献“DeerwesterS,DumaisST,FurnasG W,etal.Indexingby latentsemanticanalysis[J].JournaloftheAmericanSocie本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于语义依存的自动文本摘要方法，其特征在于，包括以下步骤：S1：首先将输入的原始文档拆分成句子；S2：其次将每个句子依次过滤掉停用词，并只保留指定词性的词，得到新的句子集合V1；S3：而后将每个句子看成图中的一个节点，判断两个句子之间是否存在相似性，若两个句子之间有相似性，则认为对应的两个节点之间存在无向带权边，权值为相似度；否则，认为句间不存在相似性，舍去此边；S4：得到一个无向带权图通过pagerank算法计算得到重要性最高的若干句子当作摘要。2.根据权利要求1所述的基于语义依存的自动文本摘要方法，其特征在于：所述步骤S3中判断两个句子之间是否存在相似性具体方法为：S3.1：将知网作为语义知识资源，建立语义依存树；S3.2：针对步骤S2获得的句子集合V1，采用开源的依存句法分析器为每个句子建立依存关系结构树；S3.3：根据获得的依存关系结构树，提取依存关系三元组，得到关键三元组组成的句子集合V2；S3.4：针对步骤S3.3获得的句子集合V2中每两个句子依次进行相似度计算。3.根据权利要求2所述的基于语义依存的自动文本摘要方法，其特征在于：所述步骤S3.4中相似度计算方法为：a：关键三元组中词间的相似度计算，依次对比句子集合V2中每两个句子的各个关键三元组中依存词和被依存词，得到关键三元组的词相似权重，累加并除去两句中关键三元组组数，即可得到两句的词相似度；设定：S；a，Sb∈V2，R
a1
，R
a2
∈Sa，R
b1

【专利技术属性】
技术研发人员：李青，王一晨，李立力，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人