【技术实现步骤摘要】
一种基于语义依存的自动文本摘要方法
[0001]本专利技术涉及一种自动文本摘要方法,尤其涉及一种基于语义依存的自动文本摘要方法。
技术介绍
[0002]随着互联网技术的蓬勃发展,如何从大量的冗余信息中高效地获取所需信息是一个亟待解决的问题。文本摘要技术的出现一定程度上解决了这个问题。文本摘要技术能够从长篇幅的文本中抽取提炼一段准确表达文本中心意的短文。现有的文本摘要技术主要包括抽取式方法和生成式方法,其中抽取式方法通过从原始文档中直接抽取关键的单词、短语、句子来组成摘要,其主要问题是容易产生大量的冗余信息,并且对短文本摘要的兼容性较差。生成式方法主要通过构造一个能够理解原始文档内容的模型,生成文本摘要,其主要问题是生成的摘要对原始文档大意可能存在偏离性,且生成的句子的连贯性也存在一定问题。具体来说:
[0003]1:基于主题模型的方法,如文献“DeerwesterS,DumaisST,FurnasG W,etal.Indexingby latentsemanticanalysis[J].JournaloftheAme ...
【技术保护点】
【技术特征摘要】
1.一种基于语义依存的自动文本摘要方法,其特征在于,包括以下步骤:S1:首先将输入的原始文档拆分成句子;S2:其次将每个句子依次过滤掉停用词,并只保留指定词性的词,得到新的句子集合V1;S3:而后将每个句子看成图中的一个节点,判断两个句子之间是否存在相似性,若两个句子之间有相似性,则认为对应的两个节点之间存在无向带权边,权值为相似度;否则,认为句间不存在相似性,舍去此边;S4:得到一个无向带权图通过pagerank算法计算得到重要性最高的若干句子当作摘要。2.根据权利要求1所述的基于语义依存的自动文本摘要方法,其特征在于:所述步骤S3中判断两个句子之间是否存在相似性具体方法为:S3.1:将知网作为语义知识资源,建立语义依存树;S3.2:针对步骤S2获得的句子集合V1,采用开源的依存句法分析器为每个句子建立依存关系结构树;S3.3:根据获得的依存关系结构树,提取依存关系三元组,得到关键三元组组成的句子集合V2;S3.4:针对步骤S3.3获得的句子集合V2中每两个句子依次进行相似度计算。3.根据权利要求2所述的基于语义依存的自动文本摘要方法,其特征在于:所述步骤S3.4中相似度计算方法为:a:关键三元组中词间的相似度计算,依次对比句子集合V2中每两个句子的各个关键三元组中依存词和被依存词,得到关键三元组的词相似权重,累加并除去两句中关键三元组组数,即可得到两句的词相似度;设定:S;a,Sb∈V2,R
a1
,R
a2
∈Sa,R
b1
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。