一种文本摘要的生成方法、存储介质和服务器技术

技术编号:20588952 阅读:13 留言:0更新日期:2019-03-16 07:11
本发明专利技术涉及计算机技术领域,提出一种文本摘要的生成方法、存储介质和服务器。所述文本摘要的生成方法包括:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别提取所述文本集合中每个文本的关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要。本发明专利技术预先构建一个带有注意力机制的seq2seq模型,通过提取多个内容相互关联的文本中的关键词,并将提取到的关键词输入该模型,然后将该模型的输出结果作为所述多个文本共同的文本摘要输出,从而解决了现有技术无法生成多篇文章共同的文本摘要的问题。

【技术实现步骤摘要】
一种文本摘要的生成方法、存储介质和服务器
本专利技术涉及计算机
,尤其涉及一种文本摘要的生成方法、存储介质和服务器。
技术介绍
摘要是能够反映文章中心内容的一段文本,能够帮助人们在阅读长篇的文章时缩短阅读时间。文本摘要生成技术是知识管理系统核心功能之一,近年来得到了迅速的发展。然而,现有的文本摘要生成技术局限于生成某一篇文章的摘要,而在实际需求中,有时候需要针对多篇相同主题的文章生成它们的共同摘要,目前尚无有效的方法能够实现该需求。
技术实现思路
有鉴于此,本专利技术实施例提供了一种文本摘要的生成方法、存储介质和服务器,旨在解决现有技术无法生成多篇文章共同的文本摘要的问题。本专利技术实施例的第一方面,提供了一种文本摘要的生成方法,包括:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别提取所述文本集合中每个文本的关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。本专利技术实施例的第二方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如本专利技术实施例的第一方面提出的文本摘要的生成方法的步骤。本专利技术实施例的第三方面,提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别提取所述文本集合中每个文本的关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。本专利技术提出的文本摘要的生成方法包括:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别提取所述文本集合中每个文本的关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要。本专利技术预先构建一个带有注意力机制的seq2seq模型,通过提取多个内容相互关联的文本中的关键词,并将提取到的关键词输入该模型,然后将该模型的输出结果作为所述多个文本共同的文本摘要输出,从而解决了现有技术无法生成多篇文章共同的文本摘要的问题。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种文本摘要的生成方法的第一个实施例的流程图;图2是本专利技术实施例提供的一种文本摘要的生成方法的第二个实施例的流程图;图3是本专利技术实施例提供的一种文本摘要的生成方法的第三个实施例的流程图;图4是本专利技术实施例提供的一种文本摘要的生成装置的一个实施例的结构图;图5是本专利技术实施例提供的一种服务器的示意图。具体实施方式本专利技术实施例提供了一种文本摘要的生成方法、存储介质和服务器,旨在解决现有技术无法生成多篇文章共同的文本摘要的问题。为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术实施例中一种文本摘要的生成方法的第一个实施例包括:101、获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;首先,获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本。具体的,可以搜集多篇相同主题的文章组成所述文本集合,比如不同媒体针对同一事件的多篇新闻报道。102、分别提取所述文本集合中每个文本的关键词;在获取到待处理的文本集合之后,分别提取所述文本集合中每个文本的关键词。在进行关键词提取时,可以采用现有技术中各种常用的关键词提取方法,比如TF-IDF关键词提取方法、Topic-model关键词提取方法和RAKE关键词提取方法等。103、将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要。在提取到所述文本集合中每个文本的关键词之后,将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,即该文本集合包含的多个文本共同的文本摘要。所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。由于输入该神经网络模型的关键词是从多个文本中提取出来的,即该神经网络模型输出的文本摘要实际上是综合考虑该文本集合中每个文本的特征生成的,因此该神经网络模型输出的文本摘要能够作为这些文本共同的文本摘要。进一步的,在输出所述文本集合的文本摘要之后,还可以包括:(1)分别获取所述每个文本的标题;(2)从所述每个文本的标题中提取第一关键词;(3)从所述文本集合的文本摘要中提取第二关键词;(4)将所述第一关键词和所述第二关键词进行匹配;(5)若所述匹配未通过,则将各个所述关键词输入预先构建的第二神经网络模型,并用所述第二神经网络模型输出的文本摘要替换所述文本集合的文本摘要,所述第二神经网络模型由所述第一关键词训练形成。对于上述步骤(1),分别获取所述文本集合中每个文本的标题,假设该文本集合中包含的各个文本为具有相同主题的文章,每篇文章具有自身的标题。对于上述步骤(2),分别从每个文本的标题中提取出关键词,这些关键词组成第一关键词。对于上述步骤(3),从所述文本集合的文本摘要中提取关键词,称作第二关键词。对于上述步骤(4),在关键词匹配时,可以采用公式计算所述第一关键词和所述第二关键词之间的共现概率,其中Similarity表示所述共现概率,M∩N表示所述第一关键词和所述第二关键词具有的相同关键词的数量,M表示所述第一关键词的数量,N表示所述第二关键词的数量;若所述共现概率大于或等于预设阈值(比如50%),则判定所述匹配通过;若所述共现概率小于所述预设阈值,则判定所述匹配未通过。对于上述步骤(5),若所述匹配未通过,则将各个所述关键词(即步骤102中提取到的关键词)输入预先构建的第二神经网络模型,并用所述第二神经网络模型输出的文本摘要替换所述文本集合的文本摘要,所述第二神经网络模型由所述第一关键词训练形成。若从所述文本集合的文本摘要中提取出的关键词和从每个文本的标题中提取出的关键词匹配未通过,则表明在步骤103中通过第一神经网络模型输出的文本摘要的准确度较低,不能作为该多个文本共同的文本摘要,此时将步骤102中提取到的关键词输入由所述第一关键词训练形成的第二神经网络模型,用该第二神经网络模型输出的文本摘要替换所述文本集合的文本摘要,作为该多个文本共同的文本摘要。通过这样设置,能够进一步提高生成的文本摘要的准确度。另外,若所述匹配通过,则表明在步骤103中通过第一神经网络模型输出的文本摘要的准确度较高,可本文档来自技高网...

【技术保护点】
1.一种文本摘要的生成方法,其特征在于,包括:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别提取所述文本集合中每个文本的关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。

【技术特征摘要】
1.一种文本摘要的生成方法,其特征在于,包括:获取待处理的文本集合,所述文本集合包含多个内容相互关联的文本;分别提取所述文本集合中每个文本的关键词;将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要,所述第一神经网络模型为带有注意力机制的seq2seq模型,用于根据输入的词汇或字符生成相应的文本摘要。2.根据权利要求1所述的文本摘要的生成方法,其特征在于,所述分别提取所述文本集合中每个文本的关键词包括:分别对所述每个文本进行预处理,所述预处理包括文本分段、文本分句、文本分词、去除停用词以及根据词向量模型将文本转换为词向量;将预处理后的所述每个文本分别输入所述第一神经网络模型,输出所述每个文本独立的文本摘要;对所述独立的文本摘要中的每个词汇进行词性标注;将词性标注为动词或名词的词汇从所述独立的文本摘要中提取出来,作为关键词。3.根据权利要求2所述的文本摘要的生成方法,其特征在于,所述将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要包括:分别统计各个所述关键词在所述独立的文本摘要中的出现次数;将各个所述关键词按照所述出现次数由高至低的顺序依次输入所述第一神经网络模型,输出所述文本集合的文本摘要。4.根据权利要求1所述的文本摘要的生成方法,其特征在于,所述分别提取所述文本集合中每个文本的关键词包括:分别对所述每个文本进行文本分词操作,得到初始词汇集;去除所述初始词汇集中的停用词;将去除停用词后的所述初始词汇集转换为TF-IDF词频矩阵;将所述词频矩阵中词频最高的预设数量的词汇提取出来,作为关键词。5.根据权利要求4所述的文本摘要的生成方法,其特征在于,所述将提取到的关键词输入预先训练完成的第一神经网络模型,输出所述文本集合的文本摘要包括:将各个所述关键词按照所述词频由高至低的顺序依次输入所述第一神经网络模型,输出所述文本集合的文本摘要。6.根据权利要求1至5中任一项所述的文本摘要的生成方法,其特征在于,在输出所述文本集合的文本摘要之后,还包括:分别获取所述每个文本的标题;从所述每...

【专利技术属性】
技术研发人员:吴壮伟
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1