The embodiment of the present invention discloses a method, device, server and storage medium for generating a multi-text summary. The method includes: determining the set of summary sentences corresponding to the set of target text from the sentences of each text of the target text set; sorting each sentence of the target text set according to the publishing time of the text to which the sentence belongs and the position of the sentence in the text to which it belongs; and determining the order of the summary sentences in the set of summary sentences according to the sorting results of each sentence. A summary of the target text set is composed according to the order of the summary sentences. In the embodiment of the present invention, the abstract sentences are sorted according to the time sorting method, which makes the abstract more smooth, reasonable and natural as a whole, and the overall effect is better.
【技术实现步骤摘要】
多文本摘要生成方法、装置、服务器及存储介质
本专利技术实施例涉及互联网
,尤其涉及一种多文本摘要生成方法、装置、服务器及存储介质。
技术介绍
多文本摘要从定义上讲,就是把同一主题下的多个文本的主要信息按压缩比提炼成一个摘要。从应用的角度讲,一方面,在使用搜索引擎时,搜索同一主题的文本往往能返回成千上万个网页,如果将这些网页形成一个统一精炼能够反映主要信息的摘要必然具有重要意义。另一方面,网上某一新闻单位对同一事件的系列报道,或者某一时间数家新闻单位同一时间的报道,若能把这些相关性很强的文本提炼出一个覆盖性强、形式简介的摘要也是同样具有重要意义的。多文本摘要模型主要可以划分为两种:抽取式多文档摘要、生成式多文档摘要,其中研究最多的是抽取式多文本摘要。然而,传统的抽取式多文本摘要算法生成的摘要往往不通顺、不自然,摘要整体质量不高。
技术实现思路
本专利技术实施例提供了一种多文本摘要生成方法、装置、服务器及存储介质,以解决现有技术中利用传统的抽取式多文档摘要算法生成摘要时所存在的摘要内容不通顺、不自然,导致摘要整体质量差的问题。第一方面,本专利技术实施例提供了一种多文 ...
【技术保护点】
1.一种多文本摘要生成方法,其特征在于,所述方法包括:从目标文本集合的每个文本的句子中确定与目标文本集合对应的摘要句集合;依据句子所属文本的发布时间和句子在所属文本中的位置,对目标文本集合的每个句子进行排序;依据每个句子的排序结果,确定所述摘要句集合中各摘要句的顺序;按照所述摘要句的顺序组合成目标文本集合的摘要。
【技术特征摘要】
1.一种多文本摘要生成方法,其特征在于,所述方法包括:从目标文本集合的每个文本的句子中确定与目标文本集合对应的摘要句集合;依据句子所属文本的发布时间和句子在所属文本中的位置,对目标文本集合的每个句子进行排序;依据每个句子的排序结果,确定所述摘要句集合中各摘要句的顺序;按照所述摘要句的顺序组合成目标文本集合的摘要。2.根据权利要求1所述的方法,其特征在于,在从目标文本集合的每个文本的句子中确定与目标文本集合对应的摘要句集合之前,所述方法还包括:文本预处理,具体包括如下操作中至少之一:利用正则表达式进行匹配,过滤目标文本中的网页链接;或利用关键词匹配,过滤目标文本中的广告句子和网页代码;或如果所述文本为符合预设条件的长文本,则按照预设规则对文本进行剪裁,其中,所述预设规则包括保留文本第一段、最后一段以及其他中间段落的第一句和最后一句。3.根据权利要求1所述的方法,其特征在于,所述从目标文本集合的每个文本的句子中确定与目标文本集合对应的摘要句集合,包括:基于图排序模型计算目标文本集合中每个文本的每个句子的重要性得分,其中,所述目标文本集合中包括至少两个文本;根据每个句子的重要性得分确定所述摘要句集合。4.根据权利要求3所述的方法,其特征在于,所述根据每个句子的重要性得分确定摘要句集合,包括:根据每个句子的重要性得分,按照分数从高到低的顺序进行排序;初始化摘要句集合为空,并按照所述排序依次遍历每个句子,对于每个当前句子执行如下操作,直到当前摘要句集合中的句子总字数满足预设数目:如果该当前句子与当前摘要句集合中各句子的语义相似度不高于所述预设阈值,则将当前句子作为摘要句加入当前摘要句集合,否则继续遍历下一个句子。5.根据权利要求1所述的方法,其特征在于,所述依据句子所属文本的发布时间和句子在所属文本中的位置,对目标文本集合的每个句子进行排序,包括:对目标文本集合中每个文本的每个句子,按照语义相似度进行聚类,得到至少两个句子簇;在各句子簇的每个句子中,将所属文本的最早发布时间作为相应句子簇的主题时间戳,以及作为相应句子簇中各句子的主题时间戳;依据各句子簇的主题时间戳对各句子簇进行排序;依据各句子簇中每个句子的主题时间戳,以及各句子在所属文本中的位置,对各句子簇中的每个句子进行排序。6.根据权利要求5所述的方法,其特征在于,所述依据各句子簇的主题时间戳对各句子簇进行排序,包括:对于主题时间戳相同的句子簇,则按照各句子簇中特定句在所属文本中的位置对句子簇进行排序,其中,所述特定句为确定句子簇的主题时间戳所对应的句子。7.根据权利要求5所述的方法,其特征在于,所述依据各句子簇中每个句子的主题时间戳,以及各句子在所属文本中的位置,对各句子簇中的每个句子进行排序,包括:在任一当前句子簇中,对于所属文本的发布时间与当前句子簇的主题时间戳相同的第一类句子,确定该第一类句子的标记位置为该第一类句子在各自所属文本的位置;对于所属文本的发布时间与当前句子簇的主题时间戳不相同的第二类句子,确定该第二类句子的标记位置为在当前句子簇中与该第二类句子最相似的目标句在其所属文本中的位置,并且该目标句所属文本的发布时间与当前句子簇的主题时间戳相同;根据当前句子簇中每个句子的标记位置为每个句子进行排序。8.一种多文本摘要生成装置,其特征在于,所述装置包括:提取模块,用于从目标文本集合的每个文本的句子中确定...
【专利技术属性】
技术研发人员:李法远,陈思姣,罗雨,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。