文本的摘要生成方法、装置、电子设备及可读介质制造方法及图纸

技术编号:32455453 阅读:22 留言:0更新日期:2022-02-26 08:32
本发明专利技术实施例提供了一种文本的摘要生成方法、装置、电子设备以及可读介质,所述方法包括:获取预设文本的各个原始文本句,并确定每一个原始文本句与预设文本中其他文本句之间的相关性分值,根据原始文本句的相关性分值,筛选出原始文本句对应的候选文本句,接着根据候选文本句,生成预设文本的文本摘要,从而在对长文本进行摘要生成时,通过文本中各个语句之间的相关性,筛选出相关性高的语句作为文本的摘要,有效保证了文本摘要的连贯性,且语句是基于原文进行抽取,使所生成的摘要能够有效地表达原文的含义,保证了摘要与原文之间的匹配度。配度。配度。

【技术实现步骤摘要】
文本的摘要生成方法、装置、电子设备及可读介质


[0001]本专利技术涉及文本处理
,特别是涉及一种文本的摘要生成方法、一种文本的摘要生成装置、一种电子设备以及一种计算机可读介质。

技术介绍

[0002]随着文本信息的爆炸式增长,人们每天能接触到海量的文本信息,如新闻、会议记录、博客、聊天、报告、论文、微博等。其中,对于长目标文本摘要等总结性工作如工作会议记录和总结等,大多数都由人工完成,这一工作无疑大大损耗了劳动者的时间和人力。因此,从大量文本信息提取重要的内容变得越来越重要,自动目标文本摘要这项可以使用户更快速、准确地获取信息的技术也因此应运而生。从大量文本信息中提取重要的内容,已成为我们的一个迫切需求,而自动目标文本摘要(Automatic Text Summarization)则提供了一个高效的解决方案。自动目标文本摘要技术对文档信息进行有效的压缩提炼,帮助用户从海量信息中检索出所需的相关信息,避免通过搜索引擎来检索可能产生过多冗余片面信息的问题,有效地解决了信息过载的问题。然而,在采用相关技术对长文本进行摘要生成的过程中,一方面为了保证内容完整性则容易存在摘要内容多且杂以及概括性弱等问题,另一方面为了摘要足够简洁则容易忽略重要信息导致内容不连贯,以及无法保证文本的中心思想,导致偏离文本表达的真正含义等问题。

技术实现思路

[0003]本专利技术实施例是提供一种文本的摘要生成方法、装置、电子设备以及计算机可读存储介质,以解决或部分解决相关技术中在对文本进行摘要生成的过程中,存在摘要的连贯性差以及容易偏离文本表达的含义的问题。
[0004]本专利技术实施例公开了一种文本的摘要生成方法,包括:
[0005]获取预设文本,所述预设文本包括若干个原始文本句;
[0006]确定各所述原始文本句与其他文本句之间的相关性分值;
[0007]根据所述相关性分值,从各所述原始文本句中提取候选文本句;
[0008]根据所述候选文本句,生成所述预设文本对应的目标文本摘要。
[0009]可选地,所述确定各所述原始文本句与其他文本句之间的相关性分值,包括:
[0010]将所述原始文本句输入语句相关性模型,获得所述原始文本句与所述预设文本中其他文本句之间的相关性分值。
[0011]可选地,所述根据所述相关性分值,从各所述原始文本句中提取候选文本句,包括:
[0012]采用所述原始文本句的各相关性分值,生成所述原始文本句的语句分值;
[0013]将所述预设文本中语句分值大于或等于预设分值阈值的原始文本句作为所述预设文本的候选文本句。
[0014]可选地,所述根据所述候选文本句,生成所述预设文本对应的目标文本摘要,包
括:
[0015]根据各个所述候选文本句的所述语句分值与对应的各个所述相关性分值,确定起始文本句以及至少一个关联文本句;
[0016]采用所述起始文本句与所述至少一个关联文本句,生成所述预设文本对应的目标文本摘要。
[0017]可选地,所述根据各个所述候选文本句的所述语句分值与对应的各个所述相关性分值,确定起始文本句以及至少一个关联文本句,包括:
[0018]将所述预设文本中语句分值最大的候选文本句作为起始文本句;
[0019]将所述预设文本中位于所述起始文本句之后的候选文本句作为目标文本句;
[0020]根据所述起始文本句的相关性分值、各所述目标文本句与所述目标文本句的相关性分值,确定至少一个关联文本句。
[0021]可选地,所述根据所述起始文本句的相关性分值、各所述目标文本句与所述目标文本句的相关性分值,确定至少一个关联文本句,包括:
[0022]将与所述起始文本句对应的相关性分值最高的候选文本句作为与所述起始文本句关联的关联文本句;
[0023]判断所述关联文本句在预设文本中是否存在位于所述关联文本句之后的候选文本句;
[0024]若在所述预设文本中所述关联文本句之后存在候选文本句,则将与所述关联文本句对应的相关性分值最高的候选文本句作为新的关联文本句,并返回所述判断所述关联文本句是否存在位于所述关联文本句之后的候选文本句的步骤;
[0025]当所述目标文本句中所有候选文本句遍历完毕时,获得至少一个关联文本句。
[0026]可选地,所述判断所述关联文本句在预设文本中是否存在位于所述关联文本句之后的候选文本句之后,所述方法还包括:
[0027]若在所述预设文本中不存在位于所述关联文本句之后的候选文本句,则停止对所述目标文本句的遍历,获得至少一个关联文本句。
[0028]可选地,所述当所述目标文本句中所有候选文本句遍历完毕时,获得至少一个关联文本句之前,所述方法还包括:
[0029]获取所述起始文本句与所述关联文本句组成的当前文本摘要,并获取所述当前文本摘要的第一文本长度;
[0030]采用预设文本阈值与所述预设文本的文本长度,确定第二文本长度;
[0031]若所述文本长度大于或等于所述第二文本长度,则停止对所所述目标文本句进行遍历,并将所述当前文本摘要作为所述预设文本的目标文本摘要。
[0032]本专利技术实施例还公开了一种文本的摘要生成装置,包括:
[0033]预设文本获取模块,用于获取预设文本,所述预设文本包括若干个原始文本句;
[0034]相关性确定模块,用于确定各所述原始文本句与其他文本句之间的相关性分值;
[0035]候选文本句确定模块,用于根据所述相关性分值,从各所述原始文本句中提取候选文本句;
[0036]文本摘要生成模块,用于根据所述候选文本句,生成所述预设文本对应的目标文本摘要。
[0037]可选地,所述相关性确定模块具体用于:
[0038]将所述原始文本句输入语句相关性模型,获得所述原始文本句与所述预设文本中其他文本句之间的相关性分值。
[0039]可选地,所述候选文本句确定模块包括:
[0040]语句分值生成子模块,用于采用所述原始文本句的各相关性分值,生成所述原始文本句的语句分值;
[0041]候选文本句确定子模块,用于将与所述原始文本句对应的相关性分值大于或等于预设分值阈值的其他文本句作为所述原始文本句对应的候选文本句。
[0042]可选地,所述文本摘要生成模块包括:
[0043]文本句确定子模块,用于根据各个所述候选文本句的所述语句分值与对应的各个所述相关性分值,确定起始文本句以及至少一个关联文本句;
[0044]文本摘要生成模块,用于采用所述起始文本句与所述至少一个关联文本句,生成所述预设文本对应的目标文本摘要。
[0045]可选地,所述文本句确定子模块包括:
[0046]起始文本句确定单元,用于将所述预设文本中语句分值最大的候选文本句作为起始文本句;
[0047]目标文本句确定单元,用于将所述预设文本中位于所述起始文本句之后的候选文本句作为目标文本句;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本的摘要生成方法,其特征在于,包括:获取预设文本,所述预设文本包括若干个原始文本句;确定各所述原始文本句与其他文本句之间的相关性分值;根据所述相关性分值,从各所述原始文本句中提取候选文本句;根据所述候选文本句,生成所述预设文本对应的目标文本摘要。2.根据权利要求1所述的方法,其特征在于,所述确定各所述原始文本句与其他文本句之间的相关性分值,包括:将所述原始文本句输入语句相关性模型,获得所述原始文本句与所述预设文本中其他文本句之间的相关性分值。3.根据权利要求2所述的方法,其特征在于,所述根据所述相关性分值,从各所述原始文本句中提取候选文本句,包括:采用所述原始文本句的各相关性分值,生成所述原始文本句的语句分值;将所述预设文本中语句分值大于或等于预设分值阈值的原始文本句作为所述预设文本的候选文本句。4.根据权利要求1所述的方法,其特征在于,所述根据所述候选文本句,生成所述预设文本对应的目标文本摘要,包括:根据各个所述候选文本句的所述语句分值与对应的各个所述相关性分值,确定起始文本句以及至少一个关联文本句;采用所述起始文本句与所述至少一个关联文本句,生成所述预设文本对应的目标文本摘要。5.根据权利要求4所述的方法,其特征在于,所述根据各个所述候选文本句的所述语句分值与对应的各个所述相关性分值,确定起始文本句以及至少一个关联文本句,包括:将所述预设文本中语句分值最大的候选文本句作为起始文本句;将所述预设文本中位于所述起始文本句之后的候选文本句作为目标文本句;根据所述起始文本句的相关性分值、各所述目标文本句与所述目标文本句的相关性分值,确定至少一个关联文本句。6.根据权利要求5所述的方法,其特征在于,所述根据所述起始文本句的相关性分值、各所述目标文本句与所述目标文本句的相关性分值,确定至少一个关联文本句,包括:将与所述起始文本句对应的相关性分值最高的候选文本句作为与所述起始文本句关联的关联文本句;判断所述关联文本句在预设文本中是否存在位于所述关联文本句之后的候选文本句;若在所述预设文本中所述关联文本句之后存在候选文本句,则将与所述关联文本句对应的相关性分值最高的候选文本句作为新的关联文本句,并返回所述判断所述关联文本句是否存在位于所述关联文本句之后的候选文本句的步骤;当所述目标文本句中所有候选文本句遍历完毕时,获得至少一个关联文本句。7.根据权利要求6所述的方法,其特征在于,所述判断所述关联文本句在预设文本中是否存在位于所述关联文本句之后的候选文本句之后,所述方法还包括:若在所述预设文本中不存在位于所述关联文本句之后的候选文本句,则停止对所述目标文本句的遍历,获得至少一个关联文本句。
8.根据权利要求6所述的方法,其特征在于,所述当所述目标文本句中所有候选文本句遍历完毕时,获得至少一个关联文本句之前,所述方法还包括:获取所述起始文本句与所述关联文本句组成的当前文本摘要,并获取所述当前文本摘要的第一文本长度;采用...

【专利技术属性】
技术研发人员:涂曼姝龚能
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1