文本的摘要生成方法、装置、电子设备及可读介质制造方法及图纸

技术编号:30892097 阅读:27 留言:0更新日期:2021-11-22 23:33
本发明专利技术实施例提供了一种文本摘要的生成方法、装置、电子设备以及可读介质,所述方法包括:获取预设文本,该预设文本可以包括若干个第一文本分段,并确定各个第一文本分段对应的第一分段摘要,根据相邻两个第一文本分段的第一分段摘要之间的相似度,对第一文本分段进行合并,获得若干个第二文本分段,并确定第二文本分段对应的第二分段摘要,然后根据第二分段摘要,生成全文摘要,通过生成预设文本的分段摘要,并根据分段摘要之间的相似度进行文本分段合并,不仅可以保证内容的完整性与连贯性,而且可以有效减少需要进行摘要生成的分段数量以及冗余信息,提高摘要的概括性,并且根据合并后的分段进行全文摘要的生成,保证所生成的摘要与原文匹配。的摘要与原文匹配。的摘要与原文匹配。

【技术实现步骤摘要】
文本的摘要生成方法、装置、电子设备及可读介质


[0001]本专利技术涉及文本处理
,特别是涉及一种文本的摘要生成方法、一种文本的摘要生成装置、一种电子设备以及一种计算机可读介质。

技术介绍

[0002]随着文本信息的爆炸式增长,人们每天能接触到海量的文本信息,如新闻、会议记录、博客、聊天、报告、论文、微博等。其中,对于长文本摘要等总结性工作如工作会议记录和总结等,大多数都由人工完成,这一工作无疑大大损耗了劳动者的时间和人力。因此,从大量文本信息提取重要的内容变得越来越重要,自动文本摘要这门可以使用户更快速、准确地获取信息的技术也因此应运而生。从大量文本信息中提取重要的内容,已成为我们的一个迫切需求,而自动文本摘要(Automatic Text Summarization)则提供了一个高效的解决方案。自动文本摘要技术对文档信息进行有效的压缩提炼,帮助用户从海量信息中检索出所需的相关信息,避免通过搜索引擎来检索可能产生过多冗余片面信息的问题,有效地解决了信息过载的问题。然而,在相关技术对文本进行摘要生成的过程中,一方面为了保证内容完整性则容易存在摘要内容多且杂以及概括性弱等问题,另一方面为了摘要足够简洁则容易忽略重要信息导致内容不连贯,以及无法保证文本的中心思想,导致偏离文本表达的真正含义等问题。

技术实现思路

[0003]本专利技术实施例是提供一种文本的摘要生成方法、装置、电子设备以及计算机可读存储介质,以解决或部分解决相关技术中在对文本进行摘要生成的过程中,存在摘要的连贯性、概括性弱以及与原文不匹配等问题。
[0004]本专利技术实施例公开了一种文本的摘要生成方法,包括:
[0005]获取预设文本,所述预设文本包括若干个第一文本分段;
[0006]确定各个所述第一文本分段对应的第一分段摘要;
[0007]根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段;
[0008]确定各个所述第二文本分段对应的第二分段摘要;
[0009]根据所述第二分段摘要,生成针对所述预设文本的全文摘要。
[0010]可选地,所述获取预设文本之后,所述方法还包括:
[0011]获取预设文本对应的全文关键词,并确定所述全文关键词对应的词汇链;
[0012]依次从所述预设文本中确定文本长度相同的两个相邻语句,获得所述预设文本对应的多个语句对;
[0013]根据所述词汇链,确定同一语句对中两个相邻语句之间的差异信息;
[0014]若所述差异信息大于或等于预设差异阈值,则从所述同一语句对中两个相邻语句之间的连接处进行分段;
[0015]生成与所述预设文本对应的若干个第一文本分段。
[0016]可选地,所述确定各个所述第一文本分段对应的第一分段摘要,包括:
[0017]分别将各个所述第一文本分段输入摘要生成模型,获得所述第一文本分段对应的第一分段摘要。
[0018]可选地,所述根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段,包括:
[0019]获取所述第一文本分段的数量;
[0020]确定相邻两个第一文本分段的第一分段摘要之间的相似度;
[0021]若所述数量大于预设数量阈值,则采用所述第一文本分段的数量与所述预设数量阈值,从所有所述第一文本分段对应的相似度中提取目标相似度;
[0022]采用所述目标相似度与预设相似度阈值,生成文本合并阈值;
[0023]将相似度大于所述文本合并阈值的第一文本分段进行合并,获得若干个第二文本分段。
[0024]可选地,所述根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段,还包括:
[0025]若所述数量小于或等于预设数量阈值,则不进行文本合并,根据所述第一文本摘要,生成针对所述预设文本的全文摘要。
[0026]可选地,所述根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段,包括:
[0027]确定相邻两个第一文本分段的第一分段摘要之间的相似度;
[0028]采用所述第一文本分段的数量与所述预设数量阈值,从所有所述第一文本分段对应的相似度中提取目标相似度;
[0029]采用所述目标相似度与预设相似度阈值,生成文本合并阈值;
[0030]将相似度大于所述文本合并阈值的第一文本分段进行合并,获得若干个第二文本分段。
[0031]可选地,所述确定相邻两个第一文本分段的第一分段摘要之间的相似度,包括:
[0032]对所述第一分段摘要进行向量化,获得所述第一分段摘要的摘要向量;
[0033]将相邻两个第一文本分段对应的摘要向量进行比对,获得所述相邻两个第一文本分段的第一分段摘要之间的相似度。
[0034]可选地,所述对所述第一分段摘要进行向量化,获得所述第一分段摘要的摘要向量,包括:
[0035]将所述第一分段摘要输入相似度判断模型进行向量映射,获得所述第一分段摘要的摘要向量。
[0036]本专利技术实施例还公开了一种文本的摘要生成装置,包括:
[0037]文本分段模块,用于获取预设文本,所述预设文本包括若干个第一文本分段;
[0038]第一摘要确定模块,用于确定各个所述第一文本分段对应的第一分段摘要;
[0039]文本合并模块,用于根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段;
[0040]第二摘要确定模块,用于确定各个所述第二文本分段对应的第二分段摘要;
[0041]全文摘要生成模块,用于根据所述第二分段摘要,生成针对所述预设文本的全文摘要。
[0042]可选地,所述装置还包括:
[0043]词汇处理模块,用于获取预设文本对应的全文关键词,并确定所述全文关键词对应的词汇链;
[0044]语句对生成模块,用于依次从所述预设文本中确定文本长度相同的两个相邻语句,获得所述预设文本对应的多个语句对;
[0045]差异信息确定模块,用于根据所述词汇链,确定同一语句对中两个相邻语句之间的差异信息;
[0046]分段模块,用于若所述差异信息大于或等于预设差异阈值,则从所述同一语句对中两个相邻语句之间的连接处进行分段;
[0047]文本分段生成模块,用于生成与所述预设文本对应的若干个第一文本分段。
[0048]可选地,所述第一摘要确定模块具体用于:
[0049]分别将各个所述第一文本分段输入摘要生成模型,获得所述第一文本分段对应的第一分段摘要。
[0050]可选地,所述文本合并模块包括:
[0051]文本数量获取子模块,用于获取所述第一文本分段的数量;
[0052]相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本的摘要生成方法,其特征在于,包括:获取预设文本,所述预设文本包括若干个第一文本分段;确定各个所述第一文本分段对应的第一分段摘要;根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段;确定各个所述第二文本分段对应的第二分段摘要;根据所述第二分段摘要,生成针对所述预设文本的全文摘要。2.根据权利要求1所述的方法,其特征在于,所述获取预设文本之后,所述方法还包括:获取预设文本对应的全文关键词,并确定所述全文关键词对应的词汇链;依次从所述预设文本中确定文本长度相同的两个相邻语句,获得所述预设文本对应的多个语句对;根据所述词汇链,确定同一语句对中两个相邻语句之间的差异信息;若所述差异信息大于或等于预设差异阈值,则从所述同一语句对中两个相邻语句之间的连接处进行分段;生成与所述预设文本对应的若干个第一文本分段。3.根据权利要求1所述的方法,其特征在于,所述确定各个所述第一文本分段对应的第一分段摘要,包括:分别将各个所述第一文本分段输入摘要生成模型,获得所述第一文本分段对应的第一分段摘要。4.根据权利要求1所述的方法,其特征在于,所述根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段,包括:获取所述第一文本分段的数量;确定相邻两个第一文本分段的第一分段摘要之间的相似度;若所述数量大于预设数量阈值,则采用所述第一文本分段的数量与所述预设数量阈值,从所有所述第一文本分段对应的相似度中提取目标相似度;采用所述目标相似度与预设相似度阈值,生成文本合并阈值;将相似度大于所述文本合并阈值的第一文本分段进行合并,获得若干个第二文本分段。5.根据权利要求4所述的方法,其特征在于,所述根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段,还包括:若所述数量小于或等于预设数量阈值,则不进行文本合并。6.根据权利要求1所述的方法,其特征在于,所述根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段,包括:确定相邻两个第一文本分段的第一分段摘要之间的相似度;采用所述第一文本分段的数量与所述预设数量阈值,从所有所述第一文本分段对应的相似度中提取目标相似度;
采用所述目标相似度与预设相似度阈值,生成文本合并阈值;将相似度大于所述文本合并阈值的第一文本分段进行合并,获得若干个第二文本分段。7.根据权利要求4或5或6所述的方法,其特征在于,所述确定相邻两个第一文本分段的第一分段摘要之间的相似度,包括:对所述第一分段摘要进行向量化,获得所述第一分段摘要的摘要向量;将相邻两个第一文本分段对应的摘要向量进行比对,获得所述相邻两个第一文本分段的第一分段摘要之间的相似度。8.根据权利要求7所述的方法,其特征在于,所述对所述第一分段摘要进行向量化,获得所述第一分段摘要的摘要向量,包括:将所述第一分段摘要输入相似度判断模型进行...

【专利技术属性】
技术研发人员:杨鹏涂曼姝龚能
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1