一种摘要生成方法、装置及设备制造方法及图纸

技术编号:35043798 阅读:12 留言:0更新日期:2022-09-24 23:23
本发明专利技术公开了一种摘要生成方法、装置及设备,涉及数据处理技术领域,其中,方法包括:获取原始文本以及原始句向量;对原始文本执行文本单位移除操作,直到原始文本对应的执行结果满足预设条件,得到文本摘要;文本单位移除操作包括:分别移除原始文本中的一个文本单位,直到所有单位均被移除,得到至少两个简化文本;分别计算至少两个简化文本的句向量,得到至少两个简化句向量;分别将至少两个简化句向量与原始句向量进行相似度匹配,得到第一简化文本;若第一简化文本不满足预设停止条件,则对第一简化文本继续执行文本单位移除操作。通过上述方式,本发明专利技术实现了不依赖标注数据的自动化文本摘要。动化文本摘要。动化文本摘要。

【技术实现步骤摘要】
一种摘要生成方法、装置及设备


[0001]本专利技术涉及数据处理
,具体涉及一种摘要生成方法、装置及设备。

技术介绍

[0002]在如今信息爆炸的时代,无时无刻都在产生巨量的信息,如网页新闻、微博、微信文章以及邮件等等。为了实现用户能够快速高效地获取到所需要的信息,需要对文本信息进行收集整理成文本摘要以供用户快速浏览。
[0003]但现有的文本摘要生成方法主要是抽取式和生成式,抽取式的摘要通过从目标文本中提取句子来生成文本摘要,但是目前抽取式方法摘要的精度不高,用户的阅读体验差。
[0004]而生成式的摘要会依赖于词向量的使用,或者依赖文本中关键词的提取,而在这一步中生成词向量的效果以及关键词或关键句提取的准确度会很大程度的影响到最终的摘要生成结果。另外很多摘要过程依赖于有标注的数据,而高质量的摘要标注文本获取难度与成本很高,或者有些摘要方法直接使用文章标题作为文章内容的摘要来进行训练,由于不同文章的质量良莠不齐,模型效果很难的到保证。
[0005]基于此,如何提供一种不依赖标注数据的自动化文本摘要是本领域人员亟待解决的问题。

技术实现思路

[0006]为解决上述问题,提出了本专利技术实施例的摘要生成方法、装置及设备。
[0007]根据本专利技术实施例的一个方面,提供了一种摘要生成方法,包括:获取原始文本以及所述原始文本的原始句向量;对所述原始文本执行文本单位移除操作,直到所述原始文本对应的执行结果满足预设条件,得到文本摘要;所述文本单位移除操作包括:分别移除所述原始文本中的一个文本单位,直到所有单位均被移除,得到至少两个简化文本;分别计算所述至少两个简化文本的句向量,得到至少两个简化句向量;分别将所述至少两个简化句向量与所述原始句向量进行相似度匹配,得到相似度最高的简化句向量对应的第一简化文本;若所述第一简化文本不满足预设停止条件,则对所述第一简化文本继续执行所述文本单位移除操作。
[0008]可选的,获取所述原始文本的原始句向量,包括:调用句向量生成器计算所述原始文本的原始句向量。
[0009]可选的,在获取原始文本之后,还包括:确定所述原始文本的文本单位。
[0010]可选的,所述文本单位包括以下单位中的一种:
字文本单位、词文本单位以及句文本单位。
[0011]可选的,分别计算所述至少两个简化文本的句向量,包括:调用所述句向量生成器分别计算所述至少两个简化文本的句向量。
[0012]可选的,分别将所述至少两个简化句向量与所述原始句向量进行相似度匹配,得到相似度最高的简化句向量对应的第一简化文本,包括:分别计算所述至少两个简化句向量与所述原始句向量的余弦相似度,将所述至少两个简化句向量中与所述原始句向量的余弦相似度最高的简化句向量对应的简化文本作为所述第一简化文本。
[0013]可选的,所述预设条件,包括以下至少一种:余弦相似度高于第一预设阈值、文本长度低于第二预设阈值。
[0014]根据本专利技术实施例的另一方面,提供了一种摘要生成装置,所述装置包括:获取模块,用于获取原始文本以及所述原始文本的原始句向量;输出模块,用于对所述原始文本执行文本单位移除操作,直到所述原始文本对应的执行结果满足预设条件,得到文本摘要;文本单位移除模块,用于分别移除所述原始文本中的一个文本单位,直到所有单位均被移除,得到至少两个简化文本;分别计算所述至少两个简化文本的句向量,得到至少两个简化句向量;分别将所述至少两个简化句向量与所述原始句向量进行相似度匹配,得到相似度最高的简化句向量对应的第一简化文本;若所述第一简化文本不满足预设停止条件,则对所述第一简化文本继续执行所述文本单位移除操作。
[0015]根据本专利技术实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述摘要生成方法对应的操作。
[0016]根据本专利技术实施例的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述摘要生成方法对应的操作。
[0017]根据本专利技术上述实施例提供的方案,通过获取原始文本以及所述原始文本的原始句向量;对所述原始文本执行文本单位移除操作,直到所述原始文本对应的执行结果满足预设条件,得到文本摘要;所述文本单位移除操作包括:分别移除所述原始文本中的一个文本单位,直到所有单位均被移除,得到至少两个简化文本;分别计算所述至少两个简化文本的句向量,得到至少两个简化句向量;分别将所述至少两个简化句向量与所述原始句向量进行相似度匹配,得到相似度最高的简化句向量对应的第一简化文本;若所述第一简化文本不满足预设停止条件,则对所述第一简化文本继续执行所述文本单位移除操作,实现了不依赖标注数据的自动化文本摘要。
[0018]上述说明仅是本专利技术实施例技术方案的概述,为了能够更清楚了解本专利技术实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术实施例的具体实施方式。
附图说明
[0019]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的摘要生成方法的流程图;图2示出了本专利技术实施例提供的一种具体的不依赖标注数据的自动化文本摘要执行流程以及对应的数据示例示意图;图3示出了本专利技术实施例提供的摘要生成装置的结构示意图;图4示出了本专利技术实施例提供的计算设备的结构示意图。
具体实施方式
[0020]下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。
[0021]图1示出了本专利技术实施例提供的摘要生成方法的方法流程图。如图1所示,该方法包括以下步骤:步骤11,获取原始文本以及所述原始文本的原始句向量;步骤12,对所述原始文本执行文本单位移除操作,直到所述原始文本对应的执行结果满足预设条件,得到文本摘要;步骤13,所述文本单位移除操作包括:步骤14,分别移除所述原始文本中的一个文本单位,直到所有单位均被移除,得到至少两个简化文本;步骤15,分别计算所述至少两个简化文本的句向量,得到至少两个简化句向量;步骤16,分别将所述至少两个简化句向量与所述原始句向量进行相似度匹配,得到相似度最高的简化句向量对应的第一简化文本;步骤17,若所述第一简化文本不满足预设停止条件,则对所述第一简化文本继续执行所述文本单位移除操作。
[0022]该实施例中,通过获取原始文本以及本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种摘要生成方法,其特征在于,所述方法包括:获取原始文本以及所述原始文本的原始句向量;对所述原始文本执行文本单位移除操作,直到所述原始文本对应的执行结果满足预设条件,得到文本摘要;所述文本单位移除操作包括:分别移除所述原始文本中的一个文本单位,直到所有单位均被移除,得到至少两个简化文本;分别计算所述至少两个简化文本的句向量,得到至少两个简化句向量;分别将所述至少两个简化句向量与所述原始句向量进行相似度匹配,得到相似度最高的简化句向量对应的第一简化文本;若所述第一简化文本不满足预设停止条件,则对所述第一简化文本继续执行所述文本单位移除操作。2.根据权利要求1所述的摘要生成方法,其特征在于,获取所述原始文本的原始句向量,包括:调用句向量生成器计算所述原始文本的原始句向量。3.根据权利要求1所述的摘要生成方法,其特征在于,在获取原始文本之后,还包括:确定所述原始文本的文本单位。4.根据权利要求3所述的摘要生成方法,其特征在于,所述文本单位包括以下单位中的一种:字文本单位、词文本单位以及句文本单位。5.根据权利要求2所述的摘要生成方法,其特征在于,分别计算所述至少两个简化文本的句向量,包括:调用所述句向量生成器分别计算所述至少两个简化文本的句向量。6.根据权利要求1所述的摘要生成方法,其特征在于,分别将所述至少两个简化句向量与所述原始句向量进行相似度匹配,得到相似度最高的简化句向量对应的第一简化文本,包括:分别计算所述至少两个简化句向量与所述原始句向量的余弦相似度,将所...

【专利技术属性】
技术研发人员:彭立彪郑银河黄民烈
申请(专利权)人:北京聆心智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1