文本摘要生成方法、装置、设备以及存储介质制造方法及图纸

技术编号:35815976 阅读:18 留言:0更新日期:2022-12-03 13:39
本申请公开了一种文本摘要生成方法、装置、设备以及存储介质,属于自然语言处理技术领域。文本摘要生成方法包括以下步骤:获取输入文本;所述输入文本包括多个语句;将多个预设标志分别插入至多个所述语句中,得到多个目标语句;将多个目标语句输入至预训练模型BART,得到所述预训练模型BART输出的多个表示向量;根据多个所述表示向量,得到各个所述表示向量的重要性得分;根据所述重要性得分与所述目标语句,生成摘要文本。本申请可提高生成的文本摘要的准确性。的文本摘要的准确性。的文本摘要的准确性。

【技术实现步骤摘要】
文本摘要生成方法、装置、设备以及存储介质


[0001]本申请涉及自然语言处理
,尤其涉及一种文本摘要生成方法、装置、设备以及存储介质。

技术介绍

[0002]21世纪互联网的快速发展,大量的文本数据涌现导致用户很难快速获取文本中的主题信息,如何快速高效地从海量文本中提炼出所需的有用信息,已经成为一个亟待解决的问题。
[0003]预训练语言模型BART是Mike Lewis等人提出的基于BERT的变种模型,如果说BERT模型是仅使用Transformer

Encoder结构的预训练语言模型,那么BART模型就是使用Transformer模型整体结构的预训练语言模型,相较于BERT,它在自然语言理解任务上表现没有下降,并且在自然语言生成任务上有明显的提高。但是它并未对传统BERT模型的Embedding方式进行修改,因此对于有多句子的文本摘要生成任务,由于其捕获句子间联系的能力并不出众,所以得到的结果也不够准确。
[0004]申请内容
[0005]本申请的主要目的在于提供一种文本摘要生成方法、装置、设备以及存储介质,旨在提高生成文本摘要的准确性。
[0006]为实现以上目的,本申请提供了一种文本摘要生成方法,所述方法包括:
[0007]获取输入文本;所述输入文本包括多个语句;
[0008]将多个预设标志分别插入至多个所述语句中,得到多个目标语句;
[0009]将多个目标语句输入至预训练模型BART,得到所述预训练模型BART输出的多个表示向量;
[0010]根据多个所述表示向量,得到各个所述表示向量的重要性得分;
[0011]根据所述重要性得分与所述目标语句,生成摘要文本。
[0012]可选地,将多个预设标志分别插入至多个所述语句中,得到多个目标语句,包括:
[0013]将第一预设标志插入至每一个所述语句中第一个字符之前;
[0014]将第二预设标志插入至每一个所述语句中最后一个字符之后,得到多个所述目标语句。
[0015]可选地,所述BART模型包括嵌入层,将多个目标语句输入至预训练模型BART,得到所述预训练模型BART输出的多个表示向量,包括:
[0016]将多个目标语句输入至预训练模型BART中的嵌入层;
[0017]所述嵌入层对所述目标语句进行词嵌入操作,得到多个所述表示向量。
[0018]可选地,所述嵌入层对所述目标语句进行词嵌入操作,得到多个所述表示向量,包括:
[0019]判断所述目标语句是否为第奇数个目标语句;
[0020]若是,则选择第一分段嵌入方式对所述目标语句进行词嵌入,得到多个所述表示
向量。
[0021]可选地,判断所述目标语句是否为第奇数个表示向量之后,所述方法还包括:
[0022]若否,则选择第二分段嵌入方式对所述目标语句进行嵌入,得到多个所述表示向量。
[0023]可选地,所述将多个目标语句输入至预训练模型BART,得到所述预训练模型BART输出的多个表示向量,包括:
[0024]将多个目标语句输入至预训练模型BART,得到所述预训练模型BART输出的多个表示向量和多个上下文信息向量;
[0025]所述根据多个所述表示向量,得到各个所述表示向量的重要性得分,包括:
[0026]根据多个所述表示向量以及多个所述上下文信息向量,得到所述输入文本的整体信息;
[0027]针对每个所述语句,将所述表示向量与所述整体信息进行关联度比对,得到关联度比对结果,并将所述关联度比对结果作为各个所述表示向量的重要性得分。
[0028]可选地,根据所述重要性得分与所述目标语句,生成摘要文本,包括:
[0029]筛选出所述重要性得分大于或者等于预设阈值的所述表示向量对应的所述目标语句,得到筛选语句;
[0030]根据所有所述筛选语句,得到所述摘要文本。
[0031]此外,为实现上述目的,本申请还提供一种文本摘要生成装置,所述装置包括:
[0032]文本获取模块,用于获取输入文本;所述输入文本包括多个语句;
[0033]标志插入模块,用于将多个预设标志分别插入至多个所述语句中,得到多个目标语句;
[0034]向量生成模块,用于将多个目标语句输入至预训练模型BART,得到所述预训练模型BART输出的多个表示向量;
[0035]评分模块,用于根据多个所述表示向量,得到各个所述表示向量的重要性得分;
[0036]摘要生成模块,用于根据所述重要性得分与所述目标语句,生成摘要文本。
[0037]本申请还提供一种文本摘要生成设备,包括:处理器,存储器以及存储在所述存储器中的文本摘要生成程序,所述文本摘要生成程序被所述处理器执行时实现第一方面的实现方式中的任一种可能的实现方式中所述的各个步骤。
[0038]本申请还提供一种计算机可读存储介质,其上存储有文本摘要生成程序,所述文本摘要生成程序被处理器执行时实现第一方面的实现方式中的任一种可能的实现方式中所述的各个步骤。
[0039]本申请实施例提出了一种文本摘要生成方法,通过获取输入文本中的多个语句,在多个语句中插入预设标志,得到多个目标语句,在将多个目标语句输入至BART模型,得到多个与目标语句相对应表示向量,将多个表示向量进行重要性评分,再根据重要性得分以及表示向量相对应的目标语句,生成摘要文本。即本申请将所有表示向量进行重要性评分,以确定每一个语句在输入文本中的重要性,再根据表示向量的重要性得分结果和目标语句,生成摘要文本,由此,可使得生成的摘要文本与输入文本中重要性较高的目标语句关联度更高,提高了生成文本摘要的准确性。
附图说明
[0040]图1为本申请涉及的硬件运行环境的文本摘要生成设备的结构示意图;
[0041]图2为本申请文本摘要生成方法第一实施例的流程示意图;
[0042]图3为本申请文本摘要生成方法第二实施例的流程示意图;
[0043]图4为本申请涉及的文本摘要生成装置的功能模块示意图。
[0044]本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0045]应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0046]由于现有技术中是直接采用BART进行文本摘要的提取,而BART并未对传统BERT模型的Embedding方式进行修改,因此对于有多句子的文本摘要生成任务,由于其捕获句子间联系的能力并不出众,所以得到的结果也不够准确。
[0047]为此,本申请提出了一种文本摘要生成方法,通过获取输入文本中的多个语句,在多个语句中插入预设标志,得到多个目标语句,在将多个目标语句输入至BART模型,得到多个与目标语句相对应表示向量,将多个表示向量进行重要性评分,再根据重要性得分以及表示向量相对应的目标语句,生成摘要文本,通过对表示向量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本摘要生成方法,其特征在于,所述方法包括:获取输入文本;所述输入文本包括多个语句;将多个预设标志分别插入至多个所述语句中,得到多个目标语句;将多个目标语句输入至预训练模型BART,得到所述预训练模型BART输出的多个表示向量;根据多个所述表示向量,得到各个所述表示向量的重要性得分;根据所述重要性得分与所述目标语句,生成摘要文本。2.根据权利要求1所述的文本摘要生成方法,其特征在于,所述将多个预设标志分别插入至多个所述语句中,得到多个目标语句,包括:将第一预设标志插入至每一个所述语句中第一个字符之前;将第二预设标志插入至每一个所述语句中最后一个字符之后,得到多个所述目标语句。3.根据权利要求1所述的文本摘要生成方法,其特征在于,所述BART模型包括嵌入层,将多个目标语句输入至预训练模型BART,得到所述预训练模型BART输出的多个表示向量,包括:将多个目标语句输入至预训练模型BART中的嵌入层;所述嵌入层对所述目标语句进行词嵌入操作,得到多个所述表示向量。4.根据权利要求2所述的文本摘要生成方法,其特征在于,所述嵌入层对所述目标语句进行词嵌入操作,得到多个所述表示向量,包括:判断所述目标语句是否为第奇数个目标语句;若是,则选择第一分段嵌入方式对所述目标语句进行词嵌入,得到多个所述表示向量。5.根据权利要求4所述的文本摘要生成方法,其特征在于,所述判断所述目标语句是否为第奇数个表示向量之后,所述方法还包括:若否,则选择第二分段嵌入方式对所述目标语句进行嵌入,得到多个所述表示向量。6.根据权利要求1所述的文本摘要生成方法,其特征在于,所述将多个目标语句输入至预训练模型BART,得到所述预训练模型BART输出的多个表示向量,包括:将多个目标...

【专利技术属性】
技术研发人员:李雅琴屈唯佳袁操曾山
申请(专利权)人:武汉轻工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1