生成文本摘要的方法、训练摘要生成模型的方法及装置制造方法及图纸

技术编号:37711666 阅读:8 留言:0更新日期:2023-06-02 00:04
本申请实施例公开了一种生成文本摘要的方法、训练摘要生成模型的方法及装置,涉及人工智能技术领域。主要技术方案包括:获取待处理文本;从所述待处理文本中提取关键文本单元;将所述待处理文本和所述关键文本单元的信息输入摘要生成模型,获取所述摘要生成模型利用所述待处理文本和所述关键文本单元的信息生成的所述待处理文本的摘要;其中所述摘要生成模型是基于第二深度学习模型预先训练得到的。本申请通过关键文本单元的提取和引入为摘要的生成提供指导,使得摘要生成模型能够聚焦待处理文本中的关键内容,降低噪声的影响,从而提高针对长文本生成摘要的准确性。而提高针对长文本生成摘要的准确性。而提高针对长文本生成摘要的准确性。

【技术实现步骤摘要】
生成文本摘要的方法、训练摘要生成模型的方法及装置


[0001]本申请涉及人工智能
,特别是涉及一种生成文本摘要的方法、训练摘要生成模型的方法及装置。

技术介绍

[0002]利用人工智能技术将大量文本进行处理,产生简洁、精炼内容的过程就是摘要生成。人们可以通过阅读摘要来把握文本主要内容,节省时间,提高阅读效率。然而在很多场景下需要针对长文本生成摘要,例如针对视频会议、讲座、面试等记录生成摘要。这些场景下的长文本存在持续时间久、关键信息分布稀疏等特点,现有的学术研究方案和工业解决方案均难以针对长文本进行准确地摘要生成。

技术实现思路

[0003]有鉴于此,本申请提供了一种生成文本摘要的方法、训练摘要生成模型的方法及装置,用以针对长文本实现准确地摘要生成。
[0004]本申请提供了如下方案:
[0005]第一方面,提供了一种生成文本摘要的方法,所述方法包括:
[0006]获取待处理文本;
[0007]从所述待处理文本中提取关键文本单元;
[0008]将所述待处理文本和所述关键文本单元的信息输入摘要生成模型,获取所述摘要生成模型利用所述待处理文本和所述关键文本单元的信息生成的所述待处理文本的摘要;
[0009]其中所述摘要生成模型是基于第二深度学习模型预先训练得到的。
[0010]根据本申请实施例中一可实现的方式,从所述待处理文本中提取关键文本单元包括:
[0011]将所述待处理文本输入关键文本提取模型,获取所述关键文本提取模型从所述待处理文本中提取的关键文本单元,其中所述关键文本提取模型基于第一深度学习模型预先训练得到;或者,
[0012]利用预设的特征规则从所述待处理文本中提取关键文本单元;或者,
[0013]将所述待处理文本输入关键文本提取模型,获取所述关键文本提取模型从所述待处理文本中提取的第一关键文本单元,利用预设的特征规则从所述待处理文本中提取第二关键文本单元,将所述第一关键文本单元和所述第二关键文本单元进行融合,得到关键文本单元。
[0014]根据本申请实施例中一可实现的方式,所述关键文本提取模型包括第一编码网络和分类网络;
[0015]所述第一编码网络对所述待处理文本进行编码处理,得到所述待处理文本中各文本单元的特征表示;
[0016]所述分类网络利用所述各文本单元的特征表示对各文本单元进行分类,得到各文
本单元是否为关键文本单元的分类结果。
[0017]根据本申请实施例中一可实现的方式,所述摘要生成模型包括第二编码网络和解码网络;
[0018]所述第二编码网络利用所述关键文本单元的信息对所述待处理文本进行编码处理,得到所述待处理文本中各元素Token的特征表示;
[0019]所述解码网络利用所述待处理文本中各Token的特征表示进行解码处理,生成所述待处理文本的摘要。
[0020]根据本申请实施例中一可实现的方式,所述第二编码网络利用所述关键文本单元的信息对所述待处理文本进行编码处理,得到所述待处理文本中各Token的特征表示包括:
[0021]所述第二编码网络对待处理文本进行嵌入处理后,得到所述待处理文本中各Token的嵌入特征;
[0022]利用所述关键文本单元的信息对所述各Token的嵌入特征进行注意力机制的处理,得到各Token的特征表示,其中所述注意力机制的处理包括:对属于关键文本单元的各Token进行注意力处理时利用所述待处理文本中所有Token的嵌入特征,对不属于关键文本单元的各Token进行注意力处理时利用距离该Token预设窗口距离内的各Token的嵌入特征。
[0023]根据本申请实施例中一可实现的方式,所述方法应用于在线会议场景,所述待处理文本为在线会议的会议记录,所述关键文本单元为关键句,所述摘要为所述会议记录的会议摘要。
[0024]第二方面,提供给了一种训练摘要生成模型的方法,所述方法包括:
[0025]获取多个第二训练样本,所述第二训练样本包括第二文本样本、所述第二文本样本的关键文本单元的信息以及所述第二文本样本的摘要样本;
[0026]利用所述多个第二训练样本训练所述摘要生成模型,其中所述摘要生成模型包括第二编码网络和解码网络;
[0027]所述第二编码网络利用第二文本样本的关键文本单元的信息对第二文本样本进行编码处理,得到第二文本样本中各Token的特征表示;
[0028]所述解码网络利用所述第二文本样本中各Token的特征表示进行解码处理,生成所述第二文本样本的摘要;
[0029]所述训练的目标包括:最小化所述解码网络生成的所述第二文本样本的摘要与所述第二文本的摘要样本之间的差异。
[0030]根据本申请实施例中一可实现的方式,所述第二编码网络利用第二文本样本的关键文本单元的信息对第二文本样本进行编码处理,得到第二文本样本中各Token的特征表示包括:
[0031]所述第二编码网络获取对第二文本样本进行嵌入处理后,得到的所述第二文本样本中各Token的嵌入特征;
[0032]利用所述第二文本样本的关键文本单元的信息对所述各Token的嵌入特征进行注意力机制的处理,得到各Token的特征表示,其中所述注意力机制的处理包括:对属于关键文本单元的各Token进行注意力处理时利用所述第二文本样本中所有Token的嵌入特征,对不属于关键文本单元的各Token进行注意力处理时利用距离该Token预设窗口距离内的各
Token的嵌入特征。
[0033]第三方面,提供了一种训练关键文本提取模型的方法,所述方法包括:
[0034]获取多个第一训练样本,所述第一训练样本包括第一文本样本以及所述第一文本样本被标注的关键文本单元标签;
[0035]利用所述多个第一训练样本训练关键文本提取模型,其中所述关键文本提取模型包括第一编码网络和分类网络;
[0036]所述第一编码网络对所述第一文本样本进行编码处理,得到所述第一文本样本中各文本单元的特征表示;
[0037]所述分类网络利用所述各文本单元的特征表示对各文本单元进行分类,得到各文本单元是否为关键文本单元的分类结果;
[0038]所述训练的目标包括:最小化所述分类网络的分类结果与所述第一文本样本被标注的关键文本单元标签之间的差异。
[0039]第四方面,提供了一种文本摘要生成装置,所述装置包括:
[0040]文本获取单元,被配置为获取待处理文本;
[0041]关键提取单元,被配置为从所述待处理文本中提取关键文本单元;
[0042]摘要生成单元,被配置为将所述待处理文本和所述关键文本单元的信息输入摘要生成模型,获取所述摘要生成模型利用所述待处理文本和所述关键文本单元的信息生成的所述待处理文本的摘要;其中所述摘要生成模型是基于第二深度学习模型预先训练得到的。
[0043]第五方面,提供了一种训练摘要生成模型的装置,所述装置包括:<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成文本摘要的方法,其特征在于,所述方法包括:获取待处理文本;从所述待处理文本中提取关键文本单元;将所述待处理文本和所述关键文本单元的信息输入摘要生成模型,获取所述摘要生成模型利用所述待处理文本和所述关键文本单元的信息生成的所述待处理文本的摘要;其中所述摘要生成模型是基于第二深度学习模型预先训练得到的。2.根据权利要求1所述的方法,其特征在于,从所述待处理文本中提取关键文本单元包括:将所述待处理文本输入关键文本提取模型,获取所述关键文本提取模型从所述待处理文本中提取的关键文本单元,其中所述关键文本提取模型基于第一深度学习模型预先训练得到;或者,利用预设的特征规则从所述待处理文本中提取关键文本单元;或者,将所述待处理文本输入关键文本提取模型,获取所述关键文本提取模型从所述待处理文本中提取的第一关键文本单元,利用预设的特征规则从所述待处理文本中提取第二关键文本单元,将所述第一关键文本单元和所述第二关键文本单元进行融合,得到关键文本单元。3.根据权利要求2所述的方法,其特征在于,所述关键文本提取模型包括第一编码网络和分类网络;所述第一编码网络对所述待处理文本进行编码处理,得到所述待处理文本中各文本单元的特征表示;所述分类网络利用所述各文本单元的特征表示对各文本单元进行分类,得到各文本单元是否为关键文本单元的分类结果。4.根据权利要求1所述的方法,其特征在于,所述摘要生成模型包括第二编码网络和解码网络;所述第二编码网络利用所述关键文本单元的信息对所述待处理文本进行编码处理,得到所述待处理文本中各元素Token的特征表示;所述解码网络利用所述待处理文本中各Token的特征表示进行解码处理,生成所述待处理文本的摘要。5.根据权利要求4所述的方法,其特征在于,所述第二编码网络利用所述关键文本单元的信息对所述待处理文本进行编码处理,得到所述待处理文本中各Token的特征表示包括:所述第二编码网络对待处理文本进行嵌入处理后,得到所述待处理文本中各Token的嵌入特征;利用所述关键文本单元的信息对所述各Token的嵌入特征进行注意力机制的处理,得到各Token的特征表示,其中所述注意力机制的处理包括:对属于关键文本单元的各Token进行注意力处理时利用所述待处理文本中所有Token的嵌入特征,对不属于关键文本单元的各Token进行注意力处理时利用距离该Token预设窗口距离内的各Token的嵌入特征。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法应用于在线会议场景,所述待处理文本为在线会议的会议记录,所述关键文本单元为关键句,所述摘要为所述会议记录的会议摘要。
7.一种训练摘要生成模型的方法,其特征在于,所述方法包括:获取多个第二训练样本,所述第二训练样本包括第二文本样本、所述第二文本样本的关键文本单元的信息以及所述第二文本样本的摘要样本;利用所述多个第二训练样本训练所述摘要生成模型,其中所述摘要生成模型包括第二编码网络和解码网络;所述第二编码网络利用第二文本样本的关键文本单元的信息对第二文本样本进行编码处理,得到第二文本样本中各Token的特征表示;所述解码网络利用所述第二文本样本中各Token的特征表示进行解码处理,生成所述第二文本样本的摘要;所述训练的目标包括:最小化所述解码网络生成的所述第二文本样本的摘要与所述第二文本的摘要样本之间的差异。8.根据权利要求7所述的方法,其特征在于,所述第二编码网络利用第二文本样本的关键文本单元的信息对第二文本样本进行编码处理,得到第二文本样本中各Token的特征表示包括:所述第二编码网络获取对...

【专利技术属性】
技术研发人员:颜为骧陈谦王雯张庆林
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1