一种摘要生成方法、装置及计算机设备制造方法及图纸

技术编号:22308432 阅读:14 留言:0更新日期:2019-10-16 08:31
本发明专利技术公开了一种摘要生成方法、装置及计算机设备,其中,摘要生成方法包括:获取目标文本;确定与生成摘要的目标风格相匹配的模板摘要;基于风格提取模型提取所述模板摘要的风格向量;基于摘要模型中的文本编码器对所述目标文本进行内容编码处理,得到所述目标文本的内容编码向量;将所述内容编码向量和风格向量输入所述摘要模型中的文本解码器进行解码处理,得到具有所述目标风格的所述目标文本的摘要。本发明专利技术将模板摘要的风格向量与目标文本的内容编码向量作为摘要模型中文本解码器的输入,使得文本解码器的输出融合了目标文本的文本内容和模板摘要的目标风格,从而得到具有指定风格的摘要。

A method, device and computer equipment for abstract generation

【技术实现步骤摘要】
一种摘要生成方法、装置及计算机设备
本专利技术涉及计算机
,特别涉及一种摘要生成方法、装置及计算机设备。
技术介绍
自动摘要生成是指利用自然语言处理技术来对文本进行分析处理,自动总结生成摘要。现有的自动摘要生成方法主要包括抽取式和生成式,其中,抽取式通过从文本中选取一些关键的句子作为摘要语句以组合成一篇摘要;生成式通过计算机读懂文本内容,并将文本内容用自己的意思表达出来,一般生成式得到的文本摘要更能符合人们对摘要的预期,也更能吸引用户阅读。相关技术中,基于生成式的方法生成的摘要的写作风格单一,无法迎合不同用户群体的阅读兴趣,从而导致互联网产品的用户粘着性差。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种摘要生成方法、装置及计算机设备。所述技术方案如下:一方面,提供了一种摘要生成方法,所述方法包括:获取目标文本;确定与生成摘要的目标风格相匹配的模板摘要;基于风格提取模型提取所述模板摘要的风格向量;基于摘要模型中的文本编码器对所述目标文本进行内容编码处理,得到所述目标文本的内容编码向量;将所述内容编码向量和风格向量输入所述摘要模型中的文本解码器进行解码处理,得到具有所述目标风格的所述目标文本的摘要。另一方面,提供了一种摘要生成装置,所述装置包括:第一获取模块,用于获取目标文本;第一确定模块,用于确定与生成摘要的目标风格相匹配的模板摘要;第一提取模块,用于基于风格提取模型提取所述模板摘要的风格向量;第一编码模块,用于基于摘要模型中的文本编码器对所述目标文本进行内容编码处理,得到所述目标文本的内容编码向量;解码模块,用于将所述内容编码向量和风格向量输入所述摘要模型中的文本解码器进行解码处理,得到具有所述目标风格的所述目标文本的摘要。可选的,所述装置还包括摘要模型训练模块,所述摘要模型训练模块包括:第二获取模块,用于获取用于训练的第一样本数据集,所述第一样本数据集包括样本文本以及所述样本文本对应的摘要;第二提取模块,用于基于内容提取模型提取所述摘要的内容向量;第一训练模块,用于利用所述第一样本数据集以及所述内容向量,对预设神经网络模型进行训练,得到初始摘要模型;所述初始摘要模型包括所述文本编码器和初始解码器;第三提取模块,用于基于所述风格提取模型提取所述摘要的风格向量;第二训练模块,用于利用所述第一样本数据集以及所述风格向量,对所述初始解码器进行训练,得到所述文本解码器。可选的,所述第一样本数据集中每个样本文本对应多个摘要;相应的,所述第二提取模块包括:选取模块,用于从每个样本文本对应的多个摘要中选取不同风格的摘要,得到所述样本文本的样本摘要;提取子模块,用于基于内容提取模型提取所述样本摘要的内容向量。可选的,所述装置还包括风格提取模型训练模块,所述风格提取模型训练模块包括:第三获取模块,用于获取用于训练的第二样本数据集,所述第二样本数据集包括多个样本文本以及对应每个样本文本的多个摘要,所述多个摘要具有不同的风格;每种风格的摘要与相应的样本文本组成样本数组;风格编码模块,用于将所述样本数组输入预设第一编码模型中进行风格编码处理,得到对应所述样本数组的风格向量;第二确定模块,用于结合目标风格损失函数确定所述风格向量的总风格损失值;第一调整模块,用于将所述总风格损失值与目标风格损失值进行比对,当所述总风格损失值大于所述目标风格损失值时,调整所述预设第一编码模型的模型参数至所述总风格损失值不大于所述目标风格损失值。可选的,所述第二确定模块包括:第三确定模块,用于根据同一风格的摘要对应的样本数组的风格向量,确定第一风格损失值;第四确定模块,用于根据不同风格的摘要对应的样本数组的风格向量,确定第二风格损失值;第一求和模块,用于对所述第一风格损失值和第二风格损失值进行加权求和,得到所述总风格损失值。可选的,所述装置还包括内容提取模型训练模块,所述内容提取模型训练模块包括:第四获取模块,用于获取用于训练的第三样本数据集,所述第三样本数据集包括多个样本文本以及对应每个样本文本的多个摘要,所述多个摘要具有不同的风格;每种风格的摘要与相应的样本文本组成样本数组;内容编码模块,用于将所述样本数组输入预设第二编码模型中进行内容编码处理,得到对应所述样本数组的内容向量;第五确定模块,用于结合目标内容损失函数确定所述内容向量的总内容损失值;第二调整模块,用于将所述总内容损失值与目标内容损失值进行比对,当所述总内容损失值大于所述目标内容损失值时,调整所述预设第二编码模型的模型参数至所述总内容损失值不大于所述目标内容损失值。可选的,所述第五确定模块包括:第六确定模块,用于根据同一样本文本对应的样本数组的内容向量,确定第一内容损失值;第七确定模块,用于根据不同样本文本对应的样本数组的内容向量,确定第二内容损失值;第二求和模块,用于对所述第一内容损失值和第二内容损失值进行加权求和,得到所述总内容损失值。可选的,所述第一编码模块包括:预处理模块,用于对所述目标文本进行预处理;转化模块,用于将预处理后的目标文本进行词向量转化,得到所述目标文本对应的词向量;编码子模块,用于基于摘要模型中的文本编码器对所述词向量进行编码处理,得到对应所述目标文本的内容编码向量。另一方面,提供了一种计算机设备,包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述摘要生成方法。另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的摘要生成方法。本专利技术实施例通过风格提取模型来提取与生成摘要的目标风格相匹配的模板摘要的风格向量,并将该风格向量与目标文本的内容编码向量作为摘要模型中文本解码器的输入,使得文本解码器的输出融合了目标文本的文本内容和模板摘要的目标风格即得到具有指定风格的摘要。在实际应用中,针对同一目标文本,可以结合实际的摘要风格需求生成与实际需求的风格相吻合的摘要,使得摘要的风格多样化,更能迎合不同用户群体的阅读兴趣,有利于提高用户对互联网产品的粘着性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种摘要生成方法的流程示意图;图2是本专利技术实施例提供的训练风格提取模型的一种方法流程示意图;图3是本专利技术实施例提供的训练风格提取模型和内容提取模型的一个实例图;图4是本专利技术实施例提供的训练摘要模型的一种方法流程示意图;图5是本专利技术实施例提供的训练内容提取模型的一种方法流程示意图;图6是本专利技术实施例提供的一种摘要生成装置的结构示意图;图7是本专利技术实施例提供的另一种摘要生成装置的结构示意图;图8是本专利技术实施例提供的另一种摘要生成装置的结构示意图;图9是本专利技术实施例提供的一种终端的硬件结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显本文档来自技高网...

【技术保护点】
1.一种摘要生成方法,其特征在于,所述方法包括:获取目标文本;确定与生成摘要的目标风格相匹配的模板摘要;基于风格提取模型提取所述模板摘要的风格向量;基于摘要模型中的文本编码器对所述目标文本进行内容编码处理,得到所述目标文本的内容编码向量;将所述内容编码向量和风格向量输入所述摘要模型中的文本解码器进行解码处理,得到具有所述目标风格的所述目标文本的摘要。

【技术特征摘要】
1.一种摘要生成方法,其特征在于,所述方法包括:获取目标文本;确定与生成摘要的目标风格相匹配的模板摘要;基于风格提取模型提取所述模板摘要的风格向量;基于摘要模型中的文本编码器对所述目标文本进行内容编码处理,得到所述目标文本的内容编码向量;将所述内容编码向量和风格向量输入所述摘要模型中的文本解码器进行解码处理,得到具有所述目标风格的所述目标文本的摘要。2.根据权利要求1所述的摘要生成方法,其特征在于,所述方法还包括训练所述摘要模型,所述训练所述摘要模型包括:获取用于训练的第一样本数据集,所述第一样本数据集包括样本文本以及所述样本文本对应的摘要;基于内容提取模型提取所述摘要的内容向量;利用所述第一样本数据集以及所述内容向量,对预设神经网络模型进行训练,得到初始摘要模型;所述初始摘要模型包括所述文本编码器和初始解码器;基于所述风格提取模型提取所述摘要的风格向量;利用所述第一样本数据集以及所述风格向量,对所述初始解码器进行训练,得到所述文本解码器。3.根据权利要求2所述的摘要生成方法,其特征在于,所述第一样本数据集中每个样本文本对应多个摘要;相应的,所述基于内容提取模型提取所述摘要的内容向量包括:从每个样本文本对应的多个摘要中选取不同风格的摘要,得到所述样本文本的样本摘要;基于内容提取模型提取所述样本摘要的内容向量。4.根据权利要求1所述的摘要生成方法,其特征在于,所述方法还包括训练所述风格提取模型,所述训练所述风格提取模型包括:获取用于训练的第二样本数据集,所述第二样本数据集包括多个样本文本以及对应每个样本文本的多个摘要,所述多个摘要具有不同的风格;每种风格的摘要与相应的样本文本组成样本数组;将所述样本数组输入预设第一编码模型中进行风格编码处理,得到对应所述样本数组的风格向量;结合目标风格损失函数确定所述风格向量的总风格损失值;将所述总风格损失值与目标风格损失值进行比对,当所述总风格损失值大于所述目标风格损失值时,调整所述预设第一编码模型的模型参数至所述总风格损失值不大于所述目标风格损失值。5.根据权利要求4所述的摘要生成方法,其特征在于,所述结合目标风格损失函数确定所述风格向量的总风格损失值包括:根据同一风格的摘要对应的样本数组的风格向量,确定第一风格损失值;根据不同风格的摘要对应的样本数组的风格向量,确定第二风格损失值...

【专利技术属性】
技术研发人员:缪畅宇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1