摘要生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:25599863 阅读:16 留言:0更新日期:2020-09-11 23:57
本申请提供了一种摘要生成方法、装置、电子设备及存储介质,涉及信息处理领域,该摘要生成方法包括:获取待分析的文本信息;采用摘要分析模型,对文本信息进行处理,获取文本信息的摘要,其中,摘要分析模型基于文本样本、文本样本的摘要、以及预设关键词集合训练获取,预设关键词集合包括词汇类型以及各词汇类型的特征信息。本申请实施例中,在训练摘要分析模型的过程中,利用了预设关键词集合,从而保证了经训练的摘要分析模型处理文本信息后所获取的摘要具有良好的逻辑性和信息完整性。

【技术实现步骤摘要】
摘要生成方法、装置、电子设备及存储介质
本申请涉及信息处理领域,具体而言,涉及一种摘要生成方法、装置、电子设备及存储介质。
技术介绍
在查阅各种类型的文本信息时,为了节省查阅时间,通常首先查阅这些文本信息的关键内容(也就是这些文本信息的摘要)。然而,有些待查阅的文本信息通常没有预先生成的摘要,例如,对于根据客服与用户之间对话沟通所形成的对话文本信息,通常不存在与之对应的摘要。因此,期望服务器或者终端等机器设备能够根据这些待查阅的文本信息来自动地生成摘要。通常,机器设备自动生成文本信息的摘要主要包括如下两种方式:抽取式和生成式。抽取式是机器设备根据一定的权重,从原始文本信息中提取与中心思想最相近的若干语句,生成式是在机器设备读取原始文本信息之后,采用一定的模型来理解原始文本信息并且自动概括原文的含义。然而,采用现有的自动摘要生成方式基于原始文本信息生成的摘要,逻辑性和信息完整比较欠缺。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种摘要生成方法、装置、电子设备及存储介质,能够通过该摘要生成方法解决现有技术中基于原始文本信息自动生成摘要时,所生成的摘要在逻辑性和信息完整性方面比较欠缺的问题。一方面,本申请实施例提供一种摘要生成方法,包括:获取待分析的文本信息;采用摘要分析模型,对文本信息进行处理,获取文本信息的摘要,其中,摘要分析模型基于文本样本、文本样本的摘要、以及预设关键词集合训练获取,预设关键词集合包括词汇类型以及各词汇类型的特征信息。可选地,所述采用摘要分析模型,对文本信息进行处理,获取文本信息的摘要,包括:采用摘要分析模型,根据文本信息中各词汇的特征信息获取各词汇的词汇类型;根据文本信息中各词汇的词汇类型,生成关键词序列;根据关键词序列生成文本信息的摘要。可选地,所述获取待分析的文本信息,包括:根据预设的预处理规则,对原始文本信息进行预处理,得到文本信息。可选地,所述根据关键词序列生成文本信息的摘要,包括:分别生成关键词序列中的每一个关键词对应的摘要语句;根据关键词在关键词序列中的顺序,合并摘要语句,以生成文本信息的摘要。可选地,所述分别生成关键词序列中的每一个关键词对应的摘要语句,包括:针对关键词序列中的每一个关键词,计算用于生成与该关键词对应的摘要语句中的词汇的生成概率和拷贝概率,其中,生成概率用于表示采用预设词汇形成摘要语句词汇的概率,并且拷贝概率用于表示采用文本信息中的词汇形成摘要语句词汇的概率;根据生成概率和拷贝概率,确定摘要语句词汇的生成方式;根据摘要语句词汇的生成方式,生成每一个关键词对应的摘要语句。可选地,关键词序列的词汇数量小于第一预设阈值,摘要语句的词汇数量小于第二预设阈值。可选地,在所述采用摘要分析模型,对文本信息进行处理,获取文本信息的摘要之前,还包括:获取文本样本、文本样本的摘要、以及预设关键词集合;采用神经网络,基于文本样本、文本样本的摘要、以及预设关键词集合进行训练,得到摘要分析模型。可选地,所述采用神经网络,基于文本样本、文本样本的摘要、以及预设关键词集合进行训练,得到摘要分析模型,包括:采用神经网络,基于文本样本、文本样本的摘要、以及预设关键词集合进行训练,获取中间摘要分析模型;采用中间摘要分析模型分析测试文本,获取测试文本的测试摘要;根据测试文本的预设摘要、以及测试文本的测试摘要,获取损失函数,其中,损失函数由交叉熵和奖励函数构成;根据损失函数更新中间摘要分析模型,得到摘要分析模型。可选地,所述采用神经网络,基于文本样本、文本样本的摘要、以及预设关键词集合进行训练,得到摘要分析模型,包括:采用神经网络,基于文本样本、文本样本的摘要、文本样本的关键词序列、以及预设关键词集合进行训练,得到摘要分析模型。另一方面,本申请实施例还提供一种摘要生成装置,包括:文本信息获取模块和摘要获取模块,文本信息获取模块,用于获取待分析的文本信息;摘要获取模块,用于采用摘要分析模型,对文本信息进行处理,获取文本信息的摘要,其中,摘要分析模型基于文本样本、文本样本的摘要、以及预设关键词集合训练获取,预设关键词集合包括词汇类型以及各词汇类型的特征信息。可选地,摘要获取模块,具体用于:采用摘要分析模型,根据文本信息中各词汇的特征信息获取各词汇的词汇类型;根据文本信息中各词汇的词汇类型,生成关键词序列;根据关键词序列生成文本信息的摘要。可选地,文本信息获取模块,具体用于:根据预设的预处理规则,对原始文本信息进行预处理,得到文本信息。可选地,摘要获取模块,具体用于:分别生成关键词序列中的每一个关键词对应的摘要语句;根据关键词在关键词序列中的顺序,合并摘要语句,以生成文本信息的摘要。可选地,摘要获取模块,具体用于:针对关键词序列中的每一个关键词,计算用于生成与该关键词对应的摘要语句中的词汇的生成概率和拷贝概率,其中,生成概率用于表示采用预设词汇形成摘要语句词汇的概率,并且拷贝概率用于表示采用文本信息中的词汇形成摘要语句词汇的概率;根据生成概率和拷贝概率,确定摘要语句词汇的生成方式;根据摘要语句词汇的生成方式,生成每一个关键词对应的摘要语句。可选地,关键词序列的词汇数量小于第一预设阈值,摘要语句的词汇数量小于第二预设阈值。可选地,该装置还包括:样本获取模块和模型训练模块,样本获取模块,用于获取文本样本、文本样本的摘要、以及预设关键词集合;模型训练模块,用于采用神经网络,基于文本样本、文本样本的摘要、以及预设关键词集合进行训练,得到摘要分析模型。可选地,模型训练模块,具体用于:采用神经网络,基于文本样本、文本样本的摘要、以及预设关键词集合进行训练,获取中间摘要分析模型;采用中间摘要分析模型分析测试文本,获取测试文本的测试摘要;根据测试文本的预设摘要、以及测试文本的测试摘要,获取损失函数,其中,损失函数由交叉熵和奖励函数构成;根据损失函数更新中间摘要分析模型,得到摘要分析模型。可选地,模型训练模块,具体用于:采用神经网络,基于文本样本、文本样本的摘要、文本样本的关键词序列、以及预设关键词集合进行训练,得到摘要分析模型。另一方面,本申请实施例还提供一种电子设备,包括:处理器、存储介质和总线;存储介质存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行根据上述一方面所述的摘要生成方法。又一方面,本申请实施例还提供一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行根据上述一方面所述的摘要生成方法。基于上述任一方面,本申请的有益效果包括:通过获取待分析的文本信息;采用摘要分析模型,对文本信息进行处理,获取文本信息的摘要,其中,摘要分析模型基于文本样本、文本样本的摘要、以及预设关键词集合训练本文档来自技高网...

【技术保护点】
1.一种摘要生成方法,其特征在于,包括:/n获取待分析的文本信息;/n采用摘要分析模型,对所述文本信息进行处理,获取所述文本信息的摘要,其中,所述摘要分析模型基于文本样本、所述文本样本的摘要、以及预设关键词集合训练获取,所述预设关键词集合包括词汇类型以及各词汇类型的特征信息。/n

【技术特征摘要】
1.一种摘要生成方法,其特征在于,包括:
获取待分析的文本信息;
采用摘要分析模型,对所述文本信息进行处理,获取所述文本信息的摘要,其中,所述摘要分析模型基于文本样本、所述文本样本的摘要、以及预设关键词集合训练获取,所述预设关键词集合包括词汇类型以及各词汇类型的特征信息。


2.根据权利要求1所述的方法,其特征在于,所述采用摘要分析模型,对所述文本信息进行处理,获取所述文本信息的摘要,包括:
采用所述摘要分析模型,根据所述文本信息中各词汇的特征信息获取各词汇的词汇类型;
根据所述文本信息中各词汇的词汇类型,生成关键词序列;
根据所述关键词序列生成所述文本信息的摘要。


3.根据权利要求1或2所述的方法,其特征在于,所述获取待分析的文本信息,包括:
根据预设的预处理规则,对原始文本信息进行预处理,得到所述文本信息。


4.根据权利要求2所述的方法,其特征在于,所述根据所述关键词序列生成所述文本信息的摘要,包括:
分别生成所述关键词序列中的每一个关键词对应的摘要语句;
根据所述关键词在所述关键词序列中的顺序,合并所述摘要语句,以生成所述文本信息的摘要。


5.根据权利要求4所述的方法,其特征在于,所述分别生成所述关键词序列中的每一个关键词对应的摘要语句,包括:
针对所述关键词序列中的每一个关键词,计算用于生成与该关键词对应的摘要语句中的词汇的生成概率和拷贝概率,其中,所述生成概率用于表示采用预设词汇形成摘要语句词汇的概率,并且所述拷贝概率用于表示采用所述文本信息中的词汇形成摘要语句词汇的概率;
根据所述生成概率和所述拷贝概率,确定摘要语句词汇的生成方式;
根据所述摘要语句词汇的生成方式,生成所述每一个关键词对应的摘要语句。


6.根据权利要求4所述的方法,其特征在于,所述关键词序列的词汇数量小于第一预设阈值,所述摘要语句的词汇数量小于第二预设阈值。


7.根据权利要求2所述的方法,其特征在于,在所述采用摘要分析模型,对所述文本信息进行处理,获取所述文本信息的摘要之前,还包括:
获取文本样本、所述文本样本的摘要、以及预设关键词集合;
采用神经网络,基于所述文本样本、所述文本样本的摘要、以及所述预设关键词集合进行训练,得到所述摘要分析模型。


8.根据权利要求7所述的方法,其特征在于,所述采用神经网络,基于所述文本样本、所述文本样本的摘要、以及所述预设关键词集合进行训练,得到所述摘要分析模型,包括:
采用神经网络,基于所述文本样本、所述文本样本的摘要、以及所述预设关键词集合进行训练,获取中间摘要分析模型;
采用所述中间摘要分析模型分析测试文本,获取所述测试文本的测试摘要;
根据所述测试文本的预设摘要、以及所述测试文本的测试摘要,获取损失函数,其中,所述损失函数由交叉熵和奖励函数构成;
根据所述损失函数更新所述中间摘要分析模型,得到所述摘要分析模型。


9.根据权利要求7或8所述的方法,其特征在于,所述采用神经网络,基于所述文本样本、所述文本样本的摘要、以及所述预设关键词集合进行训练,得到所述摘要分析模型,包括:
采用神经网络,基于所述文本样本、所述文本样本的摘要、所述文本样本的关键词序列、以及所述预设关键词集合进行训练,得到所述摘要分析模型。


10.一种摘要生成装置,其特征在于,包括:文本信息获取模块和摘要获取模块,...

【专利技术属性】
技术研发人员:刘纯一王鹏徐江李奘
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1