【技术实现步骤摘要】
摘要生成方法、装置、电子设备及存储介质
本申请涉及信息处理领域,具体而言,涉及一种摘要生成方法、装置、电子设备及存储介质。
技术介绍
在查阅各种类型的文本信息时,为了节省查阅时间,通常首先查阅这些文本信息的关键内容(也就是这些文本信息的摘要)。然而,有些待查阅的文本信息通常没有预先生成的摘要,例如,对于根据客服与用户之间对话沟通所形成的对话文本信息,通常不存在与之对应的摘要。因此,期望服务器或者终端等机器设备能够根据这些待查阅的文本信息来自动地生成摘要。通常,机器设备自动生成文本信息的摘要主要包括如下两种方式:抽取式和生成式。抽取式是机器设备根据一定的权重,从原始文本信息中提取与中心思想最相近的若干语句,生成式是在机器设备读取原始文本信息之后,采用一定的模型来理解原始文本信息并且自动概括原文的含义。然而,采用现有的自动摘要生成方式基于原始文本信息生成的摘要,逻辑性和信息完整比较欠缺。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种摘要生成方法、装置、电子设备及存储介质,能够通过该摘要生成方法解决现有技术中基于原始文本信息自动生成摘要时,所生成的摘要在逻辑性和信息完整性方面比较欠缺的问题。一方面,本申请实施例提供一种摘要生成方法,包括:获取待分析的文本信息;采用摘要分析模型,对文本信息进行处理,获取文本信息的摘要,其中,摘要分析模型基于文本样本、文本样本的摘要、以及预设关键词集合训练获取,预设关键词集合包括词汇类型以及各词汇类型的特征信息。可选 ...
【技术保护点】
1.一种摘要生成方法,其特征在于,包括:/n获取待分析的文本信息;/n采用摘要分析模型,对所述文本信息进行处理,获取所述文本信息的摘要,其中,所述摘要分析模型基于文本样本、所述文本样本的摘要、以及预设关键词集合训练获取,所述预设关键词集合包括词汇类型以及各词汇类型的特征信息。/n
【技术特征摘要】
1.一种摘要生成方法,其特征在于,包括:
获取待分析的文本信息;
采用摘要分析模型,对所述文本信息进行处理,获取所述文本信息的摘要,其中,所述摘要分析模型基于文本样本、所述文本样本的摘要、以及预设关键词集合训练获取,所述预设关键词集合包括词汇类型以及各词汇类型的特征信息。
2.根据权利要求1所述的方法,其特征在于,所述采用摘要分析模型,对所述文本信息进行处理,获取所述文本信息的摘要,包括:
采用所述摘要分析模型,根据所述文本信息中各词汇的特征信息获取各词汇的词汇类型;
根据所述文本信息中各词汇的词汇类型,生成关键词序列;
根据所述关键词序列生成所述文本信息的摘要。
3.根据权利要求1或2所述的方法,其特征在于,所述获取待分析的文本信息,包括:
根据预设的预处理规则,对原始文本信息进行预处理,得到所述文本信息。
4.根据权利要求2所述的方法,其特征在于,所述根据所述关键词序列生成所述文本信息的摘要,包括:
分别生成所述关键词序列中的每一个关键词对应的摘要语句;
根据所述关键词在所述关键词序列中的顺序,合并所述摘要语句,以生成所述文本信息的摘要。
5.根据权利要求4所述的方法,其特征在于,所述分别生成所述关键词序列中的每一个关键词对应的摘要语句,包括:
针对所述关键词序列中的每一个关键词,计算用于生成与该关键词对应的摘要语句中的词汇的生成概率和拷贝概率,其中,所述生成概率用于表示采用预设词汇形成摘要语句词汇的概率,并且所述拷贝概率用于表示采用所述文本信息中的词汇形成摘要语句词汇的概率;
根据所述生成概率和所述拷贝概率,确定摘要语句词汇的生成方式;
根据所述摘要语句词汇的生成方式,生成所述每一个关键词对应的摘要语句。
6.根据权利要求4所述的方法,其特征在于,所述关键词序列的词汇数量小于第一预设阈值,所述摘要语句的词汇数量小于第二预设阈值。
7.根据权利要求2所述的方法,其特征在于,在所述采用摘要分析模型,对所述文本信息进行处理,获取所述文本信息的摘要之前,还包括:
获取文本样本、所述文本样本的摘要、以及预设关键词集合;
采用神经网络,基于所述文本样本、所述文本样本的摘要、以及所述预设关键词集合进行训练,得到所述摘要分析模型。
8.根据权利要求7所述的方法,其特征在于,所述采用神经网络,基于所述文本样本、所述文本样本的摘要、以及所述预设关键词集合进行训练,得到所述摘要分析模型,包括:
采用神经网络,基于所述文本样本、所述文本样本的摘要、以及所述预设关键词集合进行训练,获取中间摘要分析模型;
采用所述中间摘要分析模型分析测试文本,获取所述测试文本的测试摘要;
根据所述测试文本的预设摘要、以及所述测试文本的测试摘要,获取损失函数,其中,所述损失函数由交叉熵和奖励函数构成;
根据所述损失函数更新所述中间摘要分析模型,得到所述摘要分析模型。
9.根据权利要求7或8所述的方法,其特征在于,所述采用神经网络,基于所述文本样本、所述文本样本的摘要、以及所述预设关键词集合进行训练,得到所述摘要分析模型,包括:
采用神经网络,基于所述文本样本、所述文本样本的摘要、所述文本样本的关键词序列、以及所述预设关键词集合进行训练,得到所述摘要分析模型。
10.一种摘要生成装置,其特征在于,包括:文本信息获取模块和摘要获取模块,...
【专利技术属性】
技术研发人员:刘纯一,王鹏,徐江,李奘,
申请(专利权)人:北京嘀嘀无限科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。