摘要生成方法、装置、电子设备及介质制造方法及图纸

技术编号:25308638 阅读:28 留言:0更新日期:2020-08-18 22:27
本发明专利技术提供一种摘要生成方法、装置、电子设备及介质。该方法能够获取至少一个企业的至少一篇公告摘要并进行去重处理,对去重处理后的每篇公告摘要进行预处理,得到至少一个分词,将每篇公告摘要的至少一个分词输入至预先训练的参数抽取模型中,生成至少一个摘要模板,融合至少一个摘要模板,得到摘要模板库,当接收到摘要生成指令时,从摘要生成指令中提取目标文本,确定目标文本所属的文本类型,及确定目标文本对应的企业所属的企业类型,确定同时与所述文本类型及所述企业类型匹配的目标摘要模板,从目标文本中提取所述目标摘要模板所需的信息,生成目标文本对应的摘要,通过分析已公布的公告摘要得到摘要模板,能够提高摘要生成的准确率。

【技术实现步骤摘要】
摘要生成方法、装置、电子设备及介质
本专利技术涉及数据处理
,尤其涉及一种摘要生成方法、装置、电子设备及介质。
技术介绍
随着监管机构对企业的监督与指导力度的加大,要求企业定期向社会公告与证券交易相关的重大事件,并披露相关统计数据,如:募集说明书、上市公告书等报告,为方便第三方快速了解企业的运行状况,需要为这些报告提供摘要,由于每篇报告一般长达几十页,因此,人工处理时需要熟读每篇报告后才能提供摘要,影响了摘要生成的效率,为此,自动生成摘要的方式应运而生。在现有的摘要生成方案中,基于深度学习的摘要生成方案是通过分析报告原文的具体大意,进而概括地生成报告的摘要,该方法由于需要分析原文的大意,因此需要大量标注好的训练样本,然而,由于标注好的训练样本不易获取,因此在没有足够多的训练样本的情况下,将会导致摘要自动生成的准确率低。传统的抽取式摘要生成方案从文本中抽取语句,这种方式虽然便捷,但是句子之间连贯性不强,可读性较差。因此,如何构建准确且连贯性强的摘要生成方案,成了有待解决的技术问题。
技术实现思路
鉴于以上内容,有必要提供一种摘要生成方法、装置、电子设备及介质,不仅能够提高摘要生成的准确率,还能保证生成的摘要的连贯性。一种摘要生成方法,所述方法包括:获取至少一个企业的至少一篇公告摘要,并对所述至少一篇公告摘要进行去重处理;对去重处理后的每篇公告摘要进行预处理,得到每篇公告摘要的至少一个分词;将每篇公告摘要的至少一个分词输入至预先训练的参数抽取模型中,生成至少一个摘要模板;融合所述至少一个摘要模板,得到摘要模板库;当接收到摘要生成指令时,从所述摘要生成指令中提取目标文本;确定所述目标文本所属的文本类型,及确定所述目标文本对应的企业所属的企业类型;从所述摘要模板库中确定同时与所述文本类型及所述企业类型匹配的目标摘要模板;从所述目标文本中提取所述目标摘要模板所需的信息,及根据提取的信息及所述目标摘要模板,生成所述目标文本对应的摘要。根据本专利技术优选实施例,所述对所述至少一篇公告摘要进行去重处理包括:根据每篇公告摘要中的摘要标题,计算每篇公告摘要的哈希值;从每篇公告摘要中抽取预设特征并建立特征索引;根据每两篇公告摘要的哈希值,采用余弦距离公式计算每两篇公告摘要的相似距离,得到每对摘要对的相似距离,其中,每对摘要对包括任意两篇公告摘要;通过所述特征索引搜索出相似距离大于阈值的摘要对,并将该摘要对确定为相似摘要对;判断所述相似摘要对中的预设特征是否相同;当所述相似摘要对中的预设特征相同时,删除所述相似摘要对中的任意一条摘要。根据本专利技术优选实施例,所述对去重处理后的每篇公告摘要进行预处理,得到每篇公告摘要的至少一个分词包括:针对去重处理后的每篇公告摘要进行去噪处理,得到第一文本;对所述第一文本中的预设字段进行词法分析处理,得到第二文本;根据预设的自定义词典对所述第二文本进行切分,得到切分位置;根据所述切分位置,构建至少一个有向无环图;根据所述自定义词典中的权值计算每个有向无环图的概率;将概率最大的有向无环图对应的切分位置确定为目标切分位置;根据所述目标切分位置确定至少一个特征词;对所述至少一个特征词进行标准化处理,得到每篇公告摘要的至少一个分词。根据本专利技术优选实施例,在将每篇公告摘要的至少一个分词输入至预先训练的参数抽取模型之前,所述方法还包括:采用网络爬虫技术获取至少一篇历史摘要;对所述至少一篇历史摘要进行摘要类别标注,得到每篇历史摘要对应的摘要类别;基于所述至少一篇历史摘要及对应的摘要类别构建数据集;采用交叉验证法划分所述数据集,得到训练集及验证集;对所述训练集及所述验证集中的每篇历史摘要进行分词处理,得到所述训练集中的至少一个特征及所述验证集中的至少一个特征;将所述训练集中的至少一个特征输入到输入门层进行训练,得到学习器;根据所述验证集中的至少一个特征,对所述学习器进行误差分析并调整,直至误差小于配置值时,得到所述参数抽取模型。根据本专利技术优选实施例,所述基于所述至少一篇历史摘要及对应的摘要类别构建数据集之后,所述方法还包括:计算每一摘要类别对应的历史摘要的数量;判断所述数量是否小于预设数量;当所述数量小于所述预设数量时,通过扰动法增加与所述数量对应的历史摘要的数量。根据本专利技术优选实施例,所述摘要模板库中记载至少一个摘要模板的模板信息,所述模板信息包括所述摘要模板、所述摘要模板的摘要类别、所述摘要模板对应的企业类别。根据本专利技术优选实施例,在生成所述目标文本对应的摘要后,所述方法还包括:根据所述企业类型确定目标参数列表;获取所述目标参数列表中的所有参数;判断所述摘要中是否包含所述所有参数;当检测到所述摘要中包含所述所有参数时,根据所述摘要生成提示信息;将所述提示信息发送至指定联系人的终端设备。一种摘要生成装置,所述装置包括:执行单元,用于获取至少一个企业的至少一篇公告摘要,并对所述至少一篇公告摘要进行去重处理;预处理单元,用于对去重处理后的每篇公告摘要进行预处理,得到每篇公告摘要的至少一个分词;生成单元,用于将每篇公告摘要的至少一个分词输入至预先训练的参数抽取模型中,生成至少一个摘要模板;融合单元,用于融合所述至少一个摘要模板,得到摘要模板库;提取单元,用于当接收到摘要生成指令时,从所述摘要生成指令中提取目标文本;确定单元,用于确定所述目标文本所属的文本类型,及确定所述目标文本对应的企业所属的企业类型;所述确定单元,还用于从所述摘要模板库中确定同时与所述文本类型及所述企业类型匹配的目标摘要模板;所述生成单元,还用于从所述目标文本中提取所述目标摘要模板所需的信息,及根据提取的信息及所述目标摘要模板,生成所述目标文本对应的摘要。根据本专利技术优选实施例,所述执行单元对所述至少一篇公告摘要进行去重处理包括:根据每篇公告摘要中的摘要标题,计算每篇公告摘要的哈希值;从每篇公告摘要中抽取预设特征并建立特征索引;根据每两篇公告摘要的哈希值,采用余弦距离公式计算每两篇公告摘要的相似距离,得到每对摘要对的相似距离,其中,每对摘要对包括任意两篇公告摘要;通过所述特征索引搜索出相似距离大于阈值的摘要对,并将该摘要对确定为相似摘要对;判断所述相似摘要对中的预设特征是否相同;当所述相似摘要对中的预设特征相同时,删除所述相似摘要对中的任意一条摘要。根据本专利技术优选实施例,所述预处理单元具体用于:针对去重处理后的每篇公告摘要进行去噪处理,得到第一文本;对所述第一文本中的预设字段进行词法分析处理,得到第二文本;根据预设的自定义词典对所述第二文本进行切分,得到切分位本文档来自技高网...

【技术保护点】
1.一种摘要生成方法,其特征在于,所述摘要生成方法包括:/n获取至少一个企业的至少一篇公告摘要,并对所述至少一篇公告摘要进行去重处理;/n对去重处理后的每篇公告摘要进行预处理,得到每篇公告摘要的至少一个分词;/n将每篇公告摘要的至少一个分词输入至预先训练的参数抽取模型中,生成至少一个摘要模板;/n融合所述至少一个摘要模板,得到摘要模板库;/n当接收到摘要生成指令时,从所述摘要生成指令中提取目标文本;/n确定所述目标文本所属的文本类型,及确定所述目标文本对应的企业所属的企业类型;/n从所述摘要模板库中确定同时与所述文本类型及所述企业类型匹配的目标摘要模板;/n从所述目标文本中提取所述目标摘要模板所需的信息,及根据提取的信息及所述目标摘要模板,生成所述目标文本对应的摘要。/n

【技术特征摘要】
1.一种摘要生成方法,其特征在于,所述摘要生成方法包括:
获取至少一个企业的至少一篇公告摘要,并对所述至少一篇公告摘要进行去重处理;
对去重处理后的每篇公告摘要进行预处理,得到每篇公告摘要的至少一个分词;
将每篇公告摘要的至少一个分词输入至预先训练的参数抽取模型中,生成至少一个摘要模板;
融合所述至少一个摘要模板,得到摘要模板库;
当接收到摘要生成指令时,从所述摘要生成指令中提取目标文本;
确定所述目标文本所属的文本类型,及确定所述目标文本对应的企业所属的企业类型;
从所述摘要模板库中确定同时与所述文本类型及所述企业类型匹配的目标摘要模板;
从所述目标文本中提取所述目标摘要模板所需的信息,及根据提取的信息及所述目标摘要模板,生成所述目标文本对应的摘要。


2.如权利要求1所述的摘要生成方法,其特征在于,所述对所述至少一篇公告摘要进行去重处理包括:
根据每篇公告摘要中的摘要标题,计算每篇公告摘要的哈希值;
从每篇公告摘要中抽取预设特征并建立特征索引;
根据每两篇公告摘要的哈希值,采用余弦距离公式计算每两篇公告摘要的相似距离,得到每对摘要对的相似距离,其中,每对摘要对包括任意两篇公告摘要;
通过所述特征索引搜索出相似距离大于阈值的摘要对,并将该摘要对确定为相似摘要对;
判断所述相似摘要对中的预设特征是否相同;
当所述相似摘要对中的预设特征相同时,删除所述相似摘要对中的任意一条摘要。


3.如权利要求1所述的摘要生成方法,其特征在于,所述对去重处理后的每篇公告摘要进行预处理,得到每篇公告摘要的至少一个分词包括:
针对去重处理后的每篇公告摘要进行去噪处理,得到第一文本;
对所述第一文本中的预设字段进行词法分析处理,得到第二文本;
根据预设的自定义词典对所述第二文本进行切分,得到切分位置;
根据所述切分位置,构建至少一个有向无环图;
根据所述自定义词典中的权值计算每个有向无环图的概率;
将概率最大的有向无环图对应的切分位置确定为目标切分位置;
根据所述目标切分位置确定至少一个特征词;
对所述至少一个特征词进行标准化处理,得到每篇公告摘要的至少一个分词。


4.如权利要求1所述的摘要生成方法,其特征在于,在将每篇公告摘要的至少一个分词输入至预先训练的参数抽取模型之前,所述摘要生成方法还包括:
采用网络爬虫技术获取至少一篇历史摘要;
对所述至少一篇历史摘要进行摘要类别标注,得到每篇历史摘要对应的摘要类别;
基于所述至少一篇历史摘要及对应的摘要类别构建数据集;
采用交叉验证法划分所述数据集,得到训练集及验证集;
对所述训练集及所述验证集中的每篇历史摘要进行分词处理,得...

【专利技术属性】
技术研发人员:赵焕丽徐国强
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1