【技术实现步骤摘要】
摘要生成方法、装置、电子设备及介质
本专利技术涉及数据处理
,尤其涉及一种摘要生成方法、装置、电子设备及介质。
技术介绍
随着监管机构对企业的监督与指导力度的加大,要求企业定期向社会公告与证券交易相关的重大事件,并披露相关统计数据,如:募集说明书、上市公告书等报告,为方便第三方快速了解企业的运行状况,需要为这些报告提供摘要,由于每篇报告一般长达几十页,因此,人工处理时需要熟读每篇报告后才能提供摘要,影响了摘要生成的效率,为此,自动生成摘要的方式应运而生。在现有的摘要生成方案中,基于深度学习的摘要生成方案是通过分析报告原文的具体大意,进而概括地生成报告的摘要,该方法由于需要分析原文的大意,因此需要大量标注好的训练样本,然而,由于标注好的训练样本不易获取,因此在没有足够多的训练样本的情况下,将会导致摘要自动生成的准确率低。传统的抽取式摘要生成方案从文本中抽取语句,这种方式虽然便捷,但是句子之间连贯性不强,可读性较差。因此,如何构建准确且连贯性强的摘要生成方案,成了有待解决的技术问题。
技术实现思路
鉴于以上内容,有必要提供一种摘要生成方法、装置、电子设备及介质,不仅能够提高摘要生成的准确率,还能保证生成的摘要的连贯性。一种摘要生成方法,所述方法包括:获取至少一个企业的至少一篇公告摘要,并对所述至少一篇公告摘要进行去重处理;对去重处理后的每篇公告摘要进行预处理,得到每篇公告摘要的至少一个分词;将每篇公告摘要的至少一个分词输入至预先训练的参数抽取模型中 ...
【技术保护点】
1.一种摘要生成方法,其特征在于,所述摘要生成方法包括:/n获取至少一个企业的至少一篇公告摘要,并对所述至少一篇公告摘要进行去重处理;/n对去重处理后的每篇公告摘要进行预处理,得到每篇公告摘要的至少一个分词;/n将每篇公告摘要的至少一个分词输入至预先训练的参数抽取模型中,生成至少一个摘要模板;/n融合所述至少一个摘要模板,得到摘要模板库;/n当接收到摘要生成指令时,从所述摘要生成指令中提取目标文本;/n确定所述目标文本所属的文本类型,及确定所述目标文本对应的企业所属的企业类型;/n从所述摘要模板库中确定同时与所述文本类型及所述企业类型匹配的目标摘要模板;/n从所述目标文本中提取所述目标摘要模板所需的信息,及根据提取的信息及所述目标摘要模板,生成所述目标文本对应的摘要。/n
【技术特征摘要】
1.一种摘要生成方法,其特征在于,所述摘要生成方法包括:
获取至少一个企业的至少一篇公告摘要,并对所述至少一篇公告摘要进行去重处理;
对去重处理后的每篇公告摘要进行预处理,得到每篇公告摘要的至少一个分词;
将每篇公告摘要的至少一个分词输入至预先训练的参数抽取模型中,生成至少一个摘要模板;
融合所述至少一个摘要模板,得到摘要模板库;
当接收到摘要生成指令时,从所述摘要生成指令中提取目标文本;
确定所述目标文本所属的文本类型,及确定所述目标文本对应的企业所属的企业类型;
从所述摘要模板库中确定同时与所述文本类型及所述企业类型匹配的目标摘要模板;
从所述目标文本中提取所述目标摘要模板所需的信息,及根据提取的信息及所述目标摘要模板,生成所述目标文本对应的摘要。
2.如权利要求1所述的摘要生成方法,其特征在于,所述对所述至少一篇公告摘要进行去重处理包括:
根据每篇公告摘要中的摘要标题,计算每篇公告摘要的哈希值;
从每篇公告摘要中抽取预设特征并建立特征索引;
根据每两篇公告摘要的哈希值,采用余弦距离公式计算每两篇公告摘要的相似距离,得到每对摘要对的相似距离,其中,每对摘要对包括任意两篇公告摘要;
通过所述特征索引搜索出相似距离大于阈值的摘要对,并将该摘要对确定为相似摘要对;
判断所述相似摘要对中的预设特征是否相同;
当所述相似摘要对中的预设特征相同时,删除所述相似摘要对中的任意一条摘要。
3.如权利要求1所述的摘要生成方法,其特征在于,所述对去重处理后的每篇公告摘要进行预处理,得到每篇公告摘要的至少一个分词包括:
针对去重处理后的每篇公告摘要进行去噪处理,得到第一文本;
对所述第一文本中的预设字段进行词法分析处理,得到第二文本;
根据预设的自定义词典对所述第二文本进行切分,得到切分位置;
根据所述切分位置,构建至少一个有向无环图;
根据所述自定义词典中的权值计算每个有向无环图的概率;
将概率最大的有向无环图对应的切分位置确定为目标切分位置;
根据所述目标切分位置确定至少一个特征词;
对所述至少一个特征词进行标准化处理,得到每篇公告摘要的至少一个分词。
4.如权利要求1所述的摘要生成方法,其特征在于,在将每篇公告摘要的至少一个分词输入至预先训练的参数抽取模型之前,所述摘要生成方法还包括:
采用网络爬虫技术获取至少一篇历史摘要;
对所述至少一篇历史摘要进行摘要类别标注,得到每篇历史摘要对应的摘要类别;
基于所述至少一篇历史摘要及对应的摘要类别构建数据集;
采用交叉验证法划分所述数据集,得到训练集及验证集;
对所述训练集及所述验证集中的每篇历史摘要进行分词处理,得...
【专利技术属性】
技术研发人员:赵焕丽,徐国强,
申请(专利权)人:深圳壹账通智能科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。