一种基于主题和时间线摘要的报告生成方法及设备技术

技术编号:30798763 阅读:13 留言:0更新日期:2021-11-16 08:04
本申请公开了一种基于主题和时间线摘要的报告生成方法及设备,方法包括:获取预设领域当天的新闻数据,对的新闻数据进行异构数据预处理,将新闻数据转化为统一格式;确定统一格式的新闻数据的基本信息,所述基本信息至少包括新闻的标题、新闻的发布时间、新闻的信息来源、新闻的文本内容;通过基本信息生成新闻主题,并根据基本信息确定新闻主题的重要等级,按照重要等级对主题进行排名;根据排名选取第一预设数量个新闻主题作为待发表主题,并为待发表主题生成对应的内容摘要,根据待发表主题与内容摘要生成今日简报。使用户能够更加直观地查阅当天所发生的重要事件。直观地查阅当天所发生的重要事件。直观地查阅当天所发生的重要事件。

【技术实现步骤摘要】
一种基于主题和时间线摘要的报告生成方法及设备


[0001]本申请涉及文本摘要领域,具体涉及一种基于主题和时间线摘要的报告生成方法及设备。

技术介绍

[0002]随着生活节奏的加快,现在我们每天都能接收到非常多的信息,但是这些信息由于信息的来源、类型、内容不同,较为碎片化。人们在接受这些信息时的效率就会比较低,因此,我们希望能够基于这些碎片化信息的主题及时间对这些信息进行整理。例如,用户收集到了一些讯息,我们希望把这个主题的相关信息按照时间线的方式排列,并且对每个信息给出摘要,从而提升用户对碎片化信息的接收能力。
[0003]因此,亟需一种基于主题和时间线摘要的报告生成方法。

技术实现思路

[0004]为了解决上述问题,本申请提出了一种基于主题和时间线摘要的报告生成方法及设备,方法包括:
[0005]获取预设领域当天的新闻数据,对所述的新闻数据进行异构数据预处理,将所述新闻数据转化为统一格式;确定所述统一格式的新闻数据的基本信息,所述基本信息至少包括所述新闻的标题、所述新闻的发布时间、所述新闻的信息来源、所述新闻的文本内容;通过所述基本信息生成新闻主题,并根据所述基本信息确定所述新闻主题的重要等级,按照所述重要等级对所述主题进行排名;根据所述排名选取第一预设数量个所述新闻主题作为待发表主题,并为所述待发表主题生成对应的内容摘要,根据所述待发表主题与所述内容摘要生成今日简报。
[0006]在一个示例中,所述方法还包括:
[0007]确认所述预设领域的新闻数据库,所述新闻数据库存储有所述预设领域的所述新闻数据;确认用户选择的长期主题,通过信息检索引擎从所述新闻数据库中获取与所述长期主题相关的新闻文章组,所述长期主题对应的时间段超过预设时长;根据所述新闻文章组生成所述长期主题的内容摘要及时间线摘要,根据所述内容摘要与所述时间线摘要,生成所述长期主题的完整报告。
[0008]在一个示例中,根据所述新闻文章组生成所述长期主题的时间线摘要,具体包括:按照时间顺序从所述新闻数据库中抽取所述长期主题并构建时间线;使用波束搜索算法生成所述长期主题在各时间节点的时间线摘要。
[0009]在一个示例中,生成所述长期主题在所述时间节点的时间线摘要之后,所述方法还包括:使用注意力机制对所述时间线摘要进行压缩。
[0010]在一个示例中,所述获取预设领域当天各类新闻的新闻数据,对所述当天各类新闻的新闻数据进行预处理,将所述新闻数据转化为统一格式,具体包括:确认新闻数据的来源网站,使用爬虫框架获取所述来源网站内的所述新闻数据;通过识别所述新闻数据的内
容,删除所述新闻数据中的重复文本,并将所述新闻数据转化为统一的文档格式。
[0011]在一个示例中,所述通过所述基本信息生成新闻主题,具体包括:确认管理人员预存的种子词集及预设聚类数目;使用半监督文本聚类算法Seeded

LDA,通过输入所述新闻数据的文本内容、所述种子词集、所述预设聚类数目,生成所述新闻数据的新闻主题。
[0012]在一个示例中,所述确定所述新闻主题的重要等级,具体包括:确认所述新闻主题对应的所述基本信息,根据所述新闻主题的标题、所述新闻的信息来源、所述新闻的文本内容分别对应的的重要性系数,计算所述新闻主题的重要性。
[0013]在一个示例中,所述为所述待发表主题生成对应的内容摘要,具体包括:确定来自所述信息检索引擎的若干篇新闻文章,使用基于BERT的编码器,通过对所述若干篇新闻文章以及输入的表示进行编码,得到所述若干个编码表示;通过使用基于所述BERT的解码器,对所述若干个编码表示进行解码,得到所述待发表主题的内容摘要;所述使用基于BERT的编码器之前,所述方法还包括:使用结构化查询语言数据服务SDS数据集对所述编码器和所述解码器进行预训练。
[0014]在一个示例中,为所述待发表主题生成对应的内容摘要之后,所述方法还包括:从所述新闻主题的内容摘要中提取关键字集;使用所述关键字集作为查询请求词,在所述信息检索引擎中获取与所述关键字集相关的图片,挑选排名前第二预设数量个图片作为候选图片;使用所述候选图片的视觉特征和所述候选图片标题中的语言特征提取所述候选图片的语义标签;计算所述候选图片的所述语义标签与所述关键字集的匹配度,选取匹配度最高的候选图片插入到所述今日简报对应的新闻主题中。
[0015]本申请还提供了一种基于主题和时间线摘要的报告生成设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行:获取预设领域当天的新闻数据,对所述的新闻数据进行异构数据预处理,将所述新闻数据转化为统一格式;确定所述统一格式的新闻数据的基本信息,所述基本信息至少包括所述新闻的标题、所述新闻的发布时间、所述新闻的信息来源、所述新闻的文本内容;通过所述基本信息生成新闻主题,并根据所述基本信息确定所述新闻主题的重要等级,按照所述重要等级对所述主题进行排名;根据所述排名选取第一预设数量个所述新闻主题作为待发表主题,并为所述待发表主题生成对应的内容摘要,根据所述待发表主题与所述内容摘要生成今日简报。
[0016]通过本申请提出的方法能够基于碎片化信息的主题及时间对碎片化信息进行整理,并按照时间线的方式排列,并且对每个信息给出摘要,从而提升用户对碎片化信息的接收能力。还能够将每天收集到的新闻进行异构数据预处理,转化为相同格式的新闻数据,并生成新闻主题,通过计算新闻主题的重要等级,将较为重要的新闻事件从众多信息中凸显出来,以使用户能够更加直观地查阅当天所发生的重要事件。
附图说明
[0017]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0018]图1为本申请实施例中一种基于主题和时间线摘要的报告生成方法示意图;
[0019]图2为本申请实施例中一种基于主题和时间线摘要的报告生成设备示意图。
具体实施方式
[0020]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0021]以下结合附图,详细说明本申请各实施例提供的技术方案。
[0022]如图1所示,本申请实施例提供一种基于主题和时间线摘要的报告生成方法,包括:
[0023]S101:获取预设领域当天的新闻数据,对所述的新闻数据进行异构数据预处理,将所述新闻数据转化为统一格式。
[0024]如果想要生成当天新闻事件的简要报告,首先需要从预设的网站获取相关的新闻数据。在获取到各本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于主题和时间线摘要的自动报告生成方法,其特征在于,包括:获取预设领域当天的新闻数据,对所述的新闻数据进行异构数据预处理,将所述新闻数据转化为统一格式;确定所述统一格式的新闻数据的基本信息,所述基本信息至少包括所述新闻的标题、所述新闻的发布时间、所述新闻的信息来源、所述新闻的文本内容;通过所述基本信息生成新闻主题,并根据所述基本信息确定所述新闻主题的重要等级,按照所述重要等级对所述主题进行排名;根据所述排名选取第一预设数量个所述新闻主题作为待发表主题,并为所述待发表主题生成对应的内容摘要,根据所述待发表主题与所述内容摘要生成今日简报。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:确认所述预设领域的新闻数据库,所述新闻数据库存储有所述预设领域的所述新闻数据;确认用户选择的长期主题,通过信息检索引擎从所述新闻数据库中获取与所述长期主题相关的新闻文章组,所述长期主题对应的时间段超过预设时长;根据所述新闻文章组生成所述长期主题的内容摘要及时间线摘要,根据所述内容摘要与所述时间线摘要,生成所述长期主题的完整报告。3.根据权利要求2所述的方法,其特征在于,根据所述新闻文章组生成所述长期主题的时间线摘要,具体包括:按照时间顺序从所述新闻数据库中抽取所述长期主题并构建时间线;使用波束搜索算法生成所述长期主题在各时间节点的时间线摘要。4.根据权利要求3所述的方法,其特征在于,生成所述长期主题在所述时间节点的时间线摘要之后,所述方法还包括:使用注意力机制对所述时间线摘要进行压缩。5.根据权利要求1所述的方法,其特征在于,所述获取预设领域当天各类新闻的新闻数据,对所述当天各类新闻的新闻数据进行预处理,将所述新闻数据转化为统一格式,具体包括:确认新闻数据的来源网站,使用爬虫框架获取所述来源网站内的所述新闻数据;通过识别所述新闻数据的内容,删除所述新闻数据中的重复文本,并将所述新闻数据转化为统一的文档格式。6.根据权利要求1所述的方法,其特征在于,所述通过所述基本信息生成新闻主题,具体包括:确认管理人员预存的种子词集及预设聚类数目;使用半监督文本聚类算法Seeded

LDA,通过输入所述新闻数据的文本内容、所述种子词集、所述预设聚类数目,生成所述新闻数据...

【专利技术属性】
技术研发人员:寇菲冯落落尹青山王建华
申请(专利权)人:山东新一代信息产业技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1