【技术实现步骤摘要】
事件脉络生成方法及相关装置、电子设备、存储介质
[0001]本申请涉及自然语言处理
,特别是涉及一种事件脉络生成方法及相关装置、电子设备、存储介质。
技术介绍
[0002]随着计算机网络的飞速发展和智能设备的不断普及,各类媒体逐渐成为人们日常生活中不可或缺的一部分,互联网上每天都会产生大量新闻文本。
[0003]新闻文本的爆炸式增长,在为人们提供丰富资讯的同时,也带来一些问题,主要表现在:用户难以在海量新闻中直观地获取到真正感兴趣的信息,丧失对信息的全局把控,增加了用户获取有效信息的难度。故如何对新闻事件进行动态追踪并对碎片化数据进行分析和挖掘,以形成基于特定主题事件演化过程的脉络结构至关重要。然而现有技术在事件脉络生产过程中,往往存在事件检测效果较差等问题,从而影响事件脉络的准确性。有鉴于此,如何提高生成事件脉络的准确性成为亟待解决的问题。
技术实现思路
[0004]本申请主要解决的技术问题是提供一种事件脉络生成方法及相关装置、电子设备、存储介质,能够提高生成事件脉络的准确性。
[0005]为了解决上述技术问题,本申请第一方面提供了一种事件脉络生成方法,包括:获取新闻集合的分类信息;其中,新闻集合包括若干新闻文本,分类信息包括至少一组新闻对的第一关系类别,且新闻集合中每两个新闻文本组成一组新闻对;基于分类信息,将新闻集合划分为分别涉及若干主题的第一子集,以及基于分类信息,将第一子集划分为分别涉及若干事件的第二子集;基于分类信息,分别生成各个主题的事件脉络;其中,事件脉络包括相连 ...
【技术保护点】
【技术特征摘要】
1.一种事件脉络生成方法,其特征在于,包括:获取新闻集合的分类信息;其中,所述新闻集合包括若干新闻文本,所述分类信息包括至少一组新闻对的第一关系类别,且所述新闻集合中每两个所述新闻文本组成一组所述新闻对;基于所述分类信息,将所述新闻集合划分为分别涉及若干主题的第一子集,以及基于所述分类信息,将所述第一子集划分为分别涉及若干事件的第二子集;基于所述分类信息,分别生成各个所述主题的事件脉络;其中,所述事件脉络包括相连的若干事件节点,各个所述事件节点分别对应于涉及所述主题的所述第一子集中各个所述第二子集。2.根据权利要求1所述的方法,其特征在于,所述分类信息还包括所述新闻对分别属于若干种预设关系的预测概率值;所述基于所述分类信息,将所述新闻集合划分为分别涉及若干主题的第一子集,或者所述基于所述分类信息,将所述第一子集划分为分别涉及若干事件的第二子集,包括:基于划分任务,利用所述分类信息构建与所述划分任务对应的新闻关系图;其中,所述新闻关系图包含若干新闻节点,各个所述新闻节点分别表示各个所述新闻文本,且相连的新闻节点对之间的权值是基于所述预测概率值确定的;利用预设划分方式划分所述新闻关系图,得到若干新闻子集;其中,在所述划分任务为主题划分的情况下,所述若干新闻子集分别表示涉及若干主题的第一子集,在所述划分任务为事件划分的情况下,所述若干新闻子集分别表示涉及若干事件的第二子集。3.根据权利要求2所述的方法,其特征在于,在所述划分任务为主题划分的情况下,所述新闻关系图中第一新闻节点对之间相互连接,所述第一新闻节点对所对应的新闻对的第一关系类别不为无关系,且所述第一新闻节点对之间的第一权值是基于第一参考关系的预测概率值确定的,所述第一参考关系包括除所述无关系之外的预设关系。4.根据权利要求2所述的方法,其特征在于,在所述划分任务为事件划分的情况下,所述新闻关系图中第二新闻节点对之间相互连接,所述第二新闻节点对所对应的新闻对的第一关系类别为同一事件,且所述第二新闻节点对之间的第二权值是基于第二参考关系的预测概率值确定,所述第二参考关系为所述同一事件。5.根据权利要求2所述的方法,其特征在于,所述若干种预设关系包括:同一事件、跟随关系、补充关系、因果关系、无关系;和/或,所述新闻对的第一关系类别是基于所述新闻对分别属于若干种预设关系的预测概率值而确定的;和/或,所述预设划分方式包括社区检测算法。6.根据权利要求1所述的方法,其特征在于,所述获取新闻集合的分类信息,包括:提取所述新闻对中各个字符的第一语义表示;将各个所述字符的第一语义表示进行融合,得到所述新闻对的第二语义表示;基于所述第二语义表示进行预测,得到所述新闻对的第一关系类别。7.根据权利要求6所述的方法,其特征在于,在所述提取所述新闻对中各个字符的第一语义表示之前,所述方法还包括:
基于所述新闻对中两个所述新闻文本各自的文本长度,获取所述新闻对的任务类型表示;所述提取所述新闻对中各个字符的第一语义表示,包括:将所述新闻对和所述任务类型表示输入关系分类模型的语义提取网络,得到所述各个字符的第一语义表示;所述将各个所述字符的第一语义表示进行融合,得到所述新闻对的第二语义表示,包括:基于所述关系分类模型的语义融合网络将将各个所述字符的第一语义表示进行融合,得到所述新闻对的第二语义表示;所述基于所述第二语义表示进行预测,得到所述新闻对的第一关系类别,包括:基于所述关系分类模型的类别预测网络对所述第二语义表示进行预测,得到所述新闻对的第...
【专利技术属性】
技术研发人员:聂芹芹,王玉杰,吴飞,方四安,
申请(专利权)人:合肥讯飞数码科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。