【技术实现步骤摘要】
故事脉络构建方法、装置、电子设备和存储介质
[0001]本专利技术涉及自然语言处理
,尤其涉及一种故事脉络构建方法、装置、电子设备和存储介质。
技术介绍
[0002]基于新闻事件的故事脉络构建技术,能够从海量新闻中梳理新闻之间的逻辑关系,帮助读者快速理解新闻所报道事件的来龙去脉。
[0003]故事脉络构建技术的实现,依赖于数据集的质量和规模。大规模、高质量和通用的数据集,能够帮助用于故事脉络构建的大规模神经网络模型训练和测试。然而,由于新闻题材的复杂性和多样性,目前的数据集呈现规模小、主题覆盖率低和未公开的特点,限制了故事脉络构建技术评测的可靠性和准确性。
技术实现思路
[0004]本专利技术提供一种故事脉络构建方法、装置、电子设备和存储介质,用以解决现有技术中用于故事脉络构建的数据集质量差,影响故事脉络构建可靠性的缺陷。
[0005]本专利技术提供一种故事脉络构建方法,包括:获取待构建脉络的新闻集合;基于关系检测模型,对所述新闻集合中的每两个新闻进行脉络关系检测,得到所述每两个新闻之间 ...
【技术保护点】
【技术特征摘要】
1.一种故事脉络构建方法,其特征在于,包括:获取待构建脉络的新闻集合;基于关系检测模型,对所述新闻集合中的每两个新闻进行脉络关系检测,得到所述每两个新闻之间的脉络关系检测结果;基于所述每两个新闻之间的脉络关系检测结果,构建所述新闻集合对应的故事脉络;所述关系检测模型是基于正样本对和负样本对训练得到的,所述正样本对基于话题相同、时间相邻且事件不同的样本新闻确定,所述负样本对基于话题相同且时间间隔的样本新闻和/或基于话题不同的样本新闻确定,所述样本新闻的话题和事件基于聚类得到。2.根据权利要求1所述的故事脉络构建方法,其特征在于,所述正样本对的确定步骤包括:基于话题相同、时间相邻且事件不同的样本新闻,构建候选样本对;基于所述候选样本对中样本新闻之间共现实体的数量、所述样本新闻之间的语义相似度、所述候选样本对的事件相关信息以及所述候选样本对的事件连续信息中的至少一种,确定所述正样本对。3.根据权利要求2所述的故事脉络构建方法,其特征在于,所述候选样本对的事件相关信息的确定步骤包括:对所述候选样本对中的两个样本新闻分别进行主要实体提取,得到所述两个样本新闻的主要实体,所述主要实体包括对应样本新闻的事件发起者、参与者和承担者中的至少一种;对所述两个样本新闻分别进行关键词抽取,得到所述两个样本新闻的关键词;基于所述两个样本新闻的主要实体的共现数量,以及所述两个样本新闻的关键词的共现数量,确定所述事件相关信息。4.根据权利要求2所述的故事脉络构建方法,其特征在于,所述候选样本对的事件连续信息的确定步骤包括:对所述候选样本对中的两个样本新闻分别进行主题抽取,得到所述两个样本新闻的主题;基于事件逻辑检测模型,对所述两个样本新闻的事件发生逻辑顺序进行检测,得到所述两个样本新闻的事件发生逻辑顺序;基于内容包含关系检测模型,对所述两个样本新闻的内容包含关系进行检测,得到所述两个样本新闻的内容包含关系;基于所述两个样本新闻的主题、事件发生逻辑顺序和内容包含关系中的至少一种,确定所述事件连续信息。5.根据权利要求2所述的故事脉络构建方法,其特征在于,所述基于话题相同、时间相邻且事件不同的样本新闻,构建候选样本对,之前还包括:对样本新闻进行话题聚类,得到多个话题下的话题新闻集合,不同话题新...
【专利技术属性】
技术研发人员:侯磊,师凯杰,孟斌杰,李涓子,张鹏,唐杰,许斌,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。