System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种多领域跨篇章事件因果关系挖掘及判定装置及方法制造方法及图纸_技高网

一种多领域跨篇章事件因果关系挖掘及判定装置及方法制造方法及图纸

技术编号:40267979 阅读:9 留言:0更新日期:2024-02-02 22:55
本发明专利技术公开了一种多领域跨篇章事件因果关系挖掘及判定装置及方法,属于自然语言处理领域,包括:事件检测模块、模式匹配模块、事件关联融合模块、图卷积挖掘模块和辅助判定模块;事件检测模块用于提取目标篇章文本中的事件信息;模式匹配模块用于筛选包含显性因果事件的句子集合;事件关联融合模块用于构建显性因果事件的关联关系图谱;图卷积挖掘模块用于实现隐性因果事件的感知;辅助判定模块用于支撑判别隐性因果事件的准确性。本发明专利技术实现了文本信息资源的有效抽取、组织和挖掘,直观的展示了不同事件知识之间的关系关联,实现了篇章事件之间因果关系的挖掘及判定。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,更为具体的,涉及一种多领域跨篇章事件因果关系挖掘及判定装置及方法


技术介绍

1、随着互联网技术的不断发展,信息呈现爆炸式增长,各个领域的新闻报道层出不穷。事件作为文本信息的重要载体,组合构成了一篇篇新闻素材。然而若干个事件并不是随机组织在一起的,它们之间必然存在某些联系,即事件关系。常见的事件关系包括时序关系、因果关系、对比关系等,其中因果关系作为一种重要的语义信息,反映了两个事件先后发生、由因及果地一种影响方式。对包含大量事件的文本素材进行因果关系挖掘、梳理事件发展的因果脉络,能够帮助人们从海量的信息资源中快速地获取关注事件的来龙去脉,为后续进行事件演化分析及未来趋势研判提供支撑,具有重要的实际应用价值,其在自然语言处理中越来越受到重视。

2、事件因果关系挖掘即因果关系抽取是自然语言处理(nlp)中的一项关系抽取任务,它的目的是从包含事件的文本信息中抽取出原因事件和结果事件,并以结构化形式输出。依据原因事件和结果事件是否同时出现在文本中,因果关系又可以分为显性因果关系和隐性因果关系,显性因果关系是指原因事件和结果事件同时出现在文本中,而隐性因果关系是两者只有其一出现在文本中。在因果关系抽取领域,现有的方法主要分为三种:基于模式匹配的方法、基于机器学习的方法和基于深度学习的方法。基于模式匹配的方法是利用词汇特征设计抽取规则来进行因果关系的提取,如kaplan等人通过采用知识推理技术并在此基础上使用手工编织规则建立的领域知识库来抽取因果关系。基于模式匹配的方法抽取的准确率较高,但是主要解决的是显性因果关系的抽取且仅仅利用了局部的句法特征来识别原因部分和结果部分。基于机器学习的方法则是通过计算机来学习所给语料的领域知识来识别出事件之间的因果关系,如bethard等将因果关系与时序关系相关联,提取事件之间文本特征与时序关系够造分类器模型进行因果关系识别。基于机器学习的方法提升了因果关系识别的性能,但是只考虑两个事件之间的关系而忽略了文档中其他关联事件的语义信息,可能会导致识别结果存在一定的逻辑误差。基于深度学习的方法则是借助深度神经网络强大的表征学习能力来捕捉文本事件中隐含的和模糊的因果关系,如de silva等使用卷积神经网络(convolution neural network,cnn)对文本中的因果关系进行分类。基于深度学习的方法能够实现部分隐式因果关系的挖掘,但同时也需要针对不同的领域人工标注大量的训练样本,以学习到区分不同类别的方法,如果训练数据质量不高或者数据量不足,那么算法可能就无法很好地判别出因果关系类别。

3、虽然目前已经有大量的因果关系抽取算法被提出,但是这些方法大都面临着因果关系考虑不全面、模型泛化普适性能差等问题。一个好的因果抽取算法应该不仅能够提取出文本中全部的因果信息,还需要保证因果关系的正确性。如何构建一个多领域通用的跨篇章事件因果关系挖掘方法仍旧是一个亟待解决的问题。


技术实现思路

1、本专利技术的目的在于针对当前事件因果关系抽取算法因果关系考虑不全面和现有技术存在的不足之处,提供一种多领域跨篇章事件因果关系挖掘及判定装置及方法,通过事件检测、模式匹配、事件关联融合、图卷积挖掘、辅助判定等来对包含事件的文本信息资源进行有效地抽取、组织和挖掘,直观的展示了不同事件知识之间的关系关联,实现了篇章事件之间因果关系的挖掘及判定。

2、本专利技术的目的是通过以下方案实现的:

3、一种多领域跨篇章事件因果关系挖掘及判定装置,包括:事件检测模块、模式匹配模块、事件关联融合模块、图卷积挖掘模块和辅助判定模块;所述事件检测模块用于提取目标篇章文本中的事件信息;所述模式匹配模块用于筛选包含显性因果事件的句子集合;所述事件关联融合模块用于构建显性因果事件的关联关系图谱;所述图卷积挖掘模块用于实现隐性因果事件的感知;所述辅助判定模块用于支撑判别隐性因果事件的准确性。

4、进一步地,所述事件检测模块用于提取目标篇章文本中的事件信息,具体包括:基于事件实例来训练深度学习分类模型从而筛选出篇章文本中的事件句,输入的篇章文本由含有事件或动作要素的事件句和描述状态或者属性的非事件句组成,其中事件句是承载篇章文本关键信息的载体,代表目标文本的主题思想。

5、进一步地,所述模式匹配模块用于筛选包含显性因果事件的句子集合,具体包括:利用构建的因果模式规则从事件知识库中完成显性因果事件对的抽取。

6、进一步地,所述事件关联融合模块用于构建显性因果事件的关联关系图谱,具体包括:采用语义相似度聚类将显性因果事件进行关联融合,采用基于tf-idf算法和word2vec模型相结合的语义相似度聚类方法对抽取的显性因果事件对进行关联融合,构建显性因果事件关联图谱,用于后续隐性因果事件的挖掘。

7、进一步地,所述图卷积挖掘模块用于实现隐性因果事件的感知,具体包括:将模式匹配抽取的显性事件之间的因果关系作为标签,利用图卷积神经网络gcn以半监督的方式来挖掘图上的隐性关系,显性因果事件关联图中的节点作为神经网络的输入节点,节点间的边信息则视为输入节点间的相互作用关系。

8、进一步地,所述辅助判定模块用于支撑判别隐性因果事件的准确性,具体包括:针对挖掘出的隐性因果事件,基于时序约束、统计分析方法来辅助推断隐性因果事件的合理性,提高事件隐性因果关系挖掘的准确性。

9、进一步地,还包括预处理模块,用于对输入的篇章级文本素材进行清洗,过滤输入文本中含有的噪声信息,并利用正则表达式对目标文本进行句子切分。

10、一种多领域跨篇章事件因果关系挖掘及判定方法,基于如上任一项所述的装置,包括以下步骤:

11、首先,对输入的篇章级文本素材进行预处理;

12、接着,对目标文本的句子集合进行事件检测,筛选其中的事件句,形成事件知识库;

13、然后,基于构建的因果规则模版,从事件知识库中抽取显性因果事件对,完成事件显性因果关系的挖掘;

14、之后,采用语义相似度聚类对抽取的显性因果事件进行关联融合,搭建显性因果事件关联关系图谱;

15、再接着,将抽取出的显性事件之间的因果关系作为标签,利用图卷积神经网络以半监督的方式挖掘图上的隐性关系;

16、最后,利用时序约束、统计分析方法辅助判定挖掘出的隐性因果事件的合理性,形成完整的事件因果链条。

17、进一步地,所述预处理包括子步骤:清洗,过滤输入文本中含有的特殊字符噪声信息。

18、进一步地,在预处理步骤中,还包括子步骤:利用正则表达式对目标文本进行句子切分。

19、本专利技术的有益效果包括:

20、(1)本专利技术可以实现篇章级文本素材数据输入处理,自动梳理出事件发展的因果脉络,快速发现不同事件之间的联系和影响关系,为决策者提供重要的支持。

21、(2)本专利技术采用模式匹配的方法抽取显性因果事件可以根据不同的需求构建不同的模式规则,保证了本技术在不同本文档来自技高网...

【技术保护点】

1.一种多领域跨篇章事件因果关系挖掘及判定装置,其特征在于,包括:事件检测模块、模式匹配模块、事件关联融合模块、图卷积挖掘模块和辅助判定模块;所述事件检测模块用于提取目标篇章文本中的事件信息;所述模式匹配模块用于筛选包含显性因果事件的句子集合;所述事件关联融合模块用于构建显性因果事件的关联关系图谱;所述图卷积挖掘模块用于实现隐性因果事件的感知;所述辅助判定模块用于支撑判别隐性因果事件的准确性。

2.根据权利要求1所述的多领域跨篇章事件因果关系挖掘及判定装置,其特征在于,所述事件检测模块用于提取目标篇章文本中的事件信息,具体包括:基于事件实例来训练深度学习分类模型从而筛选出篇章文本中的事件句,输入的篇章文本由含有事件或动作要素的事件句和描述状态或者属性的非事件句组成,其中事件句是承载篇章文本关键信息的载体,代表目标文本的主题思想。

3.根据权利要求1所述的多领域跨篇章事件因果关系挖掘及判定装置,其特征在于,所述模式匹配模块用于筛选包含显性因果事件的句子集合,具体包括:利用构建的因果模式规则从事件知识库中完成显性因果事件对的抽取。

4.根据权利要求1所述的多领域跨篇章事件因果关系挖掘及判定装置,其特征在于,所述事件关联融合模块用于构建显性因果事件的关联关系图谱,具体包括:采用语义相似度聚类将显性因果事件进行关联融合,采用基于Tf-idf算法和Word2vec模型相结合的语义相似度聚类方法对抽取的显性因果事件对进行关联融合,构建显性因果事件关联图谱,用于后续隐性因果事件的挖掘。

5.根据权利要求1所述的多领域跨篇章事件因果关系挖掘及判定装置,其特征在于,所述图卷积挖掘模块用于实现隐性因果事件的感知,具体包括:将模式匹配抽取的显性事件之间的因果关系作为标签,利用图卷积神经网络GCN以半监督的方式来挖掘图上的隐性关系,显性因果事件关联图中的节点作为神经网络的输入节点,节点间的边信息则视为输入节点间的相互作用关系。

6.根据权利要求1所述的多领域跨篇章事件因果关系挖掘及判定装置,其特征在于,所述辅助判定模块用于支撑判别隐性因果事件的准确性,具体包括:针对挖掘出的隐性因果事件,基于时序约束、统计分析方法来辅助推断隐性因果事件的合理性,提高事件隐性因果关系挖掘的准确性。

7.根据权利要求1所述的多领域跨篇章事件因果关系挖掘及判定装置,其特征在于,还包括预处理模块,用于对输入的篇章级文本素材进行清洗,过滤输入文本中含有的噪声信息,并利用正则表达式对目标文本进行句子切分。

8.一种多领域跨篇章事件因果关系挖掘及判定方法,其特征在于,基于如权利要求1~7任一项所述的装置,包括以下步骤:

9.根据权利要求8所述的多领域跨篇章事件因果关系挖掘及判定方法,其特征在于,所述预处理包括子步骤:清洗,过滤输入文本中含有的特殊字符噪声信息。

10.根据权利要求9所述的多领域跨篇章事件因果关系挖掘及判定方法,其特征在于,在预处理步骤中,还包括子步骤:利用正则表达式对目标文本进行句子切分。

...

【技术特征摘要】

1.一种多领域跨篇章事件因果关系挖掘及判定装置,其特征在于,包括:事件检测模块、模式匹配模块、事件关联融合模块、图卷积挖掘模块和辅助判定模块;所述事件检测模块用于提取目标篇章文本中的事件信息;所述模式匹配模块用于筛选包含显性因果事件的句子集合;所述事件关联融合模块用于构建显性因果事件的关联关系图谱;所述图卷积挖掘模块用于实现隐性因果事件的感知;所述辅助判定模块用于支撑判别隐性因果事件的准确性。

2.根据权利要求1所述的多领域跨篇章事件因果关系挖掘及判定装置,其特征在于,所述事件检测模块用于提取目标篇章文本中的事件信息,具体包括:基于事件实例来训练深度学习分类模型从而筛选出篇章文本中的事件句,输入的篇章文本由含有事件或动作要素的事件句和描述状态或者属性的非事件句组成,其中事件句是承载篇章文本关键信息的载体,代表目标文本的主题思想。

3.根据权利要求1所述的多领域跨篇章事件因果关系挖掘及判定装置,其特征在于,所述模式匹配模块用于筛选包含显性因果事件的句子集合,具体包括:利用构建的因果模式规则从事件知识库中完成显性因果事件对的抽取。

4.根据权利要求1所述的多领域跨篇章事件因果关系挖掘及判定装置,其特征在于,所述事件关联融合模块用于构建显性因果事件的关联关系图谱,具体包括:采用语义相似度聚类将显性因果事件进行关联融合,采用基于tf-idf算法和word2vec模型相结合的语义相似度聚类方法对抽取的显性因果事件对进行关联融合,构建显性因果事件关联图谱,用...

【专利技术属性】
技术研发人员:霍志浩崔莹代翔潘磊廖泓舟李春豹陈莹张剑
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1