一种基于海量数据的因果事理组提取方法、系统及计算机可读存储介质技术方案

技术编号:33949232 阅读:16 留言:0更新日期:2022-06-29 22:03
本发明专利技术公开了一种基于海量数据的因果事理组提取方法、系统及计算机可读存储介质,所述方法包括:获取网络文本并按照时间段存储;对获取的网络文本进行均匀抽样得到样本集并对样本集进行预标注;对预标注后的文本集进行BIO格式的事件标注和因果关系标注;利用标注得到的数据对BERT+CRF模型进行训练;利用BERT+CRF模型对存储的网络文本进行因果事理提取,并形成预设格式的三元组;通过聚类算法将三元组聚类得到因果事理组;将得到的因果事理组进行遴选和约化处理,保存约化处理后的因果事理组。本发明专利技术提高了提取因果事理的准确性,减少了提取结果中的噪声数据,冗余数据和孤立数据,具有较高的可靠性。据,具有较高的可靠性。据,具有较高的可靠性。

【技术实现步骤摘要】
一种基于海量数据的因果事理组提取方法、系统及计算机可读存储介质


[0001]本专利技术属于人工智能自然语言处理中事理图谱
,更具体地,涉及一种基于海量数据的因果事理组提取方法、系统及计算机可读存储介质。

技术介绍

[0002]传统的因果事理提取方案通常主要考虑提取出包含因果关系的事件而不太重视对提取的因果关系的准确性和冗余性针对性地做优化。现有的基于规则或基于统计规律的方法通常需要根据因果关系词来发现因果关系不能很好地发掘隐藏的因果关系,基于层叠条件随机场的方法因为没有使用先验知识从而不能发掘出大多隐式的需要一定推理的因果关系,而本方案采用的基于深度学习的方法因为使用了在大规模语料上预训练的语言模型BERT所以可以在一定程度上从语义和上下文的推理来挖掘因果关系。
[0003]现有技术公开了一种因果事理图谱的构建方法、装置、计算机设备及存储介质,包括:获取预先存储于数据库中的目标文本;解析所述目标文本,得到短期事件文本集与长期事件文本集;确定所述短期事件文本集与所述长期事件文本集中的事件关系,得到初始因果事件对;预处理所述初始因果事件对,得到目标因果事件对;根据所述目标因果事件对构建因果事理图谱。该现有技术中没有特别针对因果关系的准确性和冗余性做出优化改进。而本申请基于一个前提:同一时间段内获取的文本中有较多相同或极为相似因果事理的不同表达。结合海量数据优势和本方案提出的因果事理遴选、约化方法可以较为准确地提取出该时间段内的因果事理,并且这些提取的因果事理都有较多样本支持因此提取结果更加可靠和较低冗余同时还具有一定的时间特征。

技术实现思路

[0004]本专利技术为克服上述现有技术的对因果事理的提取时缺少对于因果关系的准确性的优化的缺陷,提供一种基于海量数据的因果事理组提取方法、系统及计算机可读存储介质。
[0005]本专利技术的首要目的是为解决上述技术问题,本专利技术的技术方案如下:
[0006]本专利技术第一方面提供了一种基于海量数据的因果事理组提取方法,包括以下步骤:
[0007]S1:获取网络文本并按时间段分别存储;
[0008]S2:对获取的网络文本进行均匀抽样得到样本集并对样本集进行预标注;
[0009]S3:定义事件和因果关系,对预标注后的文本集进行BIO格式的事件标注和因果关系标注;
[0010]S4:利用步骤S3标注得到的数据对BERT+CRF模型进行训练,并得到训练好的BERT+CRF模型;
[0011]S5:利用训练得到的BERT+CRF模型对存储的网络文本进行因果事理提取,并形成
预设格式的三元组;
[0012]S6:对得到的三元组中的因事件和果事件进行量化编码得到因果事件的语义向量,利用语义向量计算三元组之间的余弦距离,以余弦距离为指标通过聚类算法将三元组聚类得到因果事理组;
[0013]S7:将得到的因果事理组进行遴选和约化处理,保存约化处理后的因果事理组。
[0014]进一步的,所述对样本集进行预标注,即采用关键词和正则匹配的方式对每个样本是否包含因果关系做标注。
[0015]进一步的,所述对预标注后的文本集进行BIO格式的事件标注和因果关系标注即采用短语方式标注事件,所述短语包括:主谓短语、动宾短语、主谓宾短语。
[0016]进一步的,对BERT+CRF模型进行训练时采用多任务训练,所述多任务包括:识别出样本中的所有事件、识别样本中的因果关系。
[0017]进一步的,所述预设格式的三元组其格式为:(



事件,因果关系系数,

果”事件),其中因果关系系数为0~1之间的概率值,表示

因”事件和



事件之间因关系的强弱。
[0018]进一步的对得到的三元组中的因事件和果事件进行量化编码得到因果事件的语义向量,利用语义向量计算三元组之间的余弦距离,以余弦距离为指标通过聚类算法将三元组聚类得到因果事理组具体步骤为:
[0019]S601:对得到的三元组中的因事件和果事件进行量化编码得到因果事件的语义向量;
[0020]S602:利用余弦相似度公式计算同一时间段内三元组语义向量的的余弦相似度,利用余弦相似度计算余弦距离;
[0021]S603:以余弦距离为度量指标使用聚类算法对三元组进行聚类得到因果事理组。
[0022]进一步的,所述聚类算法为Mini Batch K

means算法。
[0023]进一步的,将得到的因果事理组进行遴选和约化处理,保存约化处理后的因果事理组具体过程为:
[0024]S701:判断因果事理组中三元组的数量,若三元组数量小于预设值或仅包含一个三元组则舍弃当前因果事理组;
[0025]S702:若三元组数量大于或等于预设值,则取因果事理组中因果系数最大的三元组代表当前因果事理组,并将该三元组的因果系数更新为当前所在因果事理组内因果系数的均值,保存得到的因果事理组。
[0026]本专利技术第二方面提供一种基于海量数据的因果事理组提取系统,该系统包括:存储器、处理器,所述存储器中包括基于海量数据的因果事理组提取方法程序,所述基于海量数据的因果事理组提取方法程序被所述处理器执行时实现所述的基于海量数据的因果事理组提取方法的步骤。
[0027]本专利技术第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括基于海量数据的因果事理图谱提取方法程序,所述一种基于海量数据的因果事理组提取方法程序被处理器执行时,实现所述的一种基于海量数据的因果事理组提取方法的步骤。
[0028]与现有技术相比,本专利技术技术方案的有益效果是:
[0029]本专利技术首先对数据进行两次标注,进而利用标注数据对BERT+CRF模型,通过BERT+
CRF模型进行事件的提取和因果关系的识别以及相似因果事理的判断,融入了模型的先验知识和一定程度的语义理解,相较于现有的因果事理提取提高了提取因果事理的准确性,减少了提取结果中的噪声数据,冗余数据和孤立数据,具有较高的可靠性。
附图说明
[0030]图1为本专利技术实施例一种基于海量数据的因果事理组提取方法流程图。
[0031]图2为本专利技术实施例对三元组中处理得到因果事理组的流程图。
[0032]图3为本专利技术实施例对因果事理组进行处理的流程图。
具体实施方式
[0033]为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施方式对本专利技术进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
[0034]在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是,本专利技术还可以采用其他不同于在此描述的其他方式来实施,因此,本专利技术的保护范围并不受下面公开的具体实施例的限制。
[0035]实施例1
[0036]如图1所示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于海量数据的因果事理组提取方法,其特征在于,包括以下步骤:S1:获取网络文本并按照时间段存储;S2:对获取的网络文本进行均匀抽样得到样本集并对样本集进行预标注;S3:对预标注后的文本集进行BIO格式的事件标注和因果关系标注;S4:利用步骤S3标注得到的数据对BERT+CRF模型进行训练,并得到训练好的BERT+CRF模型;S5:利用训练得到的BERT+CRF模型对存储的网络文本进行因果事理提取,并形成预设格式的三元组;S6:对得到的三元组中的因事件和果事件进行量化编码得到因果事件的语义向量,利用语义向量计算三元组之间的余弦距离,以余弦距离为指标通过聚类算法将三元组聚类得到因果事理组;S7:将得到的因果事理组进行遴选和约化处理,保存约化处理后的因果事理组。2.根据权利要求1所述的一种基于海量数据的因果事理组提取方法,其特征在于,所述对样本集进行预标注,即采用关键词和正则匹配的方式对每个样本是否包含因果关系做标注。3.根据权利要求1所述的一种基于海量数据的因果事理组提取方法,其特征在于,所述对预标注后的文本集进行BIO格式的事件标注和因果关系标注即采用短语方式标注事件,所述短语包括:主谓短语、动宾短语、主谓宾短语。4.根据权利要求1所述的一种基于海量数据的因果事理组提取方法,其特征在于,对BERT+CRF模型进行训练时采用多任务训练,所述多任务包括:识别出样本中的所有事件、识别样本中的因果关系。5.根据权利要求1所述的一种基于海量数据的因果事理组提取方法,其特征在于,所述预设格式的三元组其格式为:(“因”事件,因果关系系数,”果”事件),其中因果关系系数为0~1之间的概率值,表示“因”事件和”果”事件之间因关系的强弱。6.根据权利要求1所述的一种基于海量数据的因果事理组提取方法,其特征在于,对得到的三元组中的...

【专利技术属性】
技术研发人员:杨俊波何宇轩牟昊李旭日徐亚波
申请(专利权)人:广州数说故事信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1