一种基于海量数据的因果事理组提取方法、系统及计算机可读存储介质技术方案

技术编号：33949232 阅读：16 留言：0更新日期：2022-06-29 22:03

本发明专利技术公开了一种基于海量数据的因果事理组提取方法、系统及计算机可读存储介质，所述方法包括：获取网络文本并按照时间段存储；对获取的网络文本进行均匀抽样得到样本集并对样本集进行预标注；对预标注后的文本集进行BIO格式的事件标注和因果关系标注；利用标注得到的数据对BERT+CRF模型进行训练；利用BERT+CRF模型对存储的网络文本进行因果事理提取,并形成预设格式的三元组；通过聚类算法将三元组聚类得到因果事理组；将得到的因果事理组进行遴选和约化处理，保存约化处理后的因果事理组。本发明专利技术提高了提取因果事理的准确性,减少了提取结果中的噪声数据,冗余数据和孤立数据,具有较高的可靠性。据,具有较高的可靠性。据,具有较高的可靠性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于海量数据的因果事理组提取方法、系统及计算机可读存储介质

[0001]本专利技术属于人工智能自然语言处理中事理图谱
，更具体地，涉及一种基于海量数据的因果事理组提取方法、系统及计算机可读存储介质。

技术介绍

[0002]传统的因果事理提取方案通常主要考虑提取出包含因果关系的事件而不太重视对提取的因果关系的准确性和冗余性针对性地做优化。现有的基于规则或基于统计规律的方法通常需要根据因果关系词来发现因果关系不能很好地发掘隐藏的因果关系,基于层叠条件随机场的方法因为没有使用先验知识从而不能发掘出大多隐式的需要一定推理的因果关系,而本方案采用的基于深度学习的方法因为使用了在大规模语料上预训练的语言模型BERT所以可以在一定程度上从语义和上下文的推理来挖掘因果关系。
[0003]现有技术公开了一种因果事理图谱的构建方法、装置、计算机设备及存储介质，包括：获取预先存储于数据库中的目标文本；解析所述目标文本，得到短期事件文本集与长期事件文本集；确定所述短期事件文本集与所述长期事件文本集中的事件关系，得到初始因果事件对；预处理所述初始因果事件对，得到目标因果事件对；根据所述目标因果事件对构建因果事理图谱。该现有技术中没有特别针对因果关系的准确性和冗余性做出优化改进。而本申请基于一个前提:同一时间段内获取的文本中有较多相同或极为相似因果事理的不同表达。结合海量数据优势和本方案提出的因果事理遴选、约化方法可以较为准确地提取出该时间段内的因果事理,并且这些提取的因果事理都有较多样本支持因此提取结果更加可靠和较低冗余同时...

【技术保护点】

【技术特征摘要】
1.一种基于海量数据的因果事理组提取方法，其特征在于，包括以下步骤：S1：获取网络文本并按照时间段存储；S2：对获取的网络文本进行均匀抽样得到样本集并对样本集进行预标注；S3：对预标注后的文本集进行BIO格式的事件标注和因果关系标注；S4：利用步骤S3标注得到的数据对BERT+CRF模型进行训练，并得到训练好的BERT+CRF模型；S5：利用训练得到的BERT+CRF模型对存储的网络文本进行因果事理提取,并形成预设格式的三元组；S6：对得到的三元组中的因事件和果事件进行量化编码得到因果事件的语义向量，利用语义向量计算三元组之间的余弦距离，以余弦距离为指标通过聚类算法将三元组聚类得到因果事理组；S7：将得到的因果事理组进行遴选和约化处理，保存约化处理后的因果事理组。2.根据权利要求1所述的一种基于海量数据的因果事理组提取方法，其特征在于，所述对样本集进行预标注,即采用关键词和正则匹配的方式对每个样本是否包含因果关系做标注。3.根据权利要求1所述的一种基于海量数据的因果事理组提取方法，其特征在于，所述对预标注后的文本集进行BIO格式的事件标注和因果关系标注即采用短语方式标注事件,所述短语包括：主谓短语、动宾短语、主谓宾短语。4.根据权利要求1所述的一种基于海量数据的因果事理组提取方法，其特征在于，对BERT+CRF模型进行训练时采用多任务训练，所述多任务包括：识别出样本中的所有事件、识别样本中的因果关系。5.根据权利要求1所述的一种基于海量数据的因果事理组提取方法，其特征在于，所述预设格式的三元组其格式为：(“因”事件,因果关系系数,”果”事件)，其中因果关系系数为0～1之间的概率值,表示“因”事件和”果”事件之间因关系的强弱。6.根据权利要求1所述的一种基于海量数据的因果事理组提取方法，其特征在于，对得到的三元组中的...

【专利技术属性】
技术研发人员：杨俊波，何宇轩，牟昊，李旭日，徐亚波，
申请(专利权)人：广州数说故事信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人