一种识别非结构化数据中事件间关系的方法技术

技术编号:44814110 阅读:18 留言:0更新日期:2025-03-28 20:00
本发明专利技术涉及一种识别非结构化数据中事件间关系的方法,属于大数据处理与数据挖掘技术领域。本发明专利技术模板创建步骤根据规则创建模型训练步骤和关系推断步骤中所需模板句子;模型训练步骤使用创建模板对BART模型进行微调;利用模型训练步骤的模型和模板创建步骤中的模板句子进行事件间关系推断的步骤。本发明专利技术提高了识别准确率并且可以同时进行多种事件关系的识别,本发明专利技术进行事件关系识别时,其精准率、召回率和综合得分分数都优于传统方法及其对应模型;而且本发明专利技术可以在不改变输出层格式的情况下,通过修改模板来轻易地扩展到多种关系的识别。

【技术实现步骤摘要】

本专利技术属于大数据处理与数据挖掘,具体涉及一种识别非结构化数据中事件间关系的方法


技术介绍

1、事件是由一个或多个参与者在特定时间和地点做出的一个或若干个特定动作。事件之间的关系有很多种,例如:因果关系,顺承关系,组成关系等。近年来,机器阅读理解、过程提取、事理图谱和事件预测等基于事件的技术发展迅速,事件间关系在这些任务中起到了连接事件的作用。文本作为人类信息传递的重要载体之一,其中包含了丰富的事件信息。因此,准确识别文本中所包含事件之间的关系成为了自然语言处理领域的一个重要任务。

2、中国专利“cn 113642321 a面向金融领域的因果关系提取方法和系统”。从金融领域的非结构化数据中获取相关语料库,并将语料库中的语句标注为“有因果关系”和“没有因果关系”;利用带标注的语句训练bert模型,并通过抽取中心词来扩充中心词表;对中心词表进行修正和处理后利用中心词分类型进行因果关系识别,实现四种因果关系(一因一果,一因多果,多因一果,多因多果)的识别。

3、中国专利“cn 112463970 a一种基于时间关系对文本包含的因果关系本文档来自技高网...

【技术保护点】

1.一种识别非结构化数据中事件间关系的方法,其特征在于,该方法包括如下步骤:

2.如权利要求1所述的识别非结构化数据中事件间关系的方法,其特征在于,所述步骤一包括:

3.如权利要求2所述的识别非结构化数据中事件间关系的方法,其特征在于,所述步骤二中,使用标注数据创建训练时所需要的目标序列;假设事件对{ei,ej}具有因果关系,则用{ei,ej}和yk填充作为目标序列;同理,如果事件对{ei,ej}不具有关系,则用{ei,ej}填充Outputi-作为目标序列。

4.如权利要求3所述的识别非结构化数据中事件间关系的方法,其特征在于,根据数据集中所有标记为...

【技术特征摘要】

1.一种识别非结构化数据中事件间关系的方法,其特征在于,该方法包括如下步骤:

2.如权利要求1所述的识别非结构化数据中事件间关系的方法,其特征在于,所述步骤一包括:

3.如权利要求2所述的识别非结构化数据中事件间关系的方法,其特征在于,所述步骤二中,使用标注数据创建训练时所需要的目标序列;假设事件对{ei,ej}具有因果关系,则用{ei,ej}和yk填充作为目标序列;同理,如果事件对{ei,ej}不具有关系,则用{ei,ej}填充outputi-作为目标序列。

4.如权利要求3所述的识别非结构化数据中事件间关系的方法,其特征在于,根据数据集中所有标记为具有关系的事件对构建了正例数据样本,并且通过随机挑选没有被标记为有关系的事件对来构建负例数据样本。

5.如权利要求4所述的识别非结构化数据中事件间关系的方法,其特征在于,正例和负例样本的数量比例为1:1。

6.如权利要求3所述的识别非结构化数据中事件间关系的方法,其特征在于,给定一个事件对{ei,ej},其所在的句子分别为如果这两个事件在不同的句子中,则源序列由这两个句子拼装而成;如果这两个事件在同一个句子中,则使用ei所在的句子作为...

【专利技术属性】
技术研发人员:苗旭张杭葛志王佳陈静张宏吴金凤宋伟
申请(专利权)人:北京计算机技术及应用研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1