一种基于领域预训练的嵌套事件抽取方法技术

技术编号:29156776 阅读:37 留言:0更新日期:2021-07-06 22:56
本发明专利技术公开了一种基于领域预训练的嵌套事件抽取方法。本发明专利技术包括以下步骤:步骤1:获取领域语料并预处理,采用相邻字凝固度方法对语料构造领域专业词表,随机抽文本数据进行人工标注得嵌套事件文本数据集;步骤2:利用领域语料和领域专业词表作为输入,预训练领域语言模型CaseBERT,其是在通用语言模型BERT内部增加新闻类别分类预训练任务;步骤3:定义分层抽取嵌套事件信息模版,梳理嵌套事件层次关系;步骤4:采用CaseBERT模型和预定义的嵌套事件抽取模版,对嵌套事件文本数据集进行触发词和事件属性联合抽取。本发明专利技术适用于领域性的多主体嵌套事件抽取任务,通过预训练领域语言模型和预定义嵌套事件分层抽取模板,有效提高领域嵌套事件抽取的准确率。

【技术实现步骤摘要】
一种基于领域预训练的嵌套事件抽取方法
本专利技术属于自然语言处理
,具体来说涉及文本信息抽取
,更具体地说,涉及提供了一种基于领域预训练的嵌套事件抽取方法。
技术介绍
随着互联网信息量爆炸式的增长,在浩如烟海的信息源中快速、准确地获取所需信息的需求愈发迫切。事件抽取做作为信息抽取的深层次研究任务,其旨在从纯文本中抽取出用户感兴趣的事件,并以结构化的形式呈现给用户,进而供用户查询、分析利用,常见的重要下游应用,比如:构建知识图谱、智能问答和信息检索等。对文本进行事件抽取,尤其是多主体嵌套事件抽取,已成为当前文本挖掘
的研究难点。面对垂直领域文本,如新闻文本、生物医疗等领域,大量文本均存在多主体嵌套事件,对准确抽取文本信息提出了巨大挑战。当前运用较多基于模式匹配、基于机器学习等方法对于元事件抽取基本有较高的准确率。但当文本出现多主体嵌套事件时,上述方法难以准确全面高效地抽取信息,主要难点在于:1)事件属性分布在文本不同句子中;2)文本中多个嵌套事件之间存在事件论元属性重叠,从而导致信息抽取准确率下降。<br>近年来,随着预本文档来自技高网...

【技术保护点】
1.一种基于领域预训练的嵌套事件抽取方法,其特征在于包括以下步骤:/nS1、获取领域语料,并数据预处理,采用相邻字凝固度方法对语料构造领域专业词表,随机抽不少于7000条文本数据进行人工标注得嵌套事件文本数据集A;/nS2、利用领域语料和领域专业词表作为输入,预训练领域语言模型CaseBERT,其是在通用预训练语言模型BERT内部增加新闻类别分类预训练任务;/nS3、定义分层抽取嵌套事件信息模版,梳理嵌套事件层次关系;/nS4、采用CaseBERT模型和预定义的嵌套事件抽取模版,对嵌套事件文本数据集A进行触发词和事件属性联合抽取。/n

【技术特征摘要】
1.一种基于领域预训练的嵌套事件抽取方法,其特征在于包括以下步骤:
S1、获取领域语料,并数据预处理,采用相邻字凝固度方法对语料构造领域专业词表,随机抽不少于7000条文本数据进行人工标注得嵌套事件文本数据集A;
S2、利用领域语料和领域专业词表作为输入,预训练领域语言模型CaseBERT,其是在通用预训练语言模型BERT内部增加新闻类别分类预训练任务;
S3、定义分层抽取嵌套事件信息模版,梳理嵌套事件层次关系;
S4、采用CaseBERT模型和预定义的嵌套事件抽取模版,对嵌套事件文本数据集A进行触发词和事件属性联合抽取。


2.根据权利要求1所述的一种基于领域预训练的嵌套事件抽取方法,其特征在于,所述的步骤S1具体包括:
S11、从领域数据库中抽取原始领域语料,原始领域语料包括:领域文本及其对应的文本类别;
S12、设定一个最小文本长度80,筛选原始领域语料,过滤掉可能存在的单事件短文本;
S13、通过正则手段删除乱码文本与重复文本,得到条长度不小于80字的领域语料;
S14、利用相邻字凝固度对抽取的领域语料构建公安领域专业词表;
S15、随机抽不少于7000条文本数据,进行人工标注,构造有监督信号的嵌套事件文本数据集A。


3.根据权利要求1所述的一种基于领域预训练的嵌套事件抽取方法,其特征在于,所述的步骤S2具体包括:
S21、在通用BERT模型的基础上,在MLM预训练任务中融入了新闻类别分类任务,输入模型前在嵌套事件文本数据集A的首部加上特殊字符“[CLS]”,尾部加上特殊字符...

【专利技术属性】
技术研发人员:张维彦阮彤叶琪翟洁
申请(专利权)人:华东理工大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1