一种面向领域实体关系联合抽取的语料标注方法及系统技术方案

技术编号:26891379 阅读:42 留言:0更新日期:2020-12-29 16:09
本发明专利技术共公开一种面向领域实体关系联合抽取的语料标注方法及系统,方法包括:利用scrapy爬虫框架从网页爬取符合条件的初始数据;利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据;根据领域语料特征定义实体间的关系集合;利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。采用本发明专利技术公开的方法能够简化实体和关系的标注流程,提升标注效率,实现实体关系的联合抽取以及重叠关系的抽取,同时还能有效避免采用流水线方法提取实体和关系过程中存在的错误传播、信息丢失和实体冗余等问题。

【技术实现步骤摘要】
一种面向领域实体关系联合抽取的语料标注方法及系统
本专利技术涉及自然语言处理领域,特别是涉及一种面向领域实体关系联合抽取的语料标注方法及系统。
技术介绍
命名实体识别和关系抽取是自然语言处理的两项核心工作,也是知识图谱构建的重要下游任务。语料标注是命名实体识别和关系抽取的底层任务,传统的实体和关系标注方式是在对实体标注的基础上,再对两个实体间的关系进行标注,降低了标注的效率、准确率、召回率以及F1值,且容易造成实体和关系抽取中的错误传播、信息丢失和实体冗余等问题。
技术实现思路
基于此,本专利技术的目的是提供一种面向领域实体关系联合抽取的语料标注方法及系统,以克服现有实体关系提取方法存在错误传播、信息丢失和实体冗余的问题。为实现上述目的,本专利技术提供了一种面向领域实体关系联合抽取的语料标注方法,所述方法包括:步骤S1:利用scrapy爬虫框架从网页爬取符合条件的初始数据;步骤S2:利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据;步骤S3:根据领域语料特征定义实体间的关系集合;步骤S4:利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。可选地,所述方法还包括:步骤S5:根据所述标注数据抽取三元组;步骤S6:根据所述三元组构建知识图谱。可选地,所述利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据,具体包括:步骤S21:利用正则表达式将所述初始数据内的待滤除信息进行滤除,获得滤除数据;步骤S22:对所述滤除数据进行缺失数据补充,获得无噪声文本数据。可选地,所述待滤除信息包括网页导航、广告和重复值。可选地,所述方法还包括:步骤S7:将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试,获得预测的标签数据;本专利技术还提供一种面向领域实体关系联合抽取的语料标注系统,所述系统包括:爬取模块,用于利用scrapy爬虫框架从网页爬取符合条件的初始数据;预处理模块,用于利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据;关系集合定义模块,用于根据领域语料特征定义实体间的关系集合;标注模块,用于利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。可选地,所述系统还包括:三元组抽取模块,用于根据所述标注数据抽取三元组;知识图谱构建模块,用于根据所述三元组构建知识图谱。可选地,所述预处理模块具体包括:滤除单元,用于利用正则表达式将所述初始数据内的待滤除信息进行滤除,获得滤除数据;缺失数据补充单元,用于对所述滤除数据进行缺失数据补充,获得无噪声文本数据。可选地,所述待滤除信息包括网页导航、广告和重复值。可选地,所述系统还包括:训练、测试和预测模块,用于将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试,获得预测的标签数据。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术共公开一种面向领域实体关系联合抽取的语料标注方法及系统,方法包括:利用scrapy爬虫框架从网页爬取符合条件的初始数据;利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据;根据领域语料特征定义实体间的关系集合;利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。采用本专利技术公开的方法能够简化实体和关系的标注流程,提升标注效率,实现实体关系的联合抽取以及重叠关系的抽取,同时还能有效避免采用流水线方法提取实体和关系过程中存在的错误传播、信息丢失和实体冗余等问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例面向领域实体关系联合抽取的语料标注方法流程图;图2为本专利技术实施例作物病虫害领域语料标注示意图;图3为本专利技术实施例作物病虫害领域三元组形成示意图;图4为本专利技术实施例面向领域实体关系联合抽取的语料标注系统结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的目的是提供一种面向领域实体关系联合抽取的语料标注方法及系统,以克服现有提取方法存在错误传播、信息丢失和实体冗余的问题。为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。如图1所示,本专利技术公开一种面向领域实体关系联合抽取的语料标注方法,所述方法包括:步骤S1:利用scrapy爬虫框架从网页爬取符合条件的初始数据。步骤S2:利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据。步骤S3:根据领域语料特征定义实体间的关系集合。步骤S4:利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。下面对各个步骤进行详细论述:步骤S1:利用scrapy爬虫框架从网页爬取符合条件的初始数据;所述条件为一条数据主要围绕一个特定实体E展开,实体E与文本中的多个实体{E1,E2,…,Ei,…En}之间存在多关系对。步骤S2:所述利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据,具体包括:步骤S21:利用正则表达式将所述初始数据内的待滤除信息进行滤除,获得滤除数据;所述待滤除信息包括网页导航、广告和重复值。步骤S22:对所述滤除数据进行缺失数据补充,获得无噪声文本数据。本专利技术既可以采用人工的方式对所述滤除数据进行缺失数据补充,还可以采用正则表达式对所述滤除数据进行缺失数据补充,但并不限于以上两种。步骤S3:根据领域语料特征定义实体间的关系集合R;如果标注的是作物病虫害领域,那么对应的关系集合包括{别名,发生期,病原,为害部位,防治药剂……};如果标注的是医疗领域,那么对应的关系集合包括{发病部位,临床症状,检查,手术治疗,治疗药物……};如果标注的是公安领域,那么对应的关系集合包括{性别,出生日期,失踪原因,失踪地点,可能去向……}。步骤S4:利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。本专利技术将此标注方案命名为“E+R+BIES”,标注方法如下:若某一实体E与多实体{E1,E2,…,Ei,…En}之间存在一一对应的关系{R1,R2,…,Ri,…Rn},首先将实体E设置为一固本文档来自技高网...

【技术保护点】
1.一种面向领域实体关系联合抽取的语料标注方法,其特征在于,所述方法包括:/n步骤S1:利用scrapy爬虫框架从网页爬取符合条件的初始数据;/n步骤S2:利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据;/n步骤S3:根据领域语料特征定义实体间的关系集合;/n步骤S4:利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。/n

【技术特征摘要】
1.一种面向领域实体关系联合抽取的语料标注方法,其特征在于,所述方法包括:
步骤S1:利用scrapy爬虫框架从网页爬取符合条件的初始数据;
步骤S2:利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据;
步骤S3:根据领域语料特征定义实体间的关系集合;
步骤S4:利用YEDDA文本标注工具,根据所述关系集合对所述无噪声文本数据进行标注,获得标注数据。


2.根据权利要求1所述的面向领域实体关系联合抽取的语料标注方法,其特征在于,所述方法还包括:
步骤S5:根据所述标注数据抽取三元组;
步骤S6:根据所述三元组构建知识图谱。


3.根据权利要求1所述的面向领域实体关系联合抽取的语料标注方法,其特征在于,所述利用正则表达式对所述初始数据进行预处理,获得无噪声文本数据,具体包括:
步骤S21:利用正则表达式将所述初始数据内的待滤除信息进行滤除,获得滤除数据;
步骤S22:对所述滤除数据进行缺失数据补充,获得无噪声文本数据。


4.根据权利要求3所述的面向领域实体关系联合抽取的语料标注方法,其特征在于,所述待滤除信息包括网页导航、广告和重复值。


5.根据权利要求3所述的面向领域实体关系联合抽取的语料标注方法,其特征在于,所述方法还包括:
步骤S7:将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试,获得预测的标签数据。


6...

【专利技术属性】
技术研发人员:吴赛赛谢能付周爱莲梁晓贺姜丽华张帆李小雨汪汇涓
申请(专利权)人:中国农业科学院农业信息研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1