一种面向领域实体关系联合抽取的语料标注方法及系统技术方案

技术编号：26891379 阅读：62 留言：0更新日期：2020-12-29 16:09

本发明专利技术共公开一种面向领域实体关系联合抽取的语料标注方法及系统，方法包括：利用scrapy爬虫框架从网页爬取符合条件的初始数据；利用正则表达式对所述初始数据进行预处理，获得无噪声文本数据；根据领域语料特征定义实体间的关系集合；利用YEDDA文本标注工具，根据所述关系集合对所述无噪声文本数据进行标注，获得标注数据。采用本发明专利技术公开的方法能够简化实体和关系的标注流程，提升标注效率，实现实体关系的联合抽取以及重叠关系的抽取，同时还能有效避免采用流水线方法提取实体和关系过程中存在的错误传播、信息丢失和实体冗余等问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向领域实体关系联合抽取的语料标注方法及系统
本专利技术涉及自然语言处理领域，特别是涉及一种面向领域实体关系联合抽取的语料标注方法及系统。
技术介绍
命名实体识别和关系抽取是自然语言处理的两项核心工作，也是知识图谱构建的重要下游任务。语料标注是命名实体识别和关系抽取的底层任务，传统的实体和关系标注方式是在对实体标注的基础上，再对两个实体间的关系进行标注，降低了标注的效率、准确率、召回率以及F1值，且容易造成实体和关系抽取中的错误传播、信息丢失和实体冗余等问题。
技术实现思路
基于此，本专利技术的目的是提供一种面向领域实体关系联合抽取的语料标注方法及系统，以克服现有实体关系提取方法存在错误传播、信息丢失和实体冗余的问题。为实现上述目的，本专利技术提供了一种面向领域实体关系联合抽取的语料标注方法，所述方法包括：步骤S1：利用scrapy爬虫框架从网页爬取符合条件的初始数据；步骤S2：利用正则表达式对所述初始数据进行预处理，获得无噪声文本数据；步骤S3：根据领域语料特征定义实体间的关...

【技术保护点】
1.一种面向领域实体关系联合抽取的语料标注方法，其特征在于，所述方法包括：/n步骤S1：利用scrapy爬虫框架从网页爬取符合条件的初始数据；/n步骤S2：利用正则表达式对所述初始数据进行预处理，获得无噪声文本数据；/n步骤S3：根据领域语料特征定义实体间的关系集合；/n步骤S4：利用YEDDA文本标注工具，根据所述关系集合对所述无噪声文本数据进行标注，获得标注数据。/n

【技术特征摘要】
1.一种面向领域实体关系联合抽取的语料标注方法，其特征在于，所述方法包括：
步骤S1：利用scrapy爬虫框架从网页爬取符合条件的初始数据；
步骤S2：利用正则表达式对所述初始数据进行预处理，获得无噪声文本数据；
步骤S3：根据领域语料特征定义实体间的关系集合；
步骤S4：利用YEDDA文本标注工具，根据所述关系集合对所述无噪声文本数据进行标注，获得标注数据。

2.根据权利要求1所述的面向领域实体关系联合抽取的语料标注方法，其特征在于，所述方法还包括：
步骤S5：根据所述标注数据抽取三元组；
步骤S6：根据所述三元组构建知识图谱。

3.根据权利要求1所述的面向领域实体关系联合抽取的语料标注方法，其特征在于，所述利用正则表达式对所述初始数据进行预处理，获得无噪声文本数据，具体包括：
步骤S21：利用正则表达式将所述初始数据内的待滤除信息进行滤除，获得滤除数据；
步骤S22：对所述滤除数据进行缺失数据补充，获得无噪声文本数据。

4.根据权利要求3所述的面向领域实体关系联合抽取的语料标注方法，其特征在于，所述待滤除信息包括网页导航、广告和重复值。

5.根据权利要求3所述的面向领域实体关系联合抽取的语料标注方法，其特征在于，所述方法还包括：
步骤S7：将所述标注数据输入到BERT-BiLSTM+CRF端到端模型进行训练和测试，获得预测的标签数据。

6...

【专利技术属性】
技术研发人员：吴赛赛，谢能付，周爱莲，梁晓贺，姜丽华，张帆，李小雨，汪汇涓，
申请(专利权)人：中国农业科学院农业信息研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人