文本数据标注方法、装置、设备及存储介质制造方法及图纸

技术编号:28713429 阅读:25 留言:0更新日期:2021-06-06 01:01
本发明专利技术涉及人工智能领域,公开了一种文本数据标注方法、装置、设备及存储介质,用于使用NLP模型进行数据的预标注,并基于标注一致性进行数据质量的检查,降低了资源的消耗,提高了数据标注的质量和效率。文本数据标注方法包括:获取原始数据,并对原始数据进行任务参数的配置,生成中间数据;基于自然语言处理NLP模型对中间数据进行预标注,得到预标注数据;输出预测结果置信度,从预测结果置信度中选择置信度小于预设的阈值的K个数据进行数据标注,生成标注数据;评估标注数据的一致性并进行质量检查,生成质量检查数据,基于质量检查数据训练并得到最新的NLP模型。此外,本发明专利技术还涉及区块链技术,标注后的数据可存储于区块链节点中。中。中。

【技术实现步骤摘要】
文本数据标注方法、装置、设备及存储介质


[0001]本专利技术涉及自然语言处理领域,尤其涉及一种文本数据标注方法、装置、设备及存储介质。

技术介绍

[0002]文本数据尤其是有标注的文本数据,是驱动NLP模型学习和优化的重要资源,是自然语言处理相关领域的重要组成部分,在文本数据标注界面方面,相关的工作已经做的非常充分了,目前已有的信息抽取模型训练数据标注工具相比文本编辑器,显著提升了数据标注工作的速度和质量。
[0003]然而,在现有的技术中,对NLP模型的使用还不够充分,大部分数据标注工具不对待标注语料中各个样本的标注价值进行区分,标注了大量价值较低的样本,涉及大规模数据的文本数据标注工作资源消耗大,数据标注质量低。

技术实现思路

[0004]本专利技术提供了一种文本数据标注方法、装置、设备及存储介质,用于使用NLP模型进行数据的预标注,并基于标注一致性进行数据质量的检查,降低了资源的消耗,提高了数据标注的质量和效率。
[0005]本专利技术第一方面提供了一种文本数据标注方法,包括:获取原始数据,并对所述原始数本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本数据标注方法,其特征在于,所述文本数据标注方法包括:获取原始数据,并对所述原始数据进行任务参数的配置,生成中间数据,所述原始数据为待标注的文本数据;基于自然语言处理NLP模型对所述中间数据进行预标注,得到预标注数据;根据所述预标注数据和预置的公式输出预测结果置信度,从所述预测结果置信度中选择置信度小于预设的阈值的K个数据进行数据标注,生成标注数据;评估所述标注数据的一致性并进行质量检查,生成质量检查数据,基于所述质量检查数据训练并得到最新的NLP模型。2.根据权利要求1所述的文本数据标注方法,其特征在于,所述获取原始数据,并进行任务参数的配置,生成中间数据,所述原始数据为待标注的文本数据包括:通过预置的接口将存储原始数据的文件上传,并获取所述原始数据,所述原始数据为待标注的文本数据;基于所述原始数据进行任务参数的配置,选择对应的信息抽取任务类型,生成中间数据,所述信息抽取任务类型包括实体识别、实体关系抽取和事件抽取。3.根据权利要求1所述的文本数据标注方法,其特征在于,所述基于NLP模型对所述中间数据进行预标注,得到预标注数据包括:将数据标注任务划分为t轮,t为大于1的整数;当t<3时,使用预先配置的历史NLP模型,对所述中间数据进行预标注,得到第一预标注数据,当t≥3时,基于t

1轮训练的NLP模型对所述中间数据进行预标注,得到第二预标注数据;将所述第一预标注数据和所述第二预标注数据进行合并,生成预标注数据。4.根据权利要求1所述的文本数据标注方法,其特征在于,所述根据所述预标注数据和预置的公式输出预测结果置信度,从所述预测结果置信度中选择置信度小于预设的阈值的K个数据进行数据标注,生成标注数据包括:基于所述信息抽取任务类型,选择相应的公式计算预测结果置信度,当所述信息抽取任务类型为实体识别时,调用预置的第一计算公式,生成第一计算结果,所述第一计算公式为:其中,T为文本的长度,Q为实体类别标签的个数,ner_prob
t,q
为第t个标签属于第q个实体标签类别的概率大小;当所述信息抽取任务类型为实体关系抽取或事件抽取时,调用预置的第二计算公式,生成第二计算结果,所述第二计算公式为:其中,relation_prob
t,i,r
为以第t个标签开头的实体与以第i个标签开头的实体存在第r种关系的概率大小;将所述第一计算结果和所述第二计算结果合并,输出预测结果置信度,从所述预测结果置信度中选择置信度小于预设的阈值的K个数据,得到置信度数据,基于预置的规则对所
述置信度数据进行校验,并进行数据的标注,生成标注数据,K为大于1的整数。5.根据权利要求1所述的文本数据标注方...

【专利技术属性】
技术研发人员:李鹏宇李剑锋
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1