一种针对BERT分类任务的数据标注优化系统及方法技术方案

技术编号：38011981 阅读：9 留言：0更新日期：2023-06-30 10:33

本发明专利技术公开一种针对BERT分类任务的数据标注优化系统，该系统包括打标样本字典化模块、打标样本对齐模块、BERT编码器模块和推理结果拼凑模块，打标样本字典化模块接收训练数据集中的打标样本，获得打标样本字典化数据；打标样本对齐模块在打标样本字典化的基础上，获得打标样本字典化对齐数据；BERT编码器基于打标样本字典化对齐数据进行BERT编码学习，并训练完成获得样本数据标注模型；推理结果拼凑模块基于训练完成的样本数据标注模型，对真实数据进行推理并将推理结果拼凑输出获得真实数据中的实体内容，本发明专利技术涉及一种针对BERT分类任务的数据标注优化方法，本发明专利技术纠正了自然文本的实体边界，进而准确提取到实体信息，提高了实体信息提取准确率。高了实体信息提取准确率。高了实体信息提取准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种针对BERT分类任务的数据标注优化系统及方法

[0001]本专利技术涉及物流
，特别是一种针对BERT分类任务的数据标注优化系统及方法。

技术介绍

[0002]在自然语言处理领域中，命名实体识别任务(Named Entity Recognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。简单的讲，就是识别自然文本中的实体指称的边界和类别；在现有的技术框架下，BERT等大型预训练模型变得越来越流行，用BERT预训练模型，来做NER任务的也越来越多；一般来说，采用有监督的方法使用BERT预训练模型来做NER任务；有监督的方法，就需要标注数据；NER任务下的标注数据，包含了1)自然文本；2)实体的边界；3)实体类别。
[0003]专利号CN112613273A公开了多语言BERT序列标注模型的压缩方法及系统，涉及BERT类模型的知识蒸馏
，该方法包括：步骤1：基于Wordpiece算法从多语语料中抽取词表；步骤2：对多/单语言BERT教师模型、多语言BERT学生模型进行预训练；步骤3：基于人工标注的下游任务数据对多/单语言BERT教师模型进行微调；步骤4：利用多/单语言BERT教师模型对预训练后的多语言BERT学生模型进行残差知识蒸馏；步骤5：基于人工标注的下游任务数据对蒸馏后的多语言BERT学生模型进行微调，该专利技术在于提高多语言背景下BERT序列标注模型的知识蒸馏效果。
[0004]现有技术是直接对自然文本进行标注，...

【技术保护点】

【技术特征摘要】
1.一种针对BERT分类任务的数据标注优化系统，其特征在于，该系统包括打标样本字典化模块、打标样本对齐模块、BERT编码器模块和推理结果拼凑模块，其中，所述打标样本字典化模块接收训练数据集中的打标样本，并对接收的打标样本进行字典化处理，获得打标样本字典化数据；所述打标样本对齐模块在打标样本字典化的基础上，对打标样本字典化数据进行对齐实体边界操作，获得打标样本字典化对齐数据；所述BERT编码器基于打标样本字典化对齐数据进行BERT编码学习，并训练完成获得样本数据标注模型；所述推理结果拼凑模块基于训练完成的样本数据标注模型，将真实数据输入后，对真实数据进行推理并将推理结果拼凑输出获得真实数据中的实体内容。2.一种针对BERT分类任务的数据标注优化方法，其特征在于，该方法具体包括以下步骤：第一步，建立训练数据集，获取训练数据集中的打标样本；第二步，对训练数据集中的打标样本进行字典化处理；第三步，对进行字典化处理后的打标样本进行对齐实体边界操作，获得模型训练所用的打标样本数据；第四步，将获取的打标样本数据输入到BERT模型中，并经BERT模型训练得到样本数据标注模型；第五步，真实数据输入及推理结果拼凑，将真实数据中的自然文本输入样本数据标注模型，经推理结果拼凑输出获得真实数据中的实体内容。3.根据权利要求1所述的一种针对BERT分类任务的数据标注优化方法，其特征在于，所述第一步中训练数据集为快递签收运单表中的运单签收地址，所述运单签收地址具体为省市区以及详细地址，所述打标样本为所述运单签收地址。4.根据权利要求1所述的一种针对BERT分类任务的数据标注优化方法，其特征在于，所述第二步中的打标样本进行字典化处理的具体步骤为：S1，将训练数据集中的打标样本中的非中文文本进行拼块处理，并输出拼块结果；S2，再将训练数据集中的打标样本中的非中文文本做字典化重组，并输出重组结果；S3，将拼块结果和重组结果进行合并，并作为最终的字典化处理的打标样本进行输出，并将输出结果进行后续对齐实体边界操作。5.根据权利要求1所述的一种针对BERT分类任务的数据标注优化方法，其特征在于，所述样本字典化处理...

【专利技术属性】
技术研发人员：黄佩雁，
申请(专利权)人：上海捷晓信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人