一种针对BERT分类任务的数据标注优化系统及方法技术方案

技术编号:38011981 阅读:9 留言:0更新日期:2023-06-30 10:33
本发明专利技术公开一种针对BERT分类任务的数据标注优化系统,该系统包括打标样本字典化模块、打标样本对齐模块、BERT编码器模块和推理结果拼凑模块,打标样本字典化模块接收训练数据集中的打标样本,获得打标样本字典化数据;打标样本对齐模块在打标样本字典化的基础上,获得打标样本字典化对齐数据;BERT编码器基于打标样本字典化对齐数据进行BERT编码学习,并训练完成获得样本数据标注模型;推理结果拼凑模块基于训练完成的样本数据标注模型,对真实数据进行推理并将推理结果拼凑输出获得真实数据中的实体内容,本发明专利技术涉及一种针对BERT分类任务的数据标注优化方法,本发明专利技术纠正了自然文本的实体边界,进而准确提取到实体信息,提高了实体信息提取准确率。高了实体信息提取准确率。高了实体信息提取准确率。

【技术实现步骤摘要】
一种针对BERT分类任务的数据标注优化系统及方法


[0001]本专利技术涉及物流
,特别是一种针对BERT分类任务的数据标注优化系统及方法。

技术介绍

[0002]在自然语言处理领域中,命名实体识别任务(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别;在现有的技术框架下,BERT等大型预训练模型变得越来越流行,用BERT预训练模型,来做NER任务的也越来越多;一般来说,采用有监督的方法使用BERT预训练模型来做NER任务;有监督的方法,就需要标注数据;NER任务下的标注数据,包含了1)自然文本;2)实体的边界;3)实体类别。
[0003]专利号CN112613273A公开了多语言BERT序列标注模型的压缩方法及系统,涉及BERT类模型的知识蒸馏
,该方法包括:步骤1:基于Wordpiece算法从多语语料中抽取词表;步骤2:对多/单语言BERT教师模型、多语言BERT学生模型进行预训练;步骤3:基于人工标注的下游任务数据对多/单语言BERT教师模型进行微调;步骤4:利用多/单语言BERT教师模型对预训练后的多语言BERT学生模型进行残差知识蒸馏;步骤5:基于人工标注的下游任务数据对蒸馏后的多语言BERT学生模型进行微调,该专利技术在于提高多语言背景下BERT序列标注模型的知识蒸馏效果。
[0004]现有技术是直接对自然文本进行标注,而实体的边界就是该实体所在文本的对应位置;例如:对于这一自然文本——重庆重庆市南岸区南山街道1777号南山植物园,“南山植物园”作为一个建筑物实体,对应的边界即18

22;大量的类似标注数据,就构成了NER任务的训练集,而在传统的标注NER任务数据方法,存在以下2个问题,分别是:1)无法适配BERT等预训练模型训练;2)对于预训练模型的字典以外的字,无法准确匹配;3)对于预训练模型的字典以外的字,会被模糊匹配。以上三个问题,最终导致训练样本中的实体边界被打乱,进而造成模型无法准确表征的问题。

技术实现思路

[0005]本专利技术的目的在于克服现有技术中存在的不足,提供一种针对BERT分类任务的数据标注优化系统及方法,本专利技术的系统和方法通过借助预训练模型中的字典,对打标样本进行字典化,并进行对齐实体边界操作,经过处理后的训练集,才能真正让BERT等预训练模型,表征文本的语意信息,进而准确提取到实体,提升了训练集数据质量,提高了数据标注准确性。
[0006]为了达到上述专利技术的目的,本专利技术专利提供的技术方案如下:
[0007]一种针对BERT分类任务的数据标注优化系统,该系统包括打标样本字典化模块、打标样本对齐模块、BERT编码器模块和推理结果拼凑模块,其中,
[0008]所述打标样本字典化模块接收训练数据集中的打标样本,并对接收的打标样本进
行字典化处理,获得打标样本字典化数据;
[0009]所述打标样本对齐模块在打标样本字典化的基础上,对打标样本字典化数据进行对齐实体边界操作,获得打标样本字典化对齐数据;
[0010]所述BERT编码器基于打标样本字典化对齐数据进行BERT编码学习,并训练完成获得样本数据标注模型;
[0011]所述推理结果拼凑模块基于训练完成的样本数据标注模型,将真实数据输入后,对真实数据进行推理并将推理结果拼凑输出获得真实数据中的实体内容。
[0012]一种针对BERT分类任务的数据标注优化方法,该方法具体包括以下步骤:
[0013]第一步,建立训练数据集,获取训练数据集中的打标样本;
[0014]第二步,对训练数据集中的打标样本进行字典化处理;
[0015]第三步,对进行字典化处理后的打标样本进行对齐实体边界操作,获得模型训练所用的打标样本数据;
[0016]第四步,将获取的打标样本数据输入到BERT模型中,并经BERT模型训练得到样本数据标注模型;
[0017]第五步,真实数据输入及推理结果拼凑,将真实数据中的自然文本输入样本数据标注模型,经推理结果拼凑输出获得真实数据中的实体内容。
[0018]上述第一步中训练数据集为快递签收运单表中的运单签收地址,所述运单签收地址具体为省市区以及详细地址,所述打标样本为所述运单签收地址。
[0019]上述第二步中的打标样本进行字典化处理的具体步骤为:
[0020]S1,将训练数据集中的打标样本中的非中文文本进行拼块处理,并输出拼块结果;
[0021]S2,再将训练数据集中的打标样本中的非中文文本做字典化重组,并输出重组结果;
[0022]S3,将拼块结果和重组结果进行合并,并作为最终的字典化处理的打标样本进行输出,并将输出结果进行后续对齐实体边界操作。
[0023]上述样本字典化处理在BIO标注模式下进行,所述BIO标注为将样本中的每个元素标注为B

X、I

X或O,其中,B

X表示为样本中标注的元素所在的片段属于X类型并且此标注的元素在此片段的开头,I

X表示为样本中标注的元素所在的片段属于X类型并且此标注的元素在此片段的中间位置,O表示为样本中标注的元素不属于任何类型;所述样本字典类型为行政区标签,所述行政区标签包括市City、区district、镇township、兴趣点poi和子兴趣点supoi;
[0024]上述第三步中对打标样本进行对齐实体边界操作的具体步骤为对打标样本中Token化后的连续数字进行拼接处理,再对拼接处理后的打标样本进行重新索引获得打标样本数据;所述打标样本数据包括样本的地址以及与地址每个元素对应的标签。
[0025]上述样本数据标注模型获取的具体步骤为将打标样本数据输入到BERT模型中,BERT模型通过正向传播获取每条输入的打标样本的推断值,根据所有的打标样本的推断值与真实值之间合计的损失函数值,并指导参数的梯度下降方向和幅度,梯度收敛到一套最优参数上,所述最优参数为地址样本与标签之间的对应关系,并由此创建样本数据标注模型,所述样本数据标注模型将输入模型的地址推断出对应的标签信息。
[0026]上述第五步中的真实数据为快递真实订单的收件地址数据,真实数据从物流系统
的订单或运单表获取。
[0027]上述第五步中获得真实数据中的实体内容具体为将真实数据输入到样本数据标注模型中,样本数据标注模型将真实数据通过推理拼凑出真实数据中每个元素对应的标签,并从样本数据标注模型中取出与对应标签相同的完整实体,从而获取真实数据中对应的实体内容。
[0028]基于上述技术方案,本专利技术一种针对BERT分类任务的数据标注优化系统及方法与现有技术相比,取得了如下技术效果:
[0029]1.本专利技术通过对训练数据集中的打标样本进行字典化和对齐实体边界操作,重新纠正了打标样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对BERT分类任务的数据标注优化系统,其特征在于,该系统包括打标样本字典化模块、打标样本对齐模块、BERT编码器模块和推理结果拼凑模块,其中,所述打标样本字典化模块接收训练数据集中的打标样本,并对接收的打标样本进行字典化处理,获得打标样本字典化数据;所述打标样本对齐模块在打标样本字典化的基础上,对打标样本字典化数据进行对齐实体边界操作,获得打标样本字典化对齐数据;所述BERT编码器基于打标样本字典化对齐数据进行BERT编码学习,并训练完成获得样本数据标注模型;所述推理结果拼凑模块基于训练完成的样本数据标注模型,将真实数据输入后,对真实数据进行推理并将推理结果拼凑输出获得真实数据中的实体内容。2.一种针对BERT分类任务的数据标注优化方法,其特征在于,该方法具体包括以下步骤:第一步,建立训练数据集,获取训练数据集中的打标样本;第二步,对训练数据集中的打标样本进行字典化处理;第三步,对进行字典化处理后的打标样本进行对齐实体边界操作,获得模型训练所用的打标样本数据;第四步,将获取的打标样本数据输入到BERT模型中,并经BERT模型训练得到样本数据标注模型;第五步,真实数据输入及推理结果拼凑,将真实数据中的自然文本输入样本数据标注模型,经推理结果拼凑输出获得真实数据中的实体内容。3.根据权利要求1所述的一种针对BERT分类任务的数据标注优化方法,其特征在于,所述第一步中训练数据集为快递签收运单表中的运单签收地址,所述运单签收地址具体为省市区以及详细地址,所述打标样本为所述运单签收地址。4.根据权利要求1所述的一种针对BERT分类任务的数据标注优化方法,其特征在于,所述第二步中的打标样本进行字典化处理的具体步骤为:S1,将训练数据集中的打标样本中的非中文文本进行拼块处理,并输出拼块结果;S2,再将训练数据集中的打标样本中的非中文文本做字典化重组,并输出重组结果;S3,将拼块结果和重组结果进行合并,并作为最终的字典化处理的打标样本进行输出,并将输出结果进行后续对齐实体边界操作。5.根据权利要求1所述的一种针对BERT分类任务的数据标注优化方法,其特征在于,所述样本字典化处理...

【专利技术属性】
技术研发人员:黄佩雁
申请(专利权)人:上海捷晓信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1