序列标注模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号:30091990 阅读:26 留言:0更新日期:2021-09-18 08:54
本申请为自然语言处理技术领域,本申请提供了一种序列标注模型的训练方法、装置、设备及存储介质,其中,所述方法包括:将文本数据进行向量转换得到input_ids向量、segment_ids向量及mask向量,并输入Bert模型进行训练,得到输出序列;将边界特征数据进行词向量编码,得到边界向量,将输出序列与边界向量进行连接得到连接向量,并输入Span模型中,利用Span模型计算起始损失值及结束损失值;根据起始损失值和结束损失值计算总损失值,在总损失值满足预设阈值时,完成序列标注模型的训练。本发明专利技术通过在输入序列标注模型中的文本数据加入边界特征数据,使训练完成的模型对边界信息进行准确预测。确预测。确预测。

【技术实现步骤摘要】
序列标注模型的训练方法、装置、设备及存储介质


[0001]本申请涉及自然语言处理
,具体而言,本申请涉及一种序列标注模型的训练方法、装置、设备及存储介质。

技术介绍

[0002]随着文本数据在互联网上的增长,越来越多的服务与应用依赖知识抽取等技术的辅助,以提供更好的服务。而在知识抽取这个具体的任务中,解析无自然分隔的文本数据的技术又扮演着很重要的作用。
[0003]在现有
中,在处理无自然分隔的文本数据时,仍然受到分词错误的影响,分词时对边界预测的准确性较低,即模型抽取到的实体起始位置或者结束位置错误。例如,“怎么把xxx自动续保取消?”这段文本数据,现有的模型抽取到的保险产品名称为“xxx自动续保”,而实际保险产品名称应为“xxx”,这类分词错误属于实体结束位置预测错误。

技术实现思路

[0004]本申请的主要目的为提供一种序列标注模型的训练方法、装置、设备及存储介质,以在对文本数据进行分词时,提高对边界预测的准确性。
[0005]为了实现上述专利技术目的,本申请提供一种序列标注模型的训练方法,其包本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种序列标注模型的训练方法,其特征在于,包括以下步骤:获取序列标注模型所需输入的文本数据,将所述文本数据进行向量转换,得到input_ids向量、segment_ids向量及mask向量;其中,所述序列标注模型包括Bert模型及Span模型,所述input_ids向量为所述文本数据中每个词在Bert词典中的编号,所述segment_ids向量用于标记文本数据中每个词所属的句子,所述mask向量用于标记文本数据中的词和非词;将所述input_ids向量、所述segment_ids向量及所述mask向量输入所述Bert模型进行训练,得到输出序列;获取所述文本数据中的边界特征数据,将所述边界特征数据进行词向量编码,得到边界向量;将所述输出序列与所述边界向量进行连接得到连接向量;确定所述边界特征数据的起始位置向量及结束位置向量;利用所述Span模型将所述连接向量和所述边界特征数据的起始位置向量进行连接,并线性变换后,得到起始logits值;利用所述Span模型将所述连接向量和所述边界特征数据的结束位置向量进行连接,并线性变换后,得到结束logits值;根据所述起始logits值和起始位置向量计算交叉熵损失,得到起始损失值;根据所述结束logits值和结束位置向量计算交叉熵损失,得到结束损失值;根据所述起始损失值和结束损失值计算所述序列标注模型的总损失值,判断所述总损失值是否满足预设阈值;当所述总损失值满足预设阈值时,完成所述序列标注模型的训练。2.根据权利要求1所述的方法,其特征在于,所述判断所述总损失值是否满足预设阈值的步骤之后,还包括:当所述总损失值不满足预设阈值时,根据所述总损失值调整所述起始logits值及结束logits值;依据调整后的所述起始logits值及结束logits值重新设置所述Bert模型的参数;返回所述将所述input_ids向量、所述segment_ids向量及所述mask向量输入所述Bert模型进行训练的步骤,以对重新设置参数后的所述Bert模型进行再次训练,直至所述总损失值满足预设阈值时停止训练,并保存所述总损失值满足预设阈值所对应的起始logits值、结束logits值及参数。3.根据权利要求1所述的方法,其特征在于,所述确定所述边界特征数据的起始位置向量及结束位置向量的步骤,包括:获取文本样本数据及对所述文本样本数据已标注的标注数据;其中,所述文本样本数据为所需进行目标实体词的参考起始位置及参考结束位置标注的参考文本数据,所述标注数据包括所述文本样本数据中已标注的目标实体词及所述目标实体词的参考起始位置及参考结束位置;根据所述目标实体词的参考起始位置及参考结束位置确定所述边界特征数据的起始位置及结束位置,并生成所述起始位置对应的起始位置向量、所述结束位置对应的结束位置向量。
4.根据权利要求3所述的方法,其特征在于,所述生成所述起始位置对应的起始位置向量、所述结束位置对应的结束位置向量的步骤,包括:在所述边界特征数据的起始位置设置为1,在所述边界特征数据中除所述起始位置之外的剩余位置设置为0,得到所述起始位置向量;初始化所述边界特征数据,在初始化后的所述边界特征数据的结束位置设置为1,在初始化后的所述边界特征数据中除所述结束位置之外的剩余位置设置为0,得到所述结束位置向量。5.根据权利要求1所述的方法,其特征在于,所述将所述input_ids向量、所述segment_ids向量及所述mask向量输入所述Bert模型进行训练的步骤之前,还包括:判断所述input_ids向量的向量长度是否达到预先为所述Bert模型设定的句子的最大长度;若否,则在所述input_ids向量的末尾用0进行填充,直至填充后的所述input_ids向量的向量长度达到预先为所述Bert模型设定的句子的最大长度时,执行所述将所述input_ids向量、所述segment_ids向量及所述mask向量输入所述Bert模型进行训练的步骤。6.根据权利要求1所述的方法,其特征在于,所述根据所述起始logits值和起始位置向量计算交叉熵损失,得到起始损失值的步骤,包括如下公式:start_loss=start_positions*log
a
start_logits+(1

start_positions)log(1

【专利技术属性】
技术研发人员:许双华王涵暄
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1