中文实体识别模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号:30099388 阅读:13 留言:0更新日期:2021-09-18 09:03
本申请为自然语言处理技术领域,本申请提供了一种中文实体识别模型的训练方法、装置、设备及存储介质,其中,所述方法包括:对中文文本进行多语言翻译,生成多种语言的源文本;利用机器翻译工具对多种源文本分别进行回译,得到多种源中文文本;利用预设投票机制对多种源中文文本进行相应的投票,将票数排在前N位的源中文文本作为目标中文文本;将目标中文文本输入中文实体识别模型进行训练,在训练出的实体识别结果满足要求时,完成所述中文实体识别模型的训练。本申请通过翻译、回译和投票的方式额外增加诸多高质量样本,提高了中文实体识别模型的训练效果。别模型的训练效果。别模型的训练效果。

【技术实现步骤摘要】
中文实体识别模型的训练方法、装置、设备及存储介质


[0001]本申请涉及自然语言处理
,具体而言,本申请涉及一种中文实体识别模型的训练方法、装置、设备及存储介质。

技术介绍

[0002]实体抽取是自然语言处理领域的基础任务之一,也是信息抽取任务中一个重要的子任务。实体抽取意在提取文本中最主要的实体,具体的主要工作是从一段文本中识别出发生的实体以及实体中的各个元素。例如提取一个中文文本中的触发词和实体元素,实体元素包括实体主体、实体客体、时间和国别等。
[0003]目前针对中文实体识别模型的训练方法,在中文文本的样本量足够的情况下,准确率和召回率都可以达到很高的水平,但在无法获取到足够的样本量的情况下,训练结果却难以满足要求,训练效果较差。

技术实现思路

[0004]本申请的主要目的为提供一种中文实体识别模型的训练方法、装置、设备及存储介质,以在无法获取到足够的样本量的情况下,提高中文实体识别模型的训练效果。
[0005]为了实现上述专利技术目的,本申请提供一种中文实体识别模型的训练方法,其包括以下步骤:
[0006]获取中文文本,对所述中文文本进行多语言翻译,生成多种语言的源文本;
[0007]利用机器翻译工具对所述多种源文本分别进行回译,得到多种源中文文本;
[0008]利用预设投票机制对所述多种源中文文本进行相应的投票,得到每种源中文文本的票数,根据所述票数对所述多种源中文文本进行排序,并将票数排在前N位的源中文文本作为目标中文文本;其中,所述N为大于或等于1的正整数;
[0009]将所述目标中文文本输入所述BERT层中训练得到所述目标中文文本的文本向量;
[0010]将所述文本向量输入所述BiGRU层中,得到第一特征向量;其中,所述BiGRU层用于对输入的所述文本向量进行文本深层次特征的提取;
[0011]将所述文本向量输入所述TextCNN层中,得到第二特征向量;其中,所述TextCNN层用于对所述文本向量进行分类预测;
[0012]将所述第一特征向量和所述第二特征向量进行加权平均后得到目标特征向量;
[0013]将所述目标特征向量输入所述CRF层中,输出所述中文文本的实体识别结果;其中,所述CRF层用于对所述目标特征向量进行筛选;
[0014]判断所述实体识别结果是否满足要求;
[0015]若是,完成所述中文实体识别模型的训练。
[0016]进一步地,所述利用机器翻译工具对所述多种源文本分别进行回译的步骤,还包括:
[0017]判断所述源文本的文本数量是否大于预设阈值;
[0018]若是,利用机器翻译工具对所述多种源文本分别进行回译;
[0019]否则,将所述源文本中的至少一个词进行同义词替换,利用机器翻译工具对所述同义词替换后的源文本进行回译。
[0020]优选地,所述利用预设投票机制对所述多种源中文文本进行相应的投票,得到每种源中文文本的票数的步骤,包括:
[0021]提取所述源中文文本的语法特征、语义特征和主题特征;
[0022]根据所述语法特征、语义特征和主题特征分别对所述源中文文本进行相应的语法投票、语义投票及主题投票,得到语法票数、语义票数以及主题票数;
[0023]根据所述语法票数、语义票数、主题票数及预先设置的权重进行加权求和,确定每种源中文文本的票数。
[0024]优选地,所述提取所述源中文文本的语法特征的步骤,包括:
[0025]通过预设的词性识别工具,识别所述源中文文本中字符的词性,得到识别结果;
[0026]通过预设的编码器将所述识别结果转化为特征向量,得到所述语法特征。
[0027]优选地,所述提取所述源中文文本的语义特征的步骤,包括:
[0028]检测所述源中文文本中字符的位置,得到所述源中文文本中字符的位置信息;
[0029]通过预设的编码器将所述源中文文本中字符的位置信息转化为特征向量,得到所述语义特征。
[0030]优选地,所述判断所述实体识别结果是否满足要求的步骤,包括:
[0031]根据所述实体识别结果计算所述中文实体识别模型的损失值;
[0032]判断所述损失值是否小于预设损失值;
[0033]当确定所述损失值小于预设损失值时,则判定所述实体识别结果满足要求。
[0034]进一步地,所述判断所述损失值是否小于预设损失值的步骤之后,还包括:
[0035]当确定所述损失值不小于预设损失值时,根据所述损失值调整所述中文实体识别模型的参数,并返回执行所述将所述目标中文文本输入中文实体识别模型进行训练的步骤,以对调整参数后的所述中文实体识别模型再次训练。
[0036]本申请还提供一种中文实体识别模型的训练装置,其包括:
[0037]生成模块,用于获取中文文本,对所述中文文本进行多语言翻译,生成多种语言的源文本;
[0038]回译模块,用于利用机器翻译工具对所述多种源文本分别进行回译,得到多种源中文文本;
[0039]投票模块,用于利用预设投票机制对所述多种源中文文本进行相应的投票,得到每种源中文文本的票数,根据所述票数对所述多种源中文文本进行排序,并将票数排在前N位的源中文文本作为目标中文文本;其中,所述N为大于或等于1的正整数;
[0040]训练模块,用于将所述目标中文文本输入所述BERT层中训练得到所述目标中文文本的文本向量;
[0041]第一输入模块,用于将所述文本向量输入所述BiGRU层中,得到第一特征向量;其中,所述BiGRU层用于对输入的所述文本向量进行文本深层次特征的提取;
[0042]第二输入模块,用于将所述文本向量输入所述TextCNN层中,得到第二特征向量;其中,所述TextCNN层用于对所述文本向量进行分类预测;
[0043]加权平均模块,用于将所述第一特征向量和所述第二特征向量进行加权平均后得到目标特征向量;
[0044]输出模块,用于将所述目标特征向量输入所述CRF层中,输出所述中文文本的实体识别结果;其中,所述CRF层用于对所述目标特征向量进行筛选;
[0045]判断模块,用于判断所述实体识别结果是否满足要求;
[0046]完成模块,用于若是,完成所述中文实体识别模型的训练。
[0047]本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
[0048]本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
[0049]本申请所提供的一种中文实体识别模型的训练方法、装置、设备及存储介质,通过对获取到的中文文本进行多语言翻译,生成多种其他语言的源文本,并对多种源文本分别进行回译,得到多种源中文文本,以增加中文文本的样本量;并通过投票机制对多种源本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文实体识别模型的训练方法,其特征在于,所述中文实体识别模型由BERT层、BiGRU层、TextCNN层和CRF层构成,包括如下步骤:获取中文文本,对所述中文文本进行多语言翻译,生成多种语言的源文本;利用机器翻译工具对所述多种源文本分别进行回译,得到多种源中文文本;利用预设投票机制对所述多种源中文文本进行相应的投票,得到每种源中文文本的票数,根据所述票数对所述多种源中文文本进行排序,并将票数排在前N位的源中文文本作为目标中文文本;其中,所述N为大于或等于1的正整数;将所述目标中文文本输入所述BERT层中训练得到所述目标中文文本的文本向量;将所述文本向量输入所述BiGRU层中,得到第一特征向量;其中,所述BiGRU层用于对输入的所述文本向量进行文本深层次特征的提取;将所述文本向量输入所述TextCNN层中,得到第二特征向量;其中,所述TextCNN层用于对所述文本向量进行分类预测;将所述第一特征向量和所述第二特征向量进行加权平均后得到目标特征向量;将所述目标特征向量输入所述CRF层中,输出所述中文文本的实体识别结果;其中,所述CRF层用于对所述目标特征向量进行筛选;判断所述实体识别结果是否满足要求;若是,完成所述中文实体识别模型的训练。2.根据权利要求1所述的方法,其特征在于,所述利用机器翻译工具对所述多种源文本分别进行回译的步骤,还包括:判断所述源文本的文本数量是否大于预设阈值;若是,利用机器翻译工具对所述多种源文本分别进行回译;否则,将所述源文本中的至少一个词进行同义词替换,利用机器翻译工具对所述同义词替换后的源文本进行回译。3.根据权利要求1所述的方法,其特征在于,所述利用预设投票机制对所述多种源中文文本进行相应的投票,得到每种源中文文本的票数的步骤,包括:提取所述源中文文本的语法特征、语义特征和主题特征;根据所述语法特征、语义特征和主题特征分别对所述源中文文本进行相应的语法投票、语义投票及主题投票,得到语法票数、语义票数以及主题票数;根据所述语法票数、语义票数、主题票数及预先设置的权重进行加权求和,确定每种源中文文本的票数。4.根据权利要求3所述的方法,其特征在于,所述提取所述源中文文本的语法特征的步骤,包括:通过预设的词性识别工具,识别所述源中文文本中字符的词性,得到识别结果;通过预设的编码器将所述识别结果转化为特征向量,得到所述语法特征。5.根据权利要求1所述的方法,其特征在于,所述提取所述源中文文本的语义特征的步骤,包括:检测所述源中文文本中字符的位置,得到所述源中文文本中字符的位置信息;通过预设的编码器将...

【专利技术属性】
技术研发人员:吴晓东
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1