实体识别模型训练方法、实体识别的方法及系统技术方案

技术编号:34817326 阅读:19 留言:0更新日期:2022-09-03 20:27
本发明专利技术公开一种实体识别模型训练方法,实体识别的方法及系统。其实体识别模型训练方法包括:S1:构建实体识别模型,所述实体识别模型包括第一神经网路和第二神经网路;S2:对第一神经网络进行离线预测;S3:加载第一神经网络的预测结果和第二神经网络;S4:对第二神经网络进行压缩处理;S5:计算第一神经网络离线预测的logits的损失和第二神经网络在线预测的logits的损失;S6:计算第二神经网络的总损失,根据总损失更新第二神经网络参数。本申请先以离线的方式对第一神经网络进行预测,保留特征,再训练第二神经网络,大大减少了硬件的计算成本。算成本。算成本。

【技术实现步骤摘要】
实体识别模型训练方法、实体识别的方法及系统


[0001]本专利技术涉及人工智能
,尤其涉及一种实体识别模型训练方法、实体识别的方法及系统。

技术介绍

[0002]自然语言处理(NLP,Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。按照技术实现难度的不同,这类系统可以分成简单匹配式、模糊匹配式和段落理解式三种类型。
[0003]构成NLP的重要技术之一为知识抽取,知识抽取中主要包括三个核心子任务:实体识别、关系抽取以及事件抽取。
[0004]实体识别是信息提取、问答系统、句法分析、机器翻译、数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。
[0005]目前针对实体识别的解决方案中,都是构建复杂的实体识别模型来实现,需要大量的GPU显卡资源,当构建的实体识别模型过于复杂的时候,势必会消耗大量的硬件成本。

技术实现思路

[0006]本专利技术为解决现有技术中存在的技术问题,提出一种实体识别模型训练方法,包括步骤:
[0007]S1:构建实体识别模型,所述实体识别模型包括第一神经网路和第二神经网路;
[0008]S2:对第一神经网络进行离线预测:将训练数据输入第一神经网路,得到第一神经网络的输出层的特征,并保存预测的每个样本的logits:
[0009]S3:加载第一神经网络的预测结果和第二神经网络;
[0010]S4:对第二神经网络进行压缩处理;
[0011]S5:计算第一神经网络离线预测的logits的损失和第二神经网络在线预测的logits的损失;
[0012]S6:计算第二神经网络的总损失,根据总损失更新第二神经网络参数。
[0013]进一步地,第二神经网络的总损失为将第一神经网络离线预测的logits的损失、第二神经网络在线预测的logits的损失和交叉熵损失进行加权求和。
[0014]进一步地,第一神经网络的模型采用12层transformer的bert构建。
[0015]进一步地,第二神经网络的模型采用2层transformer作为特征提取器。
[0016]本专利技术还提供一种实体识别的方法,包括步骤:
[0017]接收输入的句子;
[0018]实体识别模型对输入的句子进行处理;
[0019]返回输出结果,
[0020]所述神经网络为实体识别模型训练方法得到的实体识别模型。
[0021]进一步地,返回输出结果包括:
[0022]若所述实体识别模型的得到实体,则输出所得到的实体作为所识别的实体;
[0023]如果所述实体识别模型没有识别出实体,则输出所述实体识别模型的实体匹配预测结果。
[0024]本专利技术还提供一种用于实体识别的系统,包括获取模块、处理模块以及输出模块,其中:
[0025]获取模块用以接收输入的句子;
[0026]处理模块对输入的句子进行处理并识别得到实体;
[0027]输出模块用以返回输出结果,
[0028]所述处理模块为实体识别模型训练方法得到的实体识别模型。
[0029]进一步地,所述输出模块包括检索单元,用以当处理模块没有识别出实体时,从实体向量库中输出与预测相匹配的实体。
[0030]本专利技术还提供一种计算机可读存储介质,所述存储介质中存储有指令或者程序,所述指令或者程序由处理器加载并执行所述的实体识别的方法。
[0031]本专利技术还提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以所述的实体识别的方法。
[0032]本专利技术公开的方法和系统中所述模块,在实际应用中,即可以在一台目标服务器上部署多个模块,也可以每一模块独立部署在不同的目标服务器上,特别的,根据需要,为了提供更强大的计算处理能力,也可以根据需要将模块部署到集群目标服务器上。
[0033]由此可见,本专利技术先以离线的方式对第一神经网络进行预测,保留特征,再训练第二神经网络,大大减少了硬件的计算成本。
[0034]为了对本专利技术有更清楚全面的了解,下面结合附图,对本专利技术的具体实施方式进行详细描述。
附图说明
[0035]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0036]图1为本申请实施例的实体识别模型训练方法流程示意图。
具体实施方式
[0037]请参阅图1,本专利技术为解决现有技术中存在的技术问题,提出一种实体识别模型训练方法,包括步骤:
[0038]S1:构建实体识别模型,所述实体识别模型包括第一神经网路和第二神经网路;
[0039]S2:对第一神经网络进行离线预测:将训练数据输入第一神经网路,得到第一神经网络的输出层的特征,并保存预测的每个样本的logits:
[0040]S3:加载第一神经网络的预测结果和第二神经网络;
[0041]S4:对第二神经网络进行压缩处理;
[0042]S5:计算第一神经网络离线预测的logits的损失和第二神经网络在线预测的logits的损失;
[0043]S6:计算第二神经网络的总损失,根据总损失更新第二神经网络参数。
[0044]下面结合各种优选的实施方式说明本申请的技术方案。
[0045]本申请实施例中,构建实体识别模型包括第一神经网络和第二神经网络,为了进一步优化,本申请设置第一神经网络的复杂会比第二神经网络要复杂。其中,第一神经网络的模型采用12层transformer的bert构建。第二神经网络的模型采用2层transformer作为特征提取器。当然作为变化的实施方式,也可以使用其他适合用于抽取句子特征的神经网络模型或者结构。
[0046]在上述步骤S5中,本申请实施例采用MSE损失函数计算第一神经网络离线预测的logits和第二神经网络在线预测的logits的损失。
[0047]为了进一步优化网络的训练成本,本申请还对第二神经网络进行压缩处理,具体压缩方法可以使用现有技术来进行压缩,从而进一步减少了第二神经网络的模型复杂度,大大减少了硬件上的计算成本。
[0048]在采取压缩之后,为了进一步优化第二神经网络,还需要考虑设置合适的损失函数来进行计算。为此,本申请提出一种优选的实施方式,第二神经网络的总损失为将第一神经网络离线预测的logits的损失、第二神经网络在线预测的logits的损失和交叉熵损失进行加权求和。
[0049]由此可见,本申请先以离线的方式对第一神经网络进行预测,保留特征,再训练第二神经网络,大大减少了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体识别模型训练方法,其特征是,包括步骤:S1:构建实体识别模型,所述实体识别模型包括第一神经网路和第二神经网路;S2:对第一神经网络进行离线预测:将训练数据输入第一神经网路,得到第一神经网络的输出层的特征,并保存预测的每个样本的logits:S3:加载第一神经网络的预测结果和第二神经网络;S4:对第二神经网络进行压缩处理;S5:计算第一神经网络离线预测的logits的损失和第二神经网络在线预测的logits的损失;S6:计算第二神经网络的总损失,根据总损失更新第二神经网络参数。2.如权利要求1所述的实体识别模型训练方法,其特征是,第二神经网络的总损失为将第一神经网络离线预测的logits的损失、第二神经网络在线预测的logits的损失和交叉熵损失进行加权求和。3.如权利要求1所述的实体识别模型训练方法,其特征是,第一神经网络的模型采用12层transformer的bert构建。4.如权利要求1所述的实体识别模型训练方法,其特征是,第二神经网络的模型采用2层transformer作为特征提取器。5.一种实体识别的方法,包括步骤:接收输入的句子;实体识别模型对输入的句子进行处理;返回输出结果,其特征是,所述神经网络为权利要求1至...

【专利技术属性】
技术研发人员:曾祥云朱姬渊
申请(专利权)人:上海易康源医疗健康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1