本申请的实施例提供了一种训练模型的方法、命名实体识别方法和装置,该模型训练方法包括:获取具有标记的样本集;将文本信息输入预训练的BERT模型,得到对应文本信息的特征向量;在特征向量中注入对抗扰动生成对抗样本;将对抗样本作为条件随机场的输入,将标注字符作为条件随机场的输出,以最大化真实标注序列的对数概率为目的训练条件随机场,以完成识别模型的训练。本申请由于在训练过程中增加对抗样本,从而能够增强字的语义表示,挖掘企业描述文本的局部特征以及字的多重语义信息,同时能够增强模型的稳健型和泛化能力,进而提高了中文企业主营产品命名实体识别的准确率、查全率和识别效率。率和识别效率。率和识别效率。
【技术实现步骤摘要】
训练模型的方法、命名实体识别方法和装置
[0001]本申请的实施例涉及自然语言处理
,尤其涉及一种训练模型的方法、命名实体识别方法和装置。
技术介绍
[0002]企业经营生产的主要产品是企业画像的重要部分,从海量的企业产品信息中识别出主要经营产品,能够为企业行业分类、同行推荐等上层应用提供重要的信息支撑。企业的主营产品是商业信息里面的一项关键信息,面向企业产品信息文本中的主营产品命名实体识别成为企业画像中的一项核心技术。
[0003]基于词典的命名实体识别方法严重依赖于词典库,无法识别未登录词,且无法识别实体嵌套的情形。基于规则的命名实体识别方法在构建规则时需要语言学背景知识,中文表达具有多样性,规则难以枚举、容易冲突,且不具有迁移性。基于神经网络的命名实体识别方法,表征长文本句子语义向量很弱,导致主营产品识别不全。基于预训练语言模型微调的方法,具有很强的句子语义向量表示,但是遇到训练样本未出现的句式,会出现识别不准的问题,中文句式种类很多,训练样本难以覆盖全面。
[0004]因此,亟待提出一种能够有效提高企业主营产品命名实体识别准确率高、查全率高、识别效率高的命名实体识别方法。
技术实现思路
[0005]本申请的实施例提供了一种训练模型的方法、命名实体识别方法和装置,能够增强字的语义表示,挖掘企业描述文本的局部特征以及字的多重语义信息,同时增强了模型的稳健性和泛化能力,提高了中文企业主营产品命名实体识别的准确率、查全率和识别效率。
[0006]在本申请的第一方面,提供了一种训练用于识别企业主营产品的命名实体模型的方法,包括:
[0007]获取具有标记的样本集,其中,所述样本集中的样本包括描述企业产品的文本信息和所述文本信息的标注字符;
[0008]将所述文本信息输入预训练的BERT模型,得到对应所述文本信息的特征向量;
[0009]在所述特征向量中注入对抗扰动生成对抗样本;
[0010]将所述对抗样本作为条件随机场的输入,将所述标注字符作为所述条件随机场的输出,以最大化真实标注序列的对数概率为目的训练所述条件随机场,以完成识别模型的训练。
[0011]在一些可能的实现方式中,所述在所述特征向量中增加对抗扰动生成对抗样本包括:
[0012]通过对抗学习在所述特征向量中注入所述对抗扰动,生成所述对抗样本:
[0013][0014]其中,为训练集,x为特征向量,y为标签,θ为模型参数,L(x,y;θ)为单个样本的损失函数,Δx为对抗扰动,Ω为扰动空间。
[0015]在一些可能的实现方式中,所述对抗扰动采用下式进行计算:
[0016][0017]其中,为对x的梯度,x为特征向量,y为标签,θ为模型参数,L(x,y;θ) 为单个样本的损失函数,Δx为对抗扰动。
[0018]在一些可能的实现方式中,还包括:采用L2归一化,对所述对抗扰动进行标准化处理:
[0019][0020]其中,为对x的梯度,x为特征向量,y为标签,θ为模型参数,L(x,y;θ) 为单个样本的损失函数,Δx为对抗扰动。
[0021]在一些可能的实现方式中,所述获取具有标记的样本集包括:
[0022]获取描述企业产品的所述文本信息;
[0023]基于BIO标注方式,对所述文本信息进行标注;
[0024]将所述文本信息和所述标注字符作为所述样本集;
[0025]其中,所述BIO标注规则包括:若一个字符单元是一个主营产品的开始字符,则标注为B
‑
nice;若一个字符单元是一个主营产品词的非开始字符,则标注为I
‑
nice;若一个字符单元不属于主营产品词,则标注为O。
[0026]在本申请的第二方面,提供了一种命名实体识别方法,包括:
[0027]获取待识别文本信息,所述待识别文本信息用于描述企业产品;
[0028]根据所述待识别文本信息,通过权利要求1所述的方法训练完成的识别模型,确定所述待识别文本信息对应的概率最大的BIO标记序列;
[0029]根据所述概率最大的BIO标记序列,确定企业主营产品。
[0030]在本申请的第三方面,提供了一种训练用于识别企业主营产品的命名实体模型的装置,包括:
[0031]第一获取模块,用于获取具有标记的样本集,其中,所述样本集中的样本包括描述企业产品的文本信息和所述文本信息的标注字符;
[0032]向量提取模块,用于将所述文本信息输入预训练的BERT模型,得到对应所述文本信息的特征向量;
[0033]对抗生成模块,用于在所述特征向量中注入对抗扰动生成对抗样本;
[0034]模型训练模块,用于将所述对抗样本作为条件随机场的输入,将所述标注字符作为所述条件随机场的输出,以最大化真实标注序列的对数概率为目的训练所述条件随机场,以完成识别模型的训练。
[0035]在本申请的第四方面,提供了一种命名实体识别装置,包括:
[0036]第二获取模块,用于获取待识别文本信息,所述待识别文本信息用于描述企业产
品;
[0037]第一确定模块,用于根据所述待识别文本信息,通过权利要求7所述的装置训练完成的识别模型,确定所述待识别文本信息对应的概率最大的BIO 标记序列;
[0038]第二确定模块,用于根据所述概率最大的BIO标记序列,确定企业主营产品。
[0039]在本申请的第五方面,提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任一项所述的方法或如第二方面所述的方法。
[0040]在本申请的第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面中任一项所述的方法或如第二方面所述的方法。
[0041]本申请实施例提供的训练模型的方法、命名实体识别方法和装置中,通过获取具有标记的样本集,将样本集中的文本信息输入预训练的BERT模型,得到对应文本信息的特征向量,在特征向量中注入对抗扰动生成对抗样本,将对抗样本作为条件随机场的输入,将标注字符作为条件随机场的输出,以最大化真实标注序列的对数概率为目的训练条件随机场,以完成识别模型的训练,在训练过程中增加对抗扰动,从而能够增强字的语义表示,挖掘企业描述文本的局部特征以及字的多重语义信息,能够增强模型的稳健型和泛化能力,进而提高了中文企业主营产品命名实体识别的准确率、查全率和识别效率。
[0042]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。
附图说明
[0043]结合附图并参考以下详细说明,本申请各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
[0044]图1示出了适于用来实现本本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种训练用于识别企业主营产品的命名实体模型的方法,其特征在于,包括:获取具有标记的样本集,其中,所述样本集中的样本包括描述企业产品的文本信息和所述文本信息的标注字符;将所述文本信息输入预训练的BERT模型,得到对应所述文本信息的特征向量;在所述特征向量中注入对抗扰动生成对抗样本;将所述对抗样本作为条件随机场的输入,将所述标注字符作为所述条件随机场的输出,以最大化真实标注序列的对数概率为目的训练所述条件随机场,以完成识别模型的训练。2.根据权利要求1所述的训练方法,其特征在于,所述在所述特征向量中增加对抗扰动生成对抗样本包括:通过对抗学习在所述特征向量中注入所述对抗扰动,生成所述对抗样本:其中,为训练集,x为特征向量,y为标签,θ为模型参数,L(x,y;θ)为单个样本的损失函数,Δx为对抗扰动,Ω为扰动空间。3.根据权利要求2所述的训练方法,其特征在于,所述对抗扰动采用下式进行计算:其中,为对x的梯度,x为特征向量,y为标签,θ为模型参数,L(x,y;θ)为单个样本的损失函数,Δx为对抗扰动。4.根据权利要求3所述的训练方法,其特征在于,还包括:采用L2归一化,对所述对抗扰动进行标准化处理:其中,为对x的梯度,x为特征向量,y为标签,θ为模型参数,L(x,y;θ)为单个样本的损失函数,Δx为对抗扰动。5.根据权利要求1所述的训练方法,其特征在于,所述获取具有标记的样本集包括:获取描述企业产品的所述文本信息;基于BIO标注方式,对所述文本信息进行标注;将所述文本信息和所述标注字符作为所述样本集;其中,所述BIO标注规则包括:若一个字符单元是一个主营产品的开始字符,则标注为B
‑
nice;若一个字符单元是一个主营产品词的非开始字符,则标注为I
‑
n...
【专利技术属性】
技术研发人员:蔡青山,王永强,
申请(专利权)人:企知道网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。