一种基于小样本的命名实体识别方法、装置及相关介质制造方法及图纸

技术编号:35529824 阅读:14 留言:0更新日期:2022-11-09 14:53
本发明专利技术公开了一种基于小样本的命名实体识别方法、装置及相关介质,该方法包括:获取样本数据,并对所述样本数据标注实体标签,以此构建第一样本集;在所述第一样本集中选取枢纽字符,并基于所述枢纽字符构建标签映射空间;利用所述标签映射空间将所述第一样本集映射为第二样本集;利用所述第二样本集对预训练语言模型进行微调;采用微调后的预训练语言模型对指定文本进行命名实体识别预测。本发明专利技术通过选取最具有代表性的枢纽字符构建标签映射空间,以对样本数据进行映射,然后利用映射得到的第二样本集对预训练语言模型进行微调,从而利用微调后的预训练语言模型进行命名实体识别预测,如此可以提高命名实体识别效率和精度。度。度。

【技术实现步骤摘要】
一种基于小样本的命名实体识别方法、装置及相关介质


[0001]本专利技术涉及命名实体识别
,特别涉及一种基于小样本的命名实体识别方法、装置及相关介质。

技术介绍

[0002]命名实体识别是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。随着当前信息产业的不断发展,各类电子化文本数量急剧增加,从中快速高效地获取结构化信息的难度也越来越大,因此命名实体识别技术被应用到各个领域用于准确、高效地提取出文本中的关键信息。
[0003]目前处理实体识别任务的主流方法是基于深度学习的方法,其常见的做法是对文本进行编码后,利用深度学习模型捕获文本的语义特征,再输入到分类层对文本中的实体进行识别和分类。该方法的一个不足之处在于,其要求训练集的样本数量具有一定的规模,模型经过大量样本训练后才能有效地捕捉实体信息。而在一些特定领域,存在着样本数量少、搜集难度大成本高等问题。针对上述问题,现有技术也提出针对小样本的基于提示学习的神经网络模型。但是这类基于提示学习的方法需要枚举出所有潜在模板或实体进行推理预测,如此便会耗费大量的时间,并且由于微调目标和预训练语言模型不一致,在一定程度上同样会影响模型的识别效果。

技术实现思路

[0004]本专利技术实施例提供了一种基于小样本的命名实体识别方法、装置、计算机设备及存储介质,旨在提高命名实体识别效率和精度。
[0005]第一方面,本专利技术实施例提供了一种基于小样本的命名实体识别方法,包括:
[0006]获取样本数据,并对所述样本数据标注实体标签,以此构建第一样本集;
[0007]在所述第一样本集中选取枢纽字符,并基于所述枢纽字符构建标签映射空间;
[0008]利用所述标签映射空间将所述第一样本集映射为第二样本集;
[0009]利用所述第二样本集对预训练语言模型进行微调;
[0010]采用微调后的预训练语言模型对指定文本进行命名实体识别预测。
[0011]第二方面,本专利技术实施例提供了一种基于小样本的命名实体识别装置,包括:
[0012]标签标注单元,用于获取样本数据,并对所述样本数据标注实体标签,以此构建第一样本集;
[0013]字符选取单元,用于在所述第一样本集中选取枢纽字符,并基于所述枢纽字符构建标签映射空间;
[0014]样本映射单元,用于利用所述标签映射空间将所述第一样本集映射为第二样本集;
[0015]模型微调单元,用于利用所述第二样本集对预训练语言模型进行微调;
[0016]识别预测单元,用于采用微调后的预训练语言模型对指定文本进行命名实体识别
预测。
[0017]第三方面,本专利技术实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的基于小样本的命名实体识别方法。
[0018]第四方面,本专利技术实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于小样本的命名实体识别方法。
[0019]本专利技术实施例提供了一种基于小样本的命名实体识别方法、装置、计算机设备及存储介质,该方法包括:获取样本数据,并对所述样本数据标注实体标签,以此构建第一样本集;在所述第一样本集中选取枢纽字符,并基于所述枢纽字符构建标签映射空间;利用所述标签映射空间将所述第一样本集映射为第二样本集;利用所述第二样本集对预训练语言模型进行微调;采用微调后的预训练语言模型对指定文本进行命名实体识别预测。本专利技术实施例通过选取最具有代表性的枢纽字符构建标签映射空间,以对样本数据进行映射,然后利用映射得到的第二样本集对预训练语言模型进行微调,从而利用微调后的预训练语言模型进行命名实体识别预测,如此可以提高命名实体识别效率和精度。
附图说明
[0020]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1为本专利技术实施例提供的一种基于小样本的命名实体识别方法的流程示意图;
[0022]图2为本专利技术实施例提供的一种基于小样本的命名实体识别方法的网络结构示意图;
[0023]图3为本专利技术实施例提供的一种基于小样本的命名实体识别方法的预测流程示意图;
[0024]图4为本专利技术实施例提供的一种基于小样本的命名实体识别装置的示意性框图。
具体实施方式
[0025]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0027]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0028]还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是
指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0029]下面请参见图1,图1为本专利技术实施例提供的一种基于小样本的命名实体识别方法的流程示意图,具体包括:步骤S101~S105。
[0030]S101、获取样本数据,并对所述样本数据标注实体标签,以此构建第一样本集;
[0031]S102、在所述第一样本集中选取枢纽字符,并基于所述枢纽字符构建标签映射空间;
[0032]S103、利用所述标签映射空间将所述第一样本集映射为第二样本集;
[0033]S104、利用所述第二样本集对预训练语言模型进行微调;
[0034]S105、采用微调后的预训练语言模型对指定文本进行命名实体识别预测。
[0035]本实施例首先对少量的样本数据进行实体标签标注,以得到第一样本集,接着在第一样本集选取最具有代表性的字符作为枢纽字符,并根据所述枢纽字符构建标签映射空间,以对第一样本集中的样本数据进行映射,得到对应的第二样本集。然后利用映射所述第二样本集对预训练语言模型进行微调,从而利用微调后的预训练语言模型进行命名实体识别预测,如此可以提高命名实体识别效率和精度。
[0036]在一实施例中,所述步骤S101包括:
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于小样本的命名实体识别方法,其特征在于,包括:获取样本数据,并对所述样本数据标注实体标签,以此构建第一样本集;在所述第一样本集中选取枢纽字符,并基于所述枢纽字符构建标签映射空间;利用所述标签映射空间将所述第一样本集映射为第二样本集;利用所述第二样本集对预训练语言模型进行微调;采用微调后的预训练语言模型对指定文本进行命名实体识别预测。2.根据权利要求1所述的基于小样本的命名实体识别方法,其特征在于,所述获取样本数据,并对所述样本数据标注实体标签,以此构建第一样本集,包括:将所述样本数据划分为命名实体文本和非命名实体文本;对所述命名实体文本标注实体标签;对所述非命名实体文本标注为O;基于标注结构构建得到所述第一样本集S1=<文本X,标签Y>。3.根据权利要求2所述的基于小样本的命名实体识别方法,其特征在于,所述在所述第一样本集中选取枢纽字符,并基于所述枢纽字符构建标签映射空间,包括:按照下式构建所述标签映射空间M:其中,x和y分别表示第一样本集中的文本和对应的实体标签,表示枢纽字符w对实体标签Li的代表程度指标,表示从所有字符V中选择出对实体标签L
i
代表程度指标最高的的枢纽字符w,tf(x=w,y=l
i
)表示所有被标注为L
i
的字符中枢纽字符w所出现的频率,idf(x=w)表示枢纽字符w普遍重要性的度量。4.根据权利要求3所述的基于小样本的命名实体识别方法,其特征在于,所述利用所述标签映射空间将所述第一样本集映射为第二样本集,包括:选取第一样本集中的实体标签;按照下式,对所述第一样本集中的实体标签对应的文本进行映射,以此得到包含文本和目标文本的所述第二样本集S2=<文本X,目标文本X

>:X'={x1,

,M(y
i
),

,x
n
}其中,X

表示被映射为第二样本集中的目标文本,M(
·
)表示标签映射空间,y
i
表示第一样本集中的实体标签,x1和x
n
表示第一样本集中的文本。5.根据权利要求4所述的基于小样本的命名实体识别方法,其特征在于,所述预训练语言模型为BERT预训练模型。6.根据权利要求5所述的基于小样本的命名实体识别方法,其特征在于,所述利用所述第二样本集对预训练语言模型进行微调,包括:将所述第二样本...

【专利技术属性】
技术研发人员:张黔王伟陈焕坤
申请(专利权)人:华润数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1