当前位置: 首页 > 专利查询>葛航专利>正文

基于已知标签学习未知标签的实体识别方法、装置及应用制造方法及图纸

技术编号：34433243 阅读：31 留言：0更新日期：2022-08-06 16:13

本申请提出了一种基于已知标签学习未知标签的实体识别方法、装置及应用，通过已有标签的预定义类别样本在第一训练模型和第二训练模型中进行处理，训练得到二分类器，再利用二分类器来预测未知标签的未定义类别样本的新的类别，通过已有标签的已有特征去推导和识别新的未知标签的类别，进而减少在实体识别任务上的数据标注的工作量，在进行迁移学习时能够减少对目标数据库数据量的要求，降低部署环境硬件和数据库要求。实体识别模型可以让已知标签的实体样本在向量空间上聚合，以推导相关任务的未知标签的实体样本。任务的未知标签的实体样本。任务的未知标签的实体样本。

全部详细技术资料下载

【技术实现步骤摘要】
基于已知标签学习未知标签的实体识别方法、装置及应用

[0001]本申请涉及实体识别领域，特别是涉及基于已知标签学习未知标签的实体识别方法、装置及应用。

技术介绍

[0002]实体识别（Name Entity Recognition，NER）是一种信息抽取技术，在一段文本中将预先定义好的实体类型（人名，机构，地名，画像标签等）识别出来，它是自然语言处理中一个非常重要且基础的问题。实体识别模型的识别精准度很大程度地取决于训练样本的数量，然而在特殊应用场景中并无法提供大数据量的训练样本，比如应用于医疗领域的健康画像实体识别就存在训练类别及样本数据严重不足的情况。这是由于常规实体识别方法只能识别预定义类别的实体，无法自动发现潜在的新类别，导致已训练的实体识别模型在新的数据库中部署时依旧需要很大数据量的迁移学习，增加了数据标注的工作量。
[0003]现有技术CN111563165B提供了一种基于锚点词定位和训练语句增广的语句分类方法，通过把识别率最差的语句加入增广集，使用近义词替换锚点词形成新语句扩充增广集，提高每次循环对识别...

【技术保护点】

【技术特征摘要】
1.一种基于已知标签学习未知标签的实体识别方法，其特征在于，包括以下步骤：获取可识别已知标签对应的类别的第一训练模型；初始化所述第一训练模型得到第二训练模型；标注每一训练数据得到标注已知标签的预定义类别样本以及标注未知标签的未定义类别样本；将所述预定义类别样本输入到所述第一训练模型，得到对应每一已知标签的第一训练向量；将所述预定义类别样本输入到所述第二训练模型，得到对应每一已知标签的第一原始向量；基于两已知标签的第一训练向量和所述第一原始向量之间的距离变化判断所述已知标签的聚合结果，基于所述聚合结果训练二分类器并对同一类别的已知标签计算置信度，得到训练后的分类模型；将所述未定义类别样本输入到第一训练模型，得到对应每一未知标签的第二训练向量；将所述未定义类别样本输入到第二训练模型，得到对应的每一未知标签的第二原始向量；基于两未知标签的第二训练向量和所述第二原始向量之间的距离变化判断所述未知标签的聚合结果，基于所述聚合结果将两未知标签输入到二分类器中输出预测置信度，若预测置信度大于设定阈值则产生新的类别。2.根据权利要求1所述的基于已知标签学习未知标签的实体识别方法，其特征在于，若所述未知标签产生新的类别，以所述未知标签和新的类别重新标记所述预定义类别样本得到已定义类别样本，利用所述已定义类别样本训练第二训练模型得到联合分类模型。3.根据权利要求1所述的基于已知标签学习未知标签的实体识别方法，其特征在于，在“基于两已知标签的第一训练向量和所述第一原始向量之间的距离变化判断所述已知标签的聚合结果”步骤中，计算两第一训练向量之间的距离为第一距离，计算两所述第一原始向量之间的距离为第二距离，比较所述第一距离和所述第二距离的差值，若差值大于聚合设定阈值，则判断对应的两已知标签发生聚合。4.根据权利要求1所述的基于已知标签学习未知标签的实体识别方法，其特征在于，在“基于所述聚合结果训练二分类器并对同一类别的已知标签计算置信度，得到训练后的分类模型”步骤中，若聚合结果显示发生聚合，则对同一类别的已知标签进行两两组合计算置信度。5.根据权利要求1所述的基于已知标签学习未知标签的实体识别方法，其特征在于，在“基于两第二训练向量和所述第二原始向量之间的距离变化判断所述预定义类别样本的聚合结果”步骤中，计算两第二训练向量之间的距离为第三距离，计算两所述第二原始向量之间的距离为第四距离，比较所述第三距离和所述第四距...

【专利技术属性】
技术研发人员：葛航，
申请(专利权)人：葛航，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人