一种基于渐进迁移学习的细粒度实体分类方法技术

技术编号:33630106 阅读:26 留言:0更新日期:2022-06-02 01:32
本发明专利技术提出了一种基于渐进迁移学习的细粒度实体分类方法,计算目标域的粗粒度标签与源域所有粗粒度标签的语义相似度,以及目标域的细粒度标签与源域所有细粒度标签的语义相似度;构建粗粒度标签映射集合和细粒度标签映射集合,计算语义相似度权重;通过BiLSTM网络提取语句的语义特征,得到源域粗粒度标签语句语义特征集合、细粒度标签语句语义特征集合以及目标域语义特征;计算整体粗粒度语义特征和整体细粒度语义特征,确定总的语义特征;将总的语义特征输入到softmax分类器,预测目标域选取的细粒度标签对应的实体标签;训练更新BiLSTM网络与softmax分类器参数,得到基于渐进迁移学习的细粒度实体分类模型。本发明专利技术提高了目标域细粒度实体分类准确性。了目标域细粒度实体分类准确性。了目标域细粒度实体分类准确性。

【技术实现步骤摘要】
一种基于渐进迁移学习的细粒度实体分类方法


[0001]本专利技术涉及信息处理领域,具体涉及一种基于渐进迁移学习的细粒度实体分类方法。

技术介绍

[0002]在自然语言处理(NLP)领域,细粒度实体分类是指将句子中的实体类别映射到一个层级化、精细化的实体类别体系中。由于细粒度实体语料标注难度较大,在实际应用中,往往难以获得与领域相关的大规模高质量标注语料,因此如何在稀疏标注语料的领域进行细粒度实体分类是一个非常具有挑战性的问题。传统基于迁移学习的方法主要分为模型迁移和标签迁移两种方法,其中,模型迁移方法将源域的模型参数迁移至目标域,从而提高目标领域的细粒度实体分类准确性;标签迁移方法主要根据源域和目标域的标签语义相似性,将源域的语义特征迁移目标域,实现目标域的细粒度实体分类。然而,传统方法主要存在以下问题: (1)模型迁移方法要求源域和目标域都含有大量标注语料,但在现实应用中标注语料是非常稀缺的;(2)在标签映射过程中,标签迁移方法将细粒度类别视作独立标签,忽略了类别之间的层级关系,导致迁移后的类别语义不准确;(3) 由于缺少目标域标注语料,标签本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于渐进迁移学习的细粒度实体分类方法,其特征在于,步骤如下:步骤1,实体标签映射权重计算随机选取一个目标域中最后一层级标签作为目标域的细粒度标签,获取该细粒度标签的第一层级标签作为目标域的粗粒度标签;计算目标域的粗粒度标签与源域所有粗粒度标签的语义相似度,以及目标域的细粒度标签与源域所有细粒度标签的语义相似度;按相似度进行排序,构建粗粒度标签映射集合和细粒度标签映射集合,计算语义相似度权重;步骤2,语义特征提取针对源域的粗粒度标签映射集合和细粒度标签映射集合,从每个标签对应的语句中随机挑选一条,通过BiLSTM网络提取语句的语义特征,得到源域粗粒度标签语句语义特征集合和细粒度标签语句语义特征集合;针对目标域选取的细粒度标签,从标签对应的标注语句中随机挑选一条,通过BiLSTM网络提取语句的语义特征,得到目标域语义特征;步骤3,语义特征整合根据源域粗粒度标签语句语义特征和细粒度标签语句语义特征,结合语义相似度权重,计算整体粗粒度语义特征和整体细粒度语义特征,进而确定总的语义特征;步骤4,细粒度实体分类将总的语义特征输入到softmax分类器,预测目标域选取的细粒度标签对应的实体标签;步骤5,模型训练和预测将训练语料通过步骤1到步骤4多次进行迭代,训练更新BiLSTM网络与softmax分类器参数,训练完之后,得到基于渐进迁移学习的细粒度实体分类模型,将需要预测语句输入到模型中,即得到该语句细粒度实体分类的输出结果。2.根据权利要求1所述的基于渐进迁移学习的细粒度实体分类方法,其特征在于,步骤1,计算目标域的粗粒度标签与源域所有粗粒度标签的语义相似度,以及目标域的细粒度标签与源域所有细粒度标签的语义相似度,具体方法为:设定源域数据集为{l
A
|l
A
∈L
A
,t
A
|t
A
∈T
A
},目标域数据集为{l
B
|l
B
∈L
B
,t
B
|t
B
∈T
B
},L
A
和T
A
为源域的语句集合和标签集合,L
B
和T
B
为目标域的语句集合和标签集合,挑选目标域中任意一个标签意一个标签的粗粒度标签为细粒度标签为分别计算目标域粗粒度标签与源域所有粗粒度标签目标域细粒度标签与源域细粒度标签标签的相似度,其计算公式如下:其中,X
A
与X
B
分别为源域标签与目标域标签的词向量。3.根据权利要求1所述的基于渐进迁移学习的细粒度实体分类方法,其特征在于,步骤1,按相似度大小进行排序,构建粗粒度标...

【专利技术属性】
技术研发人员:胡岩峰向镐鹏乔雪彭晨姜添闵飞李翔韦正勇
申请(专利权)人:苏州空天信息研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1