当前位置: 首页 > 专利查询>浙江大学专利>正文

知识表征解耦的分类模型的微调方法、装置和应用制造方法及图纸

技术编号:35416391 阅读:31 留言:0更新日期:2022-11-03 11:14
本发明专利技术公开了一种知识表征解耦的分类模型的微调方法、装置和应用,将知识表征与分类模型解耦,存储于知识库中,应用的时候根据检索进行匹配聚合,这样限制了学习模型的死记硬背,提高了模型的泛化能力,同时利用KNN从知识库中检索得到邻近实例短语作为连续的神经示例,利用神经示例指导分类模型训练和纠正分类模型预测,提高了分类模型在少样本和零样本场景下的能力,当数据量足够多时,知识库相应也拥有更佳更丰富的信息,分类模型在全监督场景下表现也十分突出。下表现也十分突出。下表现也十分突出。

【技术实现步骤摘要】
知识表征解耦的分类模型的微调方法、装置和应用


[0001]本专利技术属于自然语言处理
,具体涉及一种知识表征解耦的分类模型的微调方法、装置和应用。

技术介绍

[0002]预训练分类模型通过从海量数据中深度学习知识,在自然语言处理领域取得了激动人心的显著成果。预训练分类模型通过设计通用的预训练任务,如遮蔽掩码建模(MLM)、下句预测(NSP)等,从大规模的语料中进行训练,在应用到下游关系分类、情感分类等分类任务时,只需使用少量数据微调预训练分类模型,便能取得良好性能。
[0003]提示学习的出现,减少了预训练分类模型在微调阶段与预训练阶段的差异性,使得预训练分类模型进一步具备了少样本和零样本学习的能力。提示学习可分为离散提示和连续提示,离散提示通过人工构建离散的提示模板来转换输入形式,连续提示在输入序列中添加一系列可学习的连续嵌入向量,减少了提示工程。
[0004]然而,最近的研究表明当数据量及其匮乏时,预训练分类模型的泛化能力不尽人意。一个潜在的原因在于,参数化模型通过记忆的方式很难掌握稀疏和困难样本,导致不充分的泛化能力。当数据呈现长尾分布并且具有小的非典型实例集群,预训练分类模型倾向于通过死记硬背这些非典型实例而不是通过学习更通用的模式知识来进行预测,这会导致预训练分类模型学习的知识表示在下游分类任务中表现差,分类结果准确率不高。
[0005]专利文献CN101127042A公开了一种基于分类模型的情感分类方法,专利文献CN108363753A公开了一种评论文本情感分类模型训练与情感分类方法、装置及设备,这两篇专利申请均是通过提取文本的嵌入向量后,基于嵌入向量来构建进行情感分类。这两种方式当样本数据匮乏时,由于提取的嵌入向量不佳,就难实现情感分类的准确性。

技术实现思路

[0006]针对现有技术所存在的上述技术问题,本专利技术的目的是提供一种知识表征解耦的分类模型的微调方法、装置和应用,通过将分类模型得到的知识表征解耦成知识库,该知识库作为相似度引导来优化分类模型,以提高分类模型知识表示的能力和准确性,进而提高下游分类任务的分类准确性。
[0007]为实现上述专利技术目的,实施例提供的一种知识表征解耦的分类模型的微调方法,包括以下步骤:
[0008]步骤1,构建用于检索的知识库,知识库中存有多个实例短语,每个实例短语以键值对的形式存储,其中键存储实例词语的嵌入向量,值存储实例短语的标签真值;
[0009]步骤2,构建包含预训练语言模型、预测分类模块的分类模型;
[0010]步骤3,利用预训练语言模型提取输入实例文本中遮蔽词的第一嵌入向量,并以该第一嵌入向量作为第一查询向量,针对每个标签类别从知识库中查询与第一查询向量最邻近的多个实例短语作为第一邻近实例短语,将所有第一邻近实例短语与第一查询向量聚合
得到的聚合结果作为预训练语言模型的输入数据;
[0011]步骤4,利用预训练语言模型提取输入数据中遮蔽词的第二嵌入向量,利用预测分类模块对第二嵌入向量进行分类预测,以得到分类预测概率,基于该分类预测概率和遮蔽词的标签真值计算分类损失;
[0012]步骤5,以遮蔽词的标签真值来构建权重因子,根据权重因子对分类损失进行调整,使分类损失更关注错误分类实例;
[0013]步骤6,利用调整后的分类损失优化分类模型的参数,得到参数优化后的分类模型。
[0014]为实现上述专利技术目的,实施例提供的一种知识表征解耦的分类模型的微调装置,包括:
[0015]知识库构建和更新单元,用于构建用于检索的知识库,知识库中存有多个实例短语,每个实例短语以键值对的形式存储,其中键存储实例词语的嵌入向量,值存储实例短语的标签真值;
[0016]分类模型构建单元,用于构建包含预训练语言模型、预测分类模块的分类模型;
[0017]查询及聚合单元,用于利用预训练语言模型提取输入实例文本中遮蔽词的第一嵌入向量,并以该第一嵌入向量作为第一查询向量,针对每个标签类别从知识库中查询与第一查询向量最邻近的多个实例短语作为第一邻近实例短语,将所有第一邻近实例短语与第一查询向量聚合得到的聚合结果作为预训练语言模型的输入数据;
[0018]损失计算单元,用于利用预训练语言模型提取输入数据中遮蔽词的第二嵌入向量,利用预测分类模块对第二嵌入向量进行分类预测,以得到分类预测概率,基于该分类预测概率和遮蔽词的标签真值计算分类损失;
[0019]损失调整单元,用于以遮蔽词的标签真值来构建权重因子,根据权重因子对分类损失进行调整,使分类损失更关注错误分类实例;
[0020]参数优化单元,用于利用调整后的分类损失优化分类模型的参数,得到参数优化后的分类模型。
[0021]为实现上述专利技术目的,实施例还提供了一种利用知识表征解耦的分类模型的任务分类方法,所述任务分类方法应用上述微调方法构建的知识库和参数优化后的分类模型,包括以下步骤:
[0022]步骤1,利用参数优化后的预训练语言模型提取输入实例文本中遮蔽词的第三嵌入向量,并以该第三嵌入向量作为第三查询向量,针对每个标签类别从知识库中查询与第三查询向量最邻近的多个实例短语作为第三邻近实例短语,将所有第三邻近实例短语与第三查询向量聚合得到的聚合结果作为预训练语言模型的输入数据;
[0023]步骤2,利用参数优化后的预训练语言模型提取输入数据中遮蔽词的第四嵌入向量,针对每类从知识库中查询与第四查询向量最邻近的多个实例文本作为第四邻近实例文本,依据第四查询向量与第四邻近实例文本之间的相似度来计算类别相关概率;
[0024]步骤3,利用参数优化后的预测分类模块对第四嵌入向量进行分类预测,以得到分类预测概率;
[0025]步骤4,以每个类别相关概率和分类预测概率的加权结果作为总分类预测结果。
[0026]与现有技术相比,本专利技术具有的有益效果至少包括:
[0027]将知识表征与分类模型解耦,存储于知识库中,应用的时候根据检索进行匹配聚合,这样限制了学习模型的死记硬背,提高了模型的泛化能力,同时利用KNN从知识库中检索得到邻近实例短语作为连续的神经示例,利用神经示例指导分类模型训练和纠正分类模型预测,提高了分类模型在少样本和零样本场景下的能力,当数据量足够多时,知识库相应也拥有更佳更丰富的信息,分类模型在全监督场景下表现也十分突出。
附图说明
[0028]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
[0029]图1是实施例提供的知识表征解耦的分类模型的微调方法的流程图;
[0030]图2是实施例提供的分类模型的结构及训练示意图和知识库更新示意图以及分类预测示意图;
[0031]图3是实施例提供的利用知识表征解耦的分类模型的任务分类方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识表征解耦的分类模型的微调方法,其特征在于,包括以下步骤:步骤1,构建用于检索的知识库,知识库中存有多个实例短语,每个实例短语以键值对的形式存储,其中键存储实例词语的嵌入向量,值存储实例短语的标签真值;步骤2,构建包含预训练语言模型、预测分类模块的分类模型;步骤3,利用预训练语言模型提取输入实例文本中遮蔽词的第一嵌入向量,并以该第一嵌入向量作为第一查询向量,针对每个标签类别从知识库中查询与第一查询向量最邻近的多个实例短语作为第一邻近实例短语,将所有第一邻近实例短语与第一查询向量聚合得到的聚合结果作为预训练语言模型的输入数据;步骤4,利用预训练语言模型提取输入数据中遮蔽词的第二嵌入向量,利用预测分类模块对第二嵌入向量进行分类预测,以得到分类预测概率,基于该分类预测概率和遮蔽词的标签真值计算分类损失;步骤5,以遮蔽词的标签真值来构建权重因子,根据权重因子对分类损失进行调整,使分类损失更关注错误分类实例;步骤6,利用调整后的分类损失优化分类模型的参数,得到参数优化后的分类模型。2.根据权利要求1所述的知识表征解耦的分类模型的微调方法,其特征在于,步骤2中,采用KNN检索从知识库中查询与第一查询向量最邻近的多个实例短语作为第一邻近实例短语,并通过以下聚合方式聚合所有第一邻近实例短语与第一查询向量:语,并通过以下聚合方式聚合所有第一邻近实例短语与第一查询向量:其中,I表示聚合得到的聚合结果,表示经过提示模板序列化处理的输入实例文本的初始向量,h
q
表示输入实例文本中遮蔽词的第一查询向量,表示第l类标签中第i个第一邻近实例短语的嵌入向量,m为第一邻近实例短语总量,表示的softmax值,表示与第一查询向量之间的相关性,e(v
l
)表示第一邻近实例短语的标签真值,L表示标签总量。3.根据权利要求1所述的知识表征解耦的分类模型的微调方法,其特征在于,步骤5中,调整后的分类损失L表示为:L=(1+βF(p
knn
))L
CE
其中,L
CE
表示分类损失,β表示调节参数,F(p
knn
)表示权重因子,表示为F(p
knn
)=

log(p
knn
),p
knn
表示遮蔽词的标签真值。4.根据权利要求1所述的知识表征解耦的分类模型的微调方法,其特征在于,包括:以分类预测概率和遮蔽词的标签真值的交叉熵来计算分类损失。5.根据权利要求1

4任一项所述的知识表征解耦的分类模型的微调方法,其特征在于,还包括:利用预训练语言模型提取的第一嵌入向量及其对应的标签真值形成新实例短语,更新到知识库中。
6.根据权利要求1所述的知识表征解耦的分类模型的微调装置,其特征在于,包括:知识库构建和更新单元,用于构建用于检索的知识库,知识库中存有多个实例短语,每个实例短语以键值对的形式存储,其中键存储实例词语的嵌入向量,值存储实例短语的标签真值;分类模型构建单元,用于构建包含预训练语言模型、预测分类模块的分类模型;查询及聚合单元,用于利用预训练语言模型提取输入实例文本中遮蔽词的第一嵌入向量,并以该第一嵌入向量作为第一查询向量,针对每个标签类别从...

【专利技术属性】
技术研发人员:张宁豫李磊陈想陈华钧
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1