一种针对增强语言模型中知识图谱所有权验证方法技术

技术编号:41133466 阅读:46 留言:0更新日期:2024-04-30 18:04
本发明专利技术公开了一种针对增强语言模型中知识图谱所有权验证方法,其步骤包括:1)对于一个待保护的知识图谱集,对所述知识图谱集的每一知识图谱进行水印嵌入,将所选的水印子图嵌入到所述知识图谱集的每一知识图谱中;2)对于一待验证模型,对该待验证模型进行知识图谱蒸馏,获取蒸馏图谱;3)从所述蒸馏图谱提取所述水印子图,根据所提取出的水印子图在所述蒸馏图谱中出现的频率,如果该频率高于设定的阈值,则判定该待验证模型采用了该待保护的知识图谱集。本发明专利技术可以实现在不同增强方式的知识图谱增强语言模型场景中,只利用黑盒访问,实现精准、高效的水印验证,从而验证模型的所有权,可以保证水印的隐蔽性和鲁棒性。

【技术实现步骤摘要】

本专利技术属于软件技术、信息安全,涉及面向人工智能的安全技术,具体涉及一种黑盒场景下用于增强语言模型中知识图谱所有权验证方法。


技术介绍

1、预训练语言模型(language models,lms),如bert、roberta、xlnet和gpt-4,已经在自然语言处理和机器学习领域产生了重要影响。这些模型在涵盖了不同行业、教育等专业领域的各种应用场景中具有不俗的表现。然而,这些传统的仅基于文本语料库训练的语言模型也存在一些局限性。其中一个限制是训练数据中存在的无关或噪声信息可能影响模型的对正确知识的学习,从而削弱其预测能力。另一个问题是,这些通用模型在特定领域的任务中往往效果不佳,因为它们的训练语料往往缺乏特定领域的专业知识,而如果将模型迁移到这些专业知识领域上,又需要收集正确的领域语料进行微调。此外,由于训练语料库的静态性质,传统的语言模型难以动态更新它们的知识库以适应新知识的产生或旧知识的变化。为了解决这些问题,研究人员提出了增强语言模型的概念(augmented languagemodels,alms),通过整合外部知识源或专门模块来对语言模型的特本文档来自技高网...

【技术保护点】

1.一种针对增强语言模型中知识图谱所有权验证方法,其步骤包括:

2.根据权利要求1所述的方法,其特征在于,获取该待验证模型的蒸馏图谱的方法为:

3.根据权利要求2所述的方法,其特征在于,步骤22)中,对于所述蒸馏查询实体列表中的实体,如果两实体之间只存在连接关系,则将对应的两实体定义粗粒度关系实体;如果两实体之间存在连接关系以及关系类型,则将对应的两实体定义为细粒度关系实体;首先任选两个实体,作为具有粗粒度关系的提示词输入所述待验证模型进行查询,输出各候选实体的置信度,如果候选实体(ei,ej)的置信度超过预设细粒度查询阈值,则在候选实体(ei,ej)之间增加关系...

【技术特征摘要】

1.一种针对增强语言模型中知识图谱所有权验证方法,其步骤包括:

2.根据权利要求1所述的方法,其特征在于,获取该待验证模型的蒸馏图谱的方法为:

3.根据权利要求2所述的方法,其特征在于,步骤22)中,对于所述蒸馏查询实体列表中的实体,如果两实体之间只存在连接关系,则将对应的两实体定义粗粒度关系实体;如果两实体之间存在连接关系以及关系类型,则将对应的两实体定义为细粒度关系实体;首先任选两个实体,作为具有粗粒度关系的提示词输入所述待验证模型进行查询,输出各候选实体的置信度,如果候选实体(ei,ej)的置信度超过预设细粒度查询阈值,则在候选实体(ei,ej)之间增加关系类型ri,作为查询细粒度关系的提示词输入所述待验证模型进行查询,如果输出实体及关系(ei,ri,ej)的置信度高于预设阈值,则将对应实体(ei,ej)加入蒸馏图谱中并设置(ei,ej)之间边的类型为ri,以及将对应实体(ei,ej)加入蒸馏查询实体列表中;通过多次迭代,当没有额外的新实体添加到蒸馏查询实体列表中,或者迭代次数超过最大值时,停止迭...

【专利技术属性】
技术研发人员:陈恺梁瑞刚马化龙吕培卓张颖君赵月
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1