一种基于真-伪三连体神经网络的本体匹配方法组成比例

技术编号:36253402 阅读:25 留言:0更新日期:2023-01-07 09:47
本发明专利技术公开了一种基于真

【技术实现步骤摘要】
一种基于真

伪三连体神经网络的本体匹配方法


[0001]本专利技术涉及机器学习的本体匹配领域,尤其是涉及一种基于真

伪三连体神经网络的本体匹配方法。

技术介绍

[0002]本体是概念化的明确的规范说明
[1],即对某个领域中存在的实体以及它们之间关系的正式和规范化的描述。本体能够使得基于知识的智能系统自动、准确地理解彼此数据的真实含义,在语义层面上实现系统间的交互与协作,因而被广泛地应用在语义标注、数据格式标准化、知识表示和共享等应用领域。为了满足巨大的应用需求,各领域本体工程师近年来开发了大量的本体,如汽轮发电机组本体、传感器本体等。
[0003]然而,由于本体工程师不同的知识背景,在描述同领域相同实体时存在差异。例如在传感器本体中某类名称为“Input”,而在另一个本体中该类则被称为“Sensor Input”,这就导致了本体的异质问题,其严重地阻碍了基于本体的智能系统之间的交互与协作。
[0004]本体匹配是目前解决本体异质问题的最有效的方法,相似度度量技术是本体匹配方法中核心技术,用来计算实体间的相似度值。为了应对不同的异质情况,基于术语的和基于语义的相似度度量技术分别应用而生。N

gram
[2]和Cosine
[3]是基于术语的相似度度量技术中代表性技术,分别应用待匹配实体的子字符串和向量实现相似度度量,其中Cosine能够对长文本具有突出的度量效果;Sim
WP[4]常将WordNet
[5]作为外部知识库,从语义的角度进行相似度度量,通过使用外部知识库常可以取得良好的匹配结果。
[0005]然而由于本体异质情况的复杂性,以及对高质量语义交互的需求,仅在匹配过程中使用相似度度量技术已无法满足实际要求。基于机器学习的本体匹配方法可以通过字符嵌入技术确定待匹配实体的语义特征,进而判断本体中实体间的对应关系,能够有效解决本体匹配的异质问题。
[0006]Bento等人
[6]将本体匹配看做二分类问题,将参考对齐作为输入,采用卷积神经网络(Convolutional Neural Networks,CNN)进行语义学习,以机器学习代替相似度度量技术,提高了时间性能,方法具有良好的普适性。
[0007]Jiang等人
[7]提出了一种基于长短期记忆网络(Long Short

term Memory,LSTM)的本体匹配方法,通过使用实体的结构和语义信息来匹配本体,实现了更好的匹配效果。
[0008]Iyer等人
[8]为了使得字符嵌入更能体现实体的语义及其结构信息,提出了一种基于监督学习的神经网络来匹配本体,该方法利用双重注意力来生成实体的上下文表示,并在最先进的相似度度量方法中表现出卓越的性能。然而,大多数基于机器学习的本体匹配方法都需要使用参考对齐,这在实际的匹配任务中往往是不能满足的。
[0009]针对该问题,Xue等人
[9]提出基于孪生神经网络的本体匹配技术(Siamese Neural Network based Ontology Matching technique,SNN

OM),通过组合多种相似度度量技术结合逻辑规则构建训练数据集,并采用孪生网络利用两个共享参数的网络结构学习同类实体的语义特征,实现了较好的匹配效果。
[0010]然而现有的基于机器学习的本体匹配技术存在因无法对本体的语义信息进行全面挖掘导致匹配精度不高的问题。如SNN

OM仅使用了实体的label注释属性,但面对高度异质本体时(包含术语异质、语言学异质、结构异质),label可能因为乱码致使神经网络对其所提取的语义特征无法表示实体的真实语义,当对语义特征进行相似度计算时,将造成匹配精度的降低。

技术实现思路

[0011]针对现有技术存在的上述问题,本申请提供了一种基于真

伪三连体神经网络的本体匹配方法,首次提出一个新概念:真

伪三连体神经网络(Genunine

pseudo Triplet Neural Network,GP

TNN),通过内部子孪生神经网络和子伪神经网络实现同时对同类注释属性和异类注释属性的语义信息学习,能够对本体的语义信息进行更为全面的挖掘,使得学习到的特征向量更能反映实体本质的语义特征,进而提高本体匹配的精度,为解决基于机器学习的本体匹配问题提供了新的思路。
[0012]本专利技术的技术方案如下:
[0013]一种基于真

伪三连体神经网络的本体匹配方法,包括以下步骤:
[0014]S1:给定待匹配本体,从待匹配本体中提取各自具有代表性的实体,得到核心实体集,用于构建训练数据集;
[0015]S2:构建训练数据集;
[0016]S3:对训练数据集进行字符嵌入,将字符转化为可供计算机识别的字符向量;
[0017]S4:将编码好的字符向量送入真

伪三连体神经网络中进行模型训练;所述真

伪三连体神经网络采用两个循环神经网络RNN作为孪生神经网络SNN中的子网络结构,并将这两个循环神经网络RNN中的一个与长短期记忆网络LSTM一起作为伪孪生神经网络PSNN的子网络结构;
[0018]S5:将验证数据送入真

伪三连体神经网络中进行匹配;
[0019]S6:对匹配结果进行评估,验证真

伪三连体神经网络模型的有效性。
[0020]进一步的,步骤S1的具体步骤如下:
[0021]S1

1:计算本体中实体的度中心度;所述度中心度是判定网络中实体重要性的指标,是对实体重要性的量化,一个实体的度中心度越高,该实体在本体中就越具有代表性;
[0022]所述度中心度的计算方法为实体的出度与入度之和;所述实体的出度和入度分别指在本体的子父实体关系网络中,该实体的出边条数和入边条数;
[0023]S1

2:对实体的度中心度的计算结果进行降序排序,选取排在前30%的实体作为核心实体。
[0024]进一步的,步骤S2的具体步骤如下:
[0025]S2

1:确定核心实体之间的匹配关系,方法如下:
[0026]给定待匹配本体O1、O2和阈值T,分别任取O1和O2的同类待匹配核心实体e1和e2组成待匹配实体对,并分别取待匹配实体对的注释属性label1和label2、comment1和comment2,采用N

gram技术计算e1和e2的相似度值:s1=N

gram(label1,label2);
[0027]如果s1>T,那么e1和e2的相似度值即为s1,否则采用Sim
WP
技术计算e1和e2的相似度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于真

伪三连体神经网络的本体匹配方法,其特征在于,包括以下步骤:S1:给定待匹配本体,从待匹配本体中提取各自具有代表性的实体,得到核心实体集,用于构建训练数据集;S2:构建训练数据集;S3:对训练数据集进行字符嵌入,将字符转化为可供计算机识别的字符向量;S4:将编码好的字符向量送入真

伪三连体神经网络中进行模型训练;所述真

伪三连体神经网络采用两个循环神经网络RNN作为孪生神经网络SNN中的子网络结构,并将这两个循环神经网络RNN中的一个与长短期记忆网络LSTM一起作为伪孪生神经网络PSNN的子网络结构;S5:将验证数据送入真

伪三连体神经网络中进行匹配;S6:对匹配结果进行评估,验证真

伪三连体神经网络模型的有效性。2.根据权利要求1所述的一种基于真

伪三连体神经网络的本体匹配方法,其特征在于,步骤S1的具体步骤如下:S1

1:计算本体中实体的度中心度;所述度中心度是判定网络中实体重要性的指标,是对实体重要性的量化,一个实体的度中心度越高,该实体在本体中就越具有代表性;所述度中心度的计算方法为实体的出度与入度之和;所述实体的出度和入度分别指在本体的子父实体关系网络中,该实体的出边条数和入边条数;S1

2:对实体的度中心度的计算结果进行降序排序,选取排在前30%的实体作为核心实体。3.根据权利要求1所述的一种基于真

伪三连体神经网络的本体匹配方法,其特征在于,步骤S2的具体步骤如下:S2

1:确定核心实体之间的匹配关系,方法如下:给定待匹配本体O1、O2和阈值T,分别任取O1和O2的同类待匹配核心实体e1和e2组成待匹配实体对,并分别取待匹配实体对的注释属性label1和label2、comment1和comment2,采用N

gram技术计算e1和e2的相似度值:s1=N

gram(label1,label2);如果s1>T,那么e1和e2的相似度值即为s1,否则采用Sim
WP
技术计算e1和e2的相似度值:s2=Sim
WP
(label1,label2)如果s2>T,那么e1和e2的相似度值即为s2,否则采用Cosine技术计算c1和c2的相似度值:s3=Cosine(comment1,comment2)如果s3>T,那么e1和e2的相似度值即为s3,否则e1和e2不匹配;S2

2:构建训练数据集,方法如下:对待匹配本体O1和O2中的所有核心实体作笛卡尔积,并按照步骤S2

1的方法计算笛卡尔积中每个核心实体对的相似度值,相似度值大于阈值T的核心实体对将选作训练数据的正样本;作为约束,通过随机赋值的方法,将正样本中的一个实体更换为该实体所在本体的核心实体中的其它实体,进而完成负样本的构建,负样本数量和正样本数量保持一致...

【专利技术属性】
技术研发人员:卢家伟剡昌锋林国祥王江吕明刘斌王瑞民
申请(专利权)人:兰州理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1