【技术实现步骤摘要】
一种基于真
‑
伪三连体神经网络的本体匹配方法
[0001]本专利技术涉及机器学习的本体匹配领域,尤其是涉及一种基于真
‑
伪三连体神经网络的本体匹配方法。
技术介绍
[0002]本体是概念化的明确的规范说明
[1],即对某个领域中存在的实体以及它们之间关系的正式和规范化的描述。本体能够使得基于知识的智能系统自动、准确地理解彼此数据的真实含义,在语义层面上实现系统间的交互与协作,因而被广泛地应用在语义标注、数据格式标准化、知识表示和共享等应用领域。为了满足巨大的应用需求,各领域本体工程师近年来开发了大量的本体,如汽轮发电机组本体、传感器本体等。
[0003]然而,由于本体工程师不同的知识背景,在描述同领域相同实体时存在差异。例如在传感器本体中某类名称为“Input”,而在另一个本体中该类则被称为“Sensor Input”,这就导致了本体的异质问题,其严重地阻碍了基于本体的智能系统之间的交互与协作。
[0004]本体匹配是目前解决本体异质问题的最有效的方法,相似度度量技术是本体匹配方法中核心技术,用来计算实体间的相似度值。为了应对不同的异质情况,基于术语的和基于语义的相似度度量技术分别应用而生。N
‑
gram
[2]和Cosine
[3]是基于术语的相似度度量技术中代表性技术,分别应用待匹配实体的子字符串和向量实现相似度度量,其中Cosine能够对长文本具有突出的度量效果;Sim
WP[4]常将WordNet
[ ...
【技术保护点】
【技术特征摘要】
1.一种基于真
‑
伪三连体神经网络的本体匹配方法,其特征在于,包括以下步骤:S1:给定待匹配本体,从待匹配本体中提取各自具有代表性的实体,得到核心实体集,用于构建训练数据集;S2:构建训练数据集;S3:对训练数据集进行字符嵌入,将字符转化为可供计算机识别的字符向量;S4:将编码好的字符向量送入真
‑
伪三连体神经网络中进行模型训练;所述真
‑
伪三连体神经网络采用两个循环神经网络RNN作为孪生神经网络SNN中的子网络结构,并将这两个循环神经网络RNN中的一个与长短期记忆网络LSTM一起作为伪孪生神经网络PSNN的子网络结构;S5:将验证数据送入真
‑
伪三连体神经网络中进行匹配;S6:对匹配结果进行评估,验证真
‑
伪三连体神经网络模型的有效性。2.根据权利要求1所述的一种基于真
‑
伪三连体神经网络的本体匹配方法,其特征在于,步骤S1的具体步骤如下:S1
‑
1:计算本体中实体的度中心度;所述度中心度是判定网络中实体重要性的指标,是对实体重要性的量化,一个实体的度中心度越高,该实体在本体中就越具有代表性;所述度中心度的计算方法为实体的出度与入度之和;所述实体的出度和入度分别指在本体的子父实体关系网络中,该实体的出边条数和入边条数;S1
‑
2:对实体的度中心度的计算结果进行降序排序,选取排在前30%的实体作为核心实体。3.根据权利要求1所述的一种基于真
‑
伪三连体神经网络的本体匹配方法,其特征在于,步骤S2的具体步骤如下:S2
‑
1:确定核心实体之间的匹配关系,方法如下:给定待匹配本体O1、O2和阈值T,分别任取O1和O2的同类待匹配核心实体e1和e2组成待匹配实体对,并分别取待匹配实体对的注释属性label1和label2、comment1和comment2,采用N
‑
gram技术计算e1和e2的相似度值:s1=N
‑
gram(label1,label2);如果s1>T,那么e1和e2的相似度值即为s1,否则采用Sim
WP
技术计算e1和e2的相似度值:s2=Sim
WP
(label1,label2)如果s2>T,那么e1和e2的相似度值即为s2,否则采用Cosine技术计算c1和c2的相似度值:s3=Cosine(comment1,comment2)如果s3>T,那么e1和e2的相似度值即为s3,否则e1和e2不匹配;S2
‑
2:构建训练数据集,方法如下:对待匹配本体O1和O2中的所有核心实体作笛卡尔积,并按照步骤S2
‑
1的方法计算笛卡尔积中每个核心实体对的相似度值,相似度值大于阈值T的核心实体对将选作训练数据的正样本;作为约束,通过随机赋值的方法,将正样本中的一个实体更换为该实体所在本体的核心实体中的其它实体,进而完成负样本的构建,负样本数量和正样本数量保持一致...
【专利技术属性】
技术研发人员:卢家伟,剡昌锋,林国祥,王江,吕明,刘斌,王瑞民,
申请(专利权)人:兰州理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。