The invention requests to protect an efficient data similarity calculation algorithm for robots, which involves the phenomenon that there are many different ontologies in the field, and then causes the interoperability problem among heterogeneous ontologies. This method defines ontology preprocessing, mapping candidate generation, word similarity calculation of conceptual terms, multiple mapping merging and mapping result output. Among various mapping methods, conceptual similarity calculation based on word formation features does not need the support of other corpus resources except words themselves, and its calculation is direct and fast. However, there are still some problems in the relevant methods, such as the same semantics but not the same writing, the difficulty in calculating the similarity of synonyms, and the imperfect allocation strategy of the weights of words composed of concepts and terms to be matched. In order to solve these problems, the present invention proposes an efficient algorithm for calculating data similarity of robots in order to improve the comprehensive effect of ontology mapping.
【技术实现步骤摘要】
一种高效的机器人数据相似度计算算法
本专利技术属于计算机信息处理领域,尤其涉及一种高效的机器人数据相似度计算算法。
技术介绍
本体映射方法一般可归纳为以下4种:(1)借助概念相似度计算方法,比较射对象之间的相似度,以发现异构本体之间的联系,例如Rodríguez等提出一种利用概念定义计算概念间相似度的方法,将本体中的概念分成表示概念的同义词集、刻画概念的特征集、概念的语义关系集三个部分,并利用这三部分进行相似度计算,最终确定概念间的映射关系。(2)分析异构本体之间结构上的相似性,通过编写映射规则来发现映射关系。Sunna等提出一种使用本体结构图作为上下文信息以实现本体映射的方法。该方法除了考虑节点本身信息外,还参考了其父节点、孩子节点、孙子节点等多层次的信息。(3)借助本体中的实例,利用机器学习等技术来寻找本体之间的映射关系。其典型例子是华盛顿大学的Doan等提出的GLUE系统。该方法综合考虑本体的各种异构问题,通过机器学习对概念的实例进行分类,然后利用实例在概念中出现的联合分布概率来计算概念间的相似度并结合领域约束和启发知识最终确定映射关系。(4)将多种方法进行 ...
【技术保护点】
1.一种高效的机器人数据相似度计算算法,其特征在于,包括以下步骤:a.导入待匹配本体,对待匹配本体进行预处理;b.映射候选生成,通过对预处理本体中概念特征、概念实例间的相似情况在内的因素进行分析,选择概念映射候选对;c.采用基于术语构成单词的编辑距离相似度计算、基于中心词的Word Net同义词、近义词检索以及基于术语中心词、修饰词的权重自动分配算法相结合的方法,对本体间两两组合形成的术语描述集合对进行相似度计算;d.从符合条件的概念组中选择相似度最高的映射概念对集合,作为本体映射的结果进行输出,以及对本体映射结果进行格式化输出和存储。
【技术特征摘要】
1.一种高效的机器人数据相似度计算算法,其特征在于,包括以下步骤:a.导入待匹配本体,对待匹配本体进行预处理;b.映射候选生成,通过对预处理本体中概念特征、概念实例间的相似情况在内的因素进行分析,选择概念映射候选对;c.采用基于术语构成单词的编辑距离相似度计算、基于中心词的WordNet同义词、近义词检索以及基于术语中心词、修饰词的权重自动分配算法相结合的方法,对本体间两两组合形成的术语描述集合对进行相似度计算;d.从符合条件的概念组中选择相似度最高的映射概念对集合,作为本体映射的结果进行输出,以及对本体映射结果进行格式化输出和存储。2.根据权利要求1所述的一种高效的机器人数据相似度计算算法,其特征在于,所述步骤a中本体预处理具体包括:导入待匹配本体,对本体中包括类的概念、属性、念实例、属性实例在内的术语进行解析、特征提取以及格式化存储,为后续匹配操作做好准备。3.根据权利要求1所述的一种高效的机器人数据相似度计算算法,其特征在于,所述步骤b中映射候选生成借鉴了Huber等在CODI本体映射方法中使用的映射候选生成方法,主要步骤是:1.对本体中概念特征、概念实例间的相似情况因素分析;2.选择与组合可能的概念映射候选对。4.根据权利要求1所述的一种高效的机器人数据相似度计算算法,其特征在于,所述采用基于术语构成单词的编辑距离相似度计算,具体包括:3.1)术语构成单词层面的相似度计算,建立在术语中词语一一对应的相似度计算基础上,因此,通过构建两术语词语矩阵的方式,发现术语中词语之间的最佳匹配对应关系,在两术语的单词集合匹配过程中,为了能够找到最佳匹配关系,提出以下公式:sim(wi,wj)=dω(wi,wj)ifdω(wi,wj)≥0.8其中,sim(wi,wj)表示两术语中任意单词对之间的相似度,相似度阈值取0.8,dω(wi,wj)表示通过编辑距离公式计算获得的单词wi和wj之间的编辑距离。5.根据权利要求4所述的一种高效的机器人数据相似度计算算法,其特征在于,所述单词对之间的相似度计算分...
【专利技术属性】
技术研发人员:罗志勇,范志鹏,赵杰,王月,韩冷,于士杰,郑焕平,蔡婷,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。