一种用于接口的数据模式匹配方法及系统技术方案

技术编号:39845818 阅读:11 留言:0更新日期:2023-12-29 16:43
本发明专利技术提供一种用于接口的数据模式匹配方法及系统,属于模式匹配技术领域,包括:获对任意两个待匹配接口的初始数据模式进行预处理得到预处理数据模式;获取预处理数据模式中参数名称和参数说明的语言属性;若确定语言属性包含英文单词,则计算参数名称的名称相似性,得到名称相似性结果;若确定语言属性包含中文词汇,则计算参数说明的语义相似性,得到语义相似性结果;融合名称相似性结果和语义相似性结果,输出任意两个待匹配接口的数据模式匹配结果

【技术实现步骤摘要】
一种用于接口的数据模式匹配方法及系统


[0001]本专利技术涉及模式匹配
,尤其涉及一种用于接口的数据模式匹配方法及系统


技术介绍

[0002]模式匹配是一个涉及知识表示方法

机器学习和信息检索等领域的复杂问题,匹配过程通常需要结合一定的启发式规则,一般没有严格的数学理论支持

[0003]在现有的研究中,有学者对模式匹配技术进行了详细描述,并对当前的模式匹配技术进行了分类,如图1所示,分为了两大类:独立匹配方法和组合匹配方法,涉及的基本技术通常包括:
[0004](1)
基于名称的方法,通过字符串的比较计算名称

标签以及实体注释的相似度;
[0005](2)
基于结构的方法,考虑实体内部结构以及关系结构

内部结构,如名称注释

特性及数据类型等,也即实体本身的定义;关系结构即各实体之间的关系

基于内部结构的方法通常也被称为基于约束的方法,这些方法主要基于实体的内部结构,利用实体的属性集

属性范围

集的势或者多重性

属性的传递性和对称性计算实体之间的相似度;
[0006](3)
基于语义的方法,主要特征是采用模型论语义来判断结果,也称为演绎的方法;
[0007](4)
基于实例的方法,使用共同实例集

实例识别技术

以及基于实例集的异质性统计法

基于相似度

[0008]对应地,为了提高匹配质量,通常采用多种匹配技术,并采用一定的匹配策略或匹配策略的组合策略,常用匹配策略包括:
[0009](1)
匹配器组合,可以是按顺序组合也可以是并行的组合;
[0010](2)
相似性聚集,结构化对象通常涉及不同的关系,如果相关的实体之间的相似度是可计算的,则为了评估实体间的相似性,必须对得到的相似度进行汇总;
[0011](3)
全局相似度计算,复合相似度计算是局部的,因为它只考虑邻居节点的相似性

但相似性可能涉及到整个模式,最终的相似度取决于所有实体

因此,匹配策略要考虑全局的相似性

全局相似性计算大致有两种方法:一是基于图的相似度传播,典型代表系统为相似性洪泛;另一是把相似度定义转换为一组方程,采用数值分析方法求解;
[0012](4)
学习方法,通常利用一些实例对匹配实体进行分类,这些实例需要一些样本数据来学习,这些样本数据可以由算法本身提供,或者由用户提供;
[0013](5)
概率方法,同机器学习一样,在匹配过程中也常用概率方法,常用的基于概率方法是贝叶斯网络;
[0014](6)
用户参与和动态组合,在设计匹配系统结构中,用户的参与是很有用的,也是很必要的,匹配过程中有三个方面用户可以参与:提供最初的比对和参数

动态的组合匹配器和给匹配器提供反馈信息以得到更好的匹配结果

[0015]可以看出,现有技术虽然具有通用性强的特点,但没有聚焦在接口文档中针对接
口描述的细化场景下的具体解决方案


技术实现思路

[0016]本专利技术提供一种用于接口的数据模式匹配方法及系统,用以解决现有技术中针对系统中异构接口进行模式匹配存在的缺陷

[0017]第一方面,本专利技术提供一种用于接口的数据模式匹配方法,包括:
[0018]获取任意两个待匹配接口的初始数据模式,对所述初始数据模式进行预处理得到预处理数据模式;
[0019]获取所述预处理数据模式中参数名称和参数说明的语言属性;
[0020]若确定所述语言属性包含英文单词,则计算所述参数名称的名称相似性,得到名称相似性结果;
[0021]若确定所述语言属性包含中文词汇,则计算所述参数说明的语义相似性,得到语义相似性结果;
[0022]融合所述名称相似性结果和所述语义相似性结果,输出所述任意两个待匹配接口的数据模式匹配结果

[0023]根据本专利技术提供的一种用于接口的数据模式匹配方法,获取任意两个待匹配接口的初始数据模式,对所述初始数据模式进行预处理得到预处理数据模式,包括:
[0024]分别获取所述任意两个待匹配接口的序号

参数名称

参数说明

英文分词后列表和中文分词后列表;
[0025]以所述序号

所述参数名称

所述参数说明

所述英文分词后列表和所述中文分词后列表作为列向量构建矩阵列表,输出所述预处理数据模式

[0026]根据本专利技术提供的一种用于接口的数据模式匹配方法,获取所述预处理数据模式中参数名称和参数说明的语言属性,包括:
[0027]利用自然语言处理工具对所述参数名称的值进行分词处理,得到分词向量;
[0028]若确定所述分词向量的长度大于等于1,且所述分词向量为非空字符以及非无效字符,则标记为1,否则标记为0,将分词结果记录于单词表中;
[0029]由每个参数名称中标记为1的行数之和与总行数的比值得到每个参数名称的标记值,若确定所述标记值大于预设比例,则确定矩阵列表中参数名称对应的语言属性为英文,否则确定矩阵列表中参数名称对应的语言属性为中文

[0030]根据本专利技术提供的一种用于接口的数据模式匹配方法,若确定所述语言属性包含英文单词,则计算所述参数名称的名称相似性,得到名称相似性结果,包括:
[0031]将接口文档转换为主题词表,所述主题词表包括实体对象表

位置表

属性表和动词表;
[0032]对所述主题词表依次进行分词

提取以及去除停顿词获得新的词项,由所述新的词项构建维护的主题词表;
[0033]获取英文分词后列表中的向量在所述维护的主题词表中的第一计数标记,以所述第一计数标记为向量构建英文分词后列表及主题词表矩阵;
[0034]提取所述英文分词后列表及主题词表矩阵中的参数名称,通过余弦相似度计算所述参数名称的名称相似性,获得所述名称相似性结果

[0035]根据本专利技术提供的一种用于接口的数据模式匹配方法,若确定所述语言属性包含中文词汇,则计算所述参数说明的语义相似性,得到语义相似性结果,包括:
[0036]将接口文档转换为主题词表,所述主题词表包括实体对象表

位置表

属性表和动词表;
[0037]对所述主题词表依次进行分词

提取以及去除停顿词获得新的词项,由所述新的词项构建维护的主题词表;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种用于接口的数据模式匹配方法,其特征在于,包括:获取任意两个待匹配接口的初始数据模式,对所述初始数据模式进行预处理得到预处理数据模式;获取所述预处理数据模式中参数名称和参数说明的语言属性;若确定所述语言属性包含英文单词,则计算所述参数名称的名称相似性,得到名称相似性结果;若确定所述语言属性包含中文词汇,则计算所述参数说明的语义相似性,得到语义相似性结果;融合所述名称相似性结果和所述语义相似性结果,输出所述任意两个待匹配接口的数据模式匹配结果
。2.
根据权利要求1所述的用于接口的数据模式匹配方法,其特征在于,获取任意两个待匹配接口的初始数据模式,对所述初始数据模式进行预处理得到预处理数据模式,包括:分别获取所述任意两个待匹配接口的序号

参数名称

参数说明

英文分词后列表和中文分词后列表;以所述序号

所述参数名称

所述参数说明

所述英文分词后列表和所述中文分词后列表作为列向量构建矩阵列表,输出所述预处理数据模式
。3.
根据权利要求1所述的用于接口的数据模式匹配方法,其特征在于,获取所述预处理数据模式中参数名称和参数说明的语言属性,包括:利用自然语言处理工具对所述参数名称的值进行分词处理,得到分词向量;若确定所述分词向量的长度大于等于1,且所述分词向量为非空字符以及非无效字符,则标记为1,否则标记为0,将分词结果记录于单词表中;由每个参数名称中标记为1的行数之和与总行数的比值得到每个参数名称的标记值,若确定所述标记值大于预设比例,则确定矩阵列表中参数名称对应的语言属性为英文,否则确定矩阵列表中参数名称对应的语言属性为中文
。4.
根据权利要求1所述的用于接口的数据模式匹配方法,其特征在于,若确定所述语言属性包含英文单词,则计算所述参数名称的名称相似性,得到名称相似性结果,包括:将接口文档转换为主题词表,所述主题词表包括实体对象表

位置表

属性表和动词表;对所述主题词表依次进行分词

提取以及去除停顿词获得新的词项,由所述新的词项构建维护的主题词表;获取英文分词后列表中的向量在所述维护的主题词表中的第一计数标记,以所述第一计数标记为向量构建英文分词后列表及主题词表矩阵;提取所述英文分词后列表及主题词表矩阵中的参数名称,通过余弦相似度计算所述参数名称的名称相似性,获得所述名称相似性结果
。5.
根据权利要求1所述的用于接口的数据模式匹配方法,其特征在于,若确定所述语言属性包含中文词汇,则计算所述参数说明的语义相似性,得到语义相似性结果,包括:将接口文档转换为主题词表,所述主题词表包括实体对象表

位置表
...

【专利技术属性】
技术研发人员:佟维刚桑梓勤蒋敏志罗浩解立磊
申请(专利权)人:武汉长江通信产业集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1