【技术实现步骤摘要】
一种用于接口的数据模式匹配方法及系统
[0001]本专利技术涉及模式匹配
,尤其涉及一种用于接口的数据模式匹配方法及系统
。
技术介绍
[0002]模式匹配是一个涉及知识表示方法
、
机器学习和信息检索等领域的复杂问题,匹配过程通常需要结合一定的启发式规则,一般没有严格的数学理论支持
。
[0003]在现有的研究中,有学者对模式匹配技术进行了详细描述,并对当前的模式匹配技术进行了分类,如图1所示,分为了两大类:独立匹配方法和组合匹配方法,涉及的基本技术通常包括:
[0004](1)
基于名称的方法,通过字符串的比较计算名称
、
标签以及实体注释的相似度;
[0005](2)
基于结构的方法,考虑实体内部结构以及关系结构
。
内部结构,如名称注释
、
特性及数据类型等,也即实体本身的定义;关系结构即各实体之间的关系
。
基于内部结构的方法通常也被称为基于约束的方法,这些方法主要基于实体的内部结构,利用实体的属性集
、
属性范围
、
集的势或者多重性
、
属性的传递性和对称性计算实体之间的相似度;
[0006](3)
基于语义的方法,主要特征是采用模型论语义来判断结果,也称为演绎的方法;
[0007](4)
基于实例的方法,使用共同实例集
、
实例识别技术
、
以及基于实 ...
【技术保护点】
【技术特征摘要】
1.
一种用于接口的数据模式匹配方法,其特征在于,包括:获取任意两个待匹配接口的初始数据模式,对所述初始数据模式进行预处理得到预处理数据模式;获取所述预处理数据模式中参数名称和参数说明的语言属性;若确定所述语言属性包含英文单词,则计算所述参数名称的名称相似性,得到名称相似性结果;若确定所述语言属性包含中文词汇,则计算所述参数说明的语义相似性,得到语义相似性结果;融合所述名称相似性结果和所述语义相似性结果,输出所述任意两个待匹配接口的数据模式匹配结果
。2.
根据权利要求1所述的用于接口的数据模式匹配方法,其特征在于,获取任意两个待匹配接口的初始数据模式,对所述初始数据模式进行预处理得到预处理数据模式,包括:分别获取所述任意两个待匹配接口的序号
、
参数名称
、
参数说明
、
英文分词后列表和中文分词后列表;以所述序号
、
所述参数名称
、
所述参数说明
、
所述英文分词后列表和所述中文分词后列表作为列向量构建矩阵列表,输出所述预处理数据模式
。3.
根据权利要求1所述的用于接口的数据模式匹配方法,其特征在于,获取所述预处理数据模式中参数名称和参数说明的语言属性,包括:利用自然语言处理工具对所述参数名称的值进行分词处理,得到分词向量;若确定所述分词向量的长度大于等于1,且所述分词向量为非空字符以及非无效字符,则标记为1,否则标记为0,将分词结果记录于单词表中;由每个参数名称中标记为1的行数之和与总行数的比值得到每个参数名称的标记值,若确定所述标记值大于预设比例,则确定矩阵列表中参数名称对应的语言属性为英文,否则确定矩阵列表中参数名称对应的语言属性为中文
。4.
根据权利要求1所述的用于接口的数据模式匹配方法,其特征在于,若确定所述语言属性包含英文单词,则计算所述参数名称的名称相似性,得到名称相似性结果,包括:将接口文档转换为主题词表,所述主题词表包括实体对象表
、
位置表
、
属性表和动词表;对所述主题词表依次进行分词
、
提取以及去除停顿词获得新的词项,由所述新的词项构建维护的主题词表;获取英文分词后列表中的向量在所述维护的主题词表中的第一计数标记,以所述第一计数标记为向量构建英文分词后列表及主题词表矩阵;提取所述英文分词后列表及主题词表矩阵中的参数名称,通过余弦相似度计算所述参数名称的名称相似性,获得所述名称相似性结果
。5.
根据权利要求1所述的用于接口的数据模式匹配方法,其特征在于,若确定所述语言属性包含中文词汇,则计算所述参数说明的语义相似性,得到语义相似性结果,包括:将接口文档转换为主题词表,所述主题词表包括实体对象表
、
位置表
...
【专利技术属性】
技术研发人员:佟维刚,桑梓勤,蒋敏志,罗浩,解立磊,
申请(专利权)人:武汉长江通信产业集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。