一种数据匹配方法及装置制造方法及图纸

技术编号:15792499 阅读:267 留言:0更新日期:2017-07-10 00:53
本申请公开一种数据匹配方法及装置。该方法中,首先获取已知匹配关系的数据集合a1和数据集合b1,待匹配的数据集合a2包含的字符串类型部分或全部属于数据集合a1包含的字符串类型,待匹配的数据集合b2包含的字符串类型部分或全部属于数据集合b1包含的字符串类型,然后获取a1和b1中各数据的字符串,获取数据集合a1中的各个字符串与数据集合b1中的各个字符串的匹配关系,再根据该匹配关系,确定数据集合a2与数据集合b2的匹配关系。该方案能够确定两个待匹配的数据集合之间的匹配关系,对人工依赖性低,并且根据数据集合中字符串间的关联实现匹配,不需要人为设定选择条件和根据选择条件进行比对,因此,相对于现有技术,耗时较短,提高了匹配效率。

【技术实现步骤摘要】
一种数据匹配方法及装置
本公开涉及数据匹配
,尤其涉及一种数据匹配方法及装置。
技术介绍
随着信息技术的发展,各种信息的数据量不断扩充。为了明确不同数据间的关系,通常需要进行数据匹配。其中,数据匹配指的是在数据之间,按照某种内在关系进行配准。现有技术中,在进行数据匹配时,通常采用表格匹配或工具匹配的方法。其中,在采用表格匹配方法时,需要将待匹配的两组数据分别存储在两个表格中,然后人为对两个表格中需要进行匹配的各个字符进行逐一比对,根据比对结果确定所述两组数据是否匹配;另外,采用工具匹配方法时,需要设置多个选择条件,并将待匹配的数据与所述选择条件进行一一比对,判断待匹配的数据是否符合选择条件,并根据判断结果确定两组数据是否匹配。但是,专利技术人在本申请的研究过程中发现,采用表格匹配方法,由于需要人工匹配,以及,采用工具匹配的方法,需要人为设定选择条件,并根据选择条件进行多次比对,因此,均存在耗时长,匹配效率低的问题。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种数据匹配方法及装置。为了解决上述技术问题,本专利技术实施例公开了如下技术方案:根据本公开实施例的第一方面,提供一种数据匹配方法,包括:获取已知匹配关系的数据集合a1和数据集合b1,其中,待匹配的数据集合a2包含的字符串类型部分或全部属于所述数据集合a1包含的字符串类型,待匹配的数据集合b2包含的字符串类型部分或全部属于所述数据集合b1包含的字符串类型。对所述数据集合a1和数据集合b1中包含的数据进行维度分割,获取各条数据包含的字符串;根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系;根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,确定所述数据集合a2与所述数据集合b2的匹配关系。优选的,所述根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,包括:若所述数据集合a1和数据集合b1中包含的各个字符串的维度统一,获取所述数据集合a1和数据集合b1中包含的各个字符串的维度;确定在所述数据集合a1和数据集合b1中相匹配的各条数据中,属于同一维度的字符串相匹配。优选的,所述根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,包括:获取所述数据集合a1中的基础向量,其中,所述基础向量指的是在数据集合a1中出现的各类型的字符串;获取所述数据集合b1中的目标向量,其中,所述目标向量指的是在数据集合b1中出现的各类型的字符串;获取所述数据集合a1中的基础向量,其中,所述基础向量指的是在数据集合a1中出现的各类型的字符串;获取所述数据集合b1中的目标向量,其中,所述目标向量指的是在数据集合b1中出现的各类型的字符串;获取各个基础向量与目标向量对应存在的次数,其中,设定数据集合a1与数据集合b1中互相匹配的两条数据为匹配数据组,所述对应存在的次数指的是在所述匹配数据组中,同时包含所述基础向量与目标向量的次数;获取各个基础向量在所述数据集合a1中出现的基础向量次数;根据所述各个基础向量与目标向量对应存在的次数,以及所述基础向量次数,计算所述基础向量与目标向量的相似度,其中,所述相似度为所述各个基础向量与目标向量对应存在的次数和所述基础向量次数的比值。优选的,所述根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,确定所述数据集合a2与所述数据集合b2的匹配关系,包括:对所述数据集合a2和数据集合b2中包含的数据进行维度分割,获取每条数据包含的字符串;根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,以及所述数据集合a2和数据集合b2中包含的各个字符串,计算所述数据集合a2中的各条第一数据与所述数据集合b2中的各条第二数据之间的相似度;确定与所述第一数据相似度最高的第二数据与所述第一数据相匹配。优选的,根据以下公式计算所述数据集合a2中的各条第一数据与所述数据集合b2中的各条第二数据之间的相似度:其中,S表示所述第一数据与第二数据的相似度;n表示维度分割后,第一数据所包含的字符串的数量和所述第二数据所包含的字符串的数量中的最大值;Si表示第一数据中第i个字符串与所述第二数据中各字符串的相似度的最大值;Qi表示第一数据中第i个字符串在所述第一数据中的权重。根据本公开实施例的第二方面,提供一种数据匹配装置,包括:数据集合获取模块,用于获取已知匹配关系的数据集合a1和数据集合b1,其中,待匹配的数据集合a2包含的字符串类型部分或全部属于所述数据集合a1包含的字符串类型,待匹配的数据集合b2包含的字符串类型部分或全部属于所述数据集合b1包含的字符串类型;维度分割模块,用于对所述数据集合a1和数据集合b1中包含的数据进行维度分割,获取各条数据包含的字符串;第一匹配模块,用于根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系;第二匹配模块,用于根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,确定所述数据集合a2与所述数据集合b2的匹配关系。优选的,所述第一匹配模块包括:维度获取单元,用于若所述数据集合a1和数据集合b1中包含的各个字符串的维度统一,获取所述数据集合a1和数据集合b1中包含的各个字符串的维度;第一匹配单元,用于确定在所述数据集合a1和数据集合b1中相匹配的各条数据中,属于同一维度的字符串相匹配。优选的,所述第一匹配模块包括:基础向量获取单元,用于获取所述数据集合a1中的基础向量,其中,所述基础向量指的是在数据集合a1中出现的各类型的字符串;目标向量获取单元,用于获取所述数据集合b1中的目标向量,其中,所述目标向量指的是在数据集合b1中出现的各类型的字符串;第一次数获取单元,用于获取各个基础向量与目标向量对应存在的次数,其中,设定数据集合a1与数据集合b1中互相匹配的两条数据为匹配数据组,所述对应存在的次数指的是在所述匹配数据组中,同时包含所述基础向量与目标向量的次数;第二次数获取单元,用于获取各个基础向量在所述数据集合a1中出现的基础向量次数;相似度获取单元,用于根据所述各个基础向量与目标向量对应存在的次数,以及所述基础向量次数,计算所述基础向量与目标向量的相似度,其中,所述相似度为所述各个基础向量与目标向量对应存在的次数和所述基础向量次数的比值。优选的,所述第二匹配模块包括:维度分割单元,用于对所述数据集合a2和数据集合b2中包含的数据进行维度分割,获取每条数据包含的字符串;相似度计算单元,用于根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,以及所述数据集合a2和数据集合b2中包含的各个字符串,计算所述数据集合a2中的各条第一数据与所述数据集合b2中的各条第二数据之间的相似度;匹配确定单元,用于确定与所述第一数据相似度最高的第二数据与所述第一数据相匹配。优选的,所述相似度计算单元根据以下公式计算所述数据集合a2中的各条第一数据与所述数据集合b2中的各条第本文档来自技高网...
一种数据匹配方法及装置

【技术保护点】
一种数据匹配方法,其特征在于,包括:获取已知匹配关系的数据集合a1和数据集合b1,其中,待匹配的数据集合a2包含的字符串类型部分或全部属于所述数据集合a1包含的字符串类型,待匹配的数据集合b2包含的字符串类型部分或全部属于所述数据集合b1包含的字符串类型;对所述数据集合a1和数据集合b1中包含的数据进行维度分割,获取各条数据包含的字符串;根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系;根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,确定所述数据集合a2与所述数据集合b2的匹配关系。

【技术特征摘要】
1.一种数据匹配方法,其特征在于,包括:获取已知匹配关系的数据集合a1和数据集合b1,其中,待匹配的数据集合a2包含的字符串类型部分或全部属于所述数据集合a1包含的字符串类型,待匹配的数据集合b2包含的字符串类型部分或全部属于所述数据集合b1包含的字符串类型;对所述数据集合a1和数据集合b1中包含的数据进行维度分割,获取各条数据包含的字符串;根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系;根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,确定所述数据集合a2与所述数据集合b2的匹配关系。2.根据权利要求1所述的数据匹配方法,其特征在于,所述根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,包括:若所述数据集合a1和数据集合b1中包含的各个字符串的维度统一,获取所述数据集合a1和数据集合b1中包含的各个字符串的维度;确定在所述数据集合a1和数据集合b1中相匹配的各条数据中,属于同一维度的字符串相匹配。3.根据权利要求1所述的数据匹配方法,其特征在于,所述根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,包括:获取所述数据集合a1中的基础向量,其中,所述基础向量指的是在数据集合a1中出现的各类型的字符串;获取所述数据集合b1中的目标向量,其中,所述目标向量指的是在数据集合b1中出现的各类型的字符串;获取各个基础向量与目标向量对应存在的次数,其中,设定数据集合a1与数据集合b1中互相匹配的两条数据为匹配数据组,所述对应存在的次数指的是在所述匹配数据组中,同时包含所述基础向量与目标向量的次数;获取各个基础向量在所述数据集合a1中出现的基础向量次数;根据所述各个基础向量与目标向量对应存在的次数,以及所述基础向量次数,计算所述基础向量与目标向量的相似度,其中,所述相似度为所述各个基础向量与目标向量对应存在的次数和所述基础向量次数的比值。4.根据权利要求1所述的数据匹配方法,其特征在于,所述根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,确定所述数据集合a2与所述数据集合b2的匹配关系,包括:对所述数据集合a2和数据集合b2中包含的数据进行维度分割,获取每条数据包含的字符串;根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,以及所述数据集合a2和数据集合b2中包含的各个字符串,计算所述数据集合a2中的各条第一数据与所述数据集合b2中的各条第二数据之间的相似度;确定与所述第一数据相似度最高的第二数据与所述第一数据相匹配。5.根据权利要求4所述的数据匹配方法,其特征在于,根据以下公式计算所述数据集合a2中的各条第一数据与所述数据集合b2中的各条第二数据之间的相似度:其中,S表示所述第一数据与第二数据的相似度;n表示维度分割后,第一数据所包含的字符串的数量和所述第二数据所包含的字符串的数量中的最大值;Si表示第一数据中第i个字符串与所述第二数据中各字符串的相似度的最大值;Qi表示第一数据中第i个字符串在所述第一数据中的权重...

【专利技术属性】
技术研发人员:皇甫庆彬
申请(专利权)人:优信拍北京信息科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1