【技术实现步骤摘要】
一种数据匹配方法及装置
本公开涉及数据匹配
,尤其涉及一种数据匹配方法及装置。
技术介绍
随着信息技术的发展,各种信息的数据量不断扩充。为了明确不同数据间的关系,通常需要进行数据匹配。其中,数据匹配指的是在数据之间,按照某种内在关系进行配准。现有技术中,在进行数据匹配时,通常采用表格匹配或工具匹配的方法。其中,在采用表格匹配方法时,需要将待匹配的两组数据分别存储在两个表格中,然后人为对两个表格中需要进行匹配的各个字符进行逐一比对,根据比对结果确定所述两组数据是否匹配;另外,采用工具匹配方法时,需要设置多个选择条件,并将待匹配的数据与所述选择条件进行一一比对,判断待匹配的数据是否符合选择条件,并根据判断结果确定两组数据是否匹配。但是,专利技术人在本申请的研究过程中发现,采用表格匹配方法,由于需要人工匹配,以及,采用工具匹配的方法,需要人为设定选择条件,并根据选择条件进行多次比对,因此,均存在耗时长,匹配效率低的问题。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种数据匹配方法及装置。为了解决上述技术问题,本专利技术实施例公开了如下技术方案:根据本公开实施例的第一方面,提供一种数据匹配方法,包括:获取已知匹配关系的数据集合a1和数据集合b1,其中,待匹配的数据集合a2包含的字符串类型部分或全部属于所述数据集合a1包含的字符串类型,待匹配的数据集合b2包含的字符串类型部分或全部属于所述数据集合b1包含的字符串类型。对所述数据集合a1和数据集合b1中包含的数据进行维度分割,获取各条数据包含的字符串;根据已知匹配关系,获取所述数据集合a1中包含的各个字符 ...
【技术保护点】
一种数据匹配方法,其特征在于,包括:获取已知匹配关系的数据集合a1和数据集合b1,其中,待匹配的数据集合a2包含的字符串类型部分或全部属于所述数据集合a1包含的字符串类型,待匹配的数据集合b2包含的字符串类型部分或全部属于所述数据集合b1包含的字符串类型;对所述数据集合a1和数据集合b1中包含的数据进行维度分割,获取各条数据包含的字符串;根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系;根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,确定所述数据集合a2与所述数据集合b2的匹配关系。
【技术特征摘要】
1.一种数据匹配方法,其特征在于,包括:获取已知匹配关系的数据集合a1和数据集合b1,其中,待匹配的数据集合a2包含的字符串类型部分或全部属于所述数据集合a1包含的字符串类型,待匹配的数据集合b2包含的字符串类型部分或全部属于所述数据集合b1包含的字符串类型;对所述数据集合a1和数据集合b1中包含的数据进行维度分割,获取各条数据包含的字符串;根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系;根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,确定所述数据集合a2与所述数据集合b2的匹配关系。2.根据权利要求1所述的数据匹配方法,其特征在于,所述根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,包括:若所述数据集合a1和数据集合b1中包含的各个字符串的维度统一,获取所述数据集合a1和数据集合b1中包含的各个字符串的维度;确定在所述数据集合a1和数据集合b1中相匹配的各条数据中,属于同一维度的字符串相匹配。3.根据权利要求1所述的数据匹配方法,其特征在于,所述根据已知匹配关系,获取所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,包括:获取所述数据集合a1中的基础向量,其中,所述基础向量指的是在数据集合a1中出现的各类型的字符串;获取所述数据集合b1中的目标向量,其中,所述目标向量指的是在数据集合b1中出现的各类型的字符串;获取各个基础向量与目标向量对应存在的次数,其中,设定数据集合a1与数据集合b1中互相匹配的两条数据为匹配数据组,所述对应存在的次数指的是在所述匹配数据组中,同时包含所述基础向量与目标向量的次数;获取各个基础向量在所述数据集合a1中出现的基础向量次数;根据所述各个基础向量与目标向量对应存在的次数,以及所述基础向量次数,计算所述基础向量与目标向量的相似度,其中,所述相似度为所述各个基础向量与目标向量对应存在的次数和所述基础向量次数的比值。4.根据权利要求1所述的数据匹配方法,其特征在于,所述根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,确定所述数据集合a2与所述数据集合b2的匹配关系,包括:对所述数据集合a2和数据集合b2中包含的数据进行维度分割,获取每条数据包含的字符串;根据所述数据集合a1中包含的各个字符串与所述数据集合b1中包含的各个字符串的匹配关系,以及所述数据集合a2和数据集合b2中包含的各个字符串,计算所述数据集合a2中的各条第一数据与所述数据集合b2中的各条第二数据之间的相似度;确定与所述第一数据相似度最高的第二数据与所述第一数据相匹配。5.根据权利要求4所述的数据匹配方法,其特征在于,根据以下公式计算所述数据集合a2中的各条第一数据与所述数据集合b2中的各条第二数据之间的相似度:其中,S表示所述第一数据与第二数据的相似度;n表示维度分割后,第一数据所包含的字符串的数量和所述第二数据所包含的字符串的数量中的最大值;Si表示第一数据中第i个字符串与所述第二数据中各字符串的相似度的最大值;Qi表示第一数据中第i个字符串在所述第一数据中的权重...
【专利技术属性】
技术研发人员:皇甫庆彬,
申请(专利权)人:优信拍北京信息科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。