非一致性约束的相似连接方法及装置制造方法及图纸

技术编号:13837951 阅读:116 留言:0更新日期:2016-10-16 00:30
本发明专利技术公开了非一致性约束的相似连接方法及装置,该方法包括:使进行相似连接处理的数据集中的每一条记录拥有自己独立的相似度阈值;在进行相似连接处理的过程中,使该相似连接的处理结果中的记录对满足该记录对中的两个记录所对应的相似度阈值中的至少之一。通过本发明专利技术解决相关技术中使用统一的提前预定相似度阈值所导致的相似连接结果受限的问题,促进了相似连接的应用。

【技术实现步骤摘要】

本专利技术涉及通讯领域,具体而言,涉及非一致性约束的相似连接方法及装置
技术介绍
随着社会网络、智能终端的发展,人们参与社会网络上的活动日益增加,比如就业招聘、租赁行业、征婚交友等。为了提供更好的服务,社会网络平台都会提供搜索和推荐的功能。社会网络平台已有的检索和推荐服务不能满足用户查询的多样化和个性化需求,查询和推荐的结果包含有很多不必要的信息,用户与目标对象之间是否真正满足对方的需求需要人工来进一步辨别,往往带来资源的浪费。同样的情况在租赁行业和就业招聘等社会网络活动中表现的更加明显,往往会造成社会资源的浪费。如果在进行检索的时候考虑到用户和目标对象双方的约束条件则可以提供更加个性化的服务,使资源配置更合理,交易更加便利。相似连接是指在给定的数据集和相似度阈值的情况下,按照一定的相似度计算方法来计算数据之间的相似度,然后并找出所有相似度不小于给定阈值的数据对的操作。相似连接作为一个基本的操作已经广泛应用于信息集成、数据清洗、协同过滤、推荐系统、诈骗检测、文本聚集和模糊关键字查询等领域。在相关技术中,可以将文本中元素(token)按照其词频递增的顺序把所有记录进行排序,然后对排序后的每一条记录的前缀构建倒排索引。对每一条记录的前缀构建索引的前提是需要统一且提前预定的相似度阈值。在另一种相关技术中,可以在扫描索引的过程中利用前缀元素在有序列表中的位置信息来估算字符串相似度的上限,以此来减少候选。此外,在此基础上还可以利用后缀token的位置信息来更精确的估算字符串之间的相似度上限,以进一步提高过滤的效率。无论相关技术中的哪种方法,都是为了利用前缀过滤技术都使用的是统一的提前预定相似度阈值,这种方法会有一定的局限性。
技术实现思路
本专利技术提供了相似连接方法及装置,以解决相关技术中使用统一的提前预定相似度阈值所导致的相似连接结果受限的问题。根据本专利技术的一个方面,提供了一种非一致性约束的相似连接方法,包括:使进行相似连接处理的数据集中的每一条记录拥有自己独立的相似度阈值;进行相似连接处理的过程中,使所述相似连接的处理结果中的记录对满足该记录对中的两个记录所对应的相似度阈值中的至少之一。进一步地,进行所述相似连接处理包括:根据相似度约束进行所述相似连接处理,其中,根据所述相似度约束的不同选择进行正向连接、逆向连接或者双向连接;所述正向连接的结果满足第一的数据集R中记录的相似度阈值的要求;所述逆向连接的结果满足另一数据集S中记录的相似度阈值的要求;所述双向连接的结果同时满足两个数据集中记录的相似度阈值的要求。进一步地,在进行所述相似连接处理之前,所述方法还包括:对进行相似度处理的数据集中的记录进行预处理;其中,所述预处理包括:确定进行相似连接处理的每一条记录的组成元素;统计所述数据集中每一个元素出现的次数;遍历所述数据集中的所有记录并根据每一个元素出现次数对记录的元素进行排序,得到排序后的记录集合。进一步地,对所述记录的元素进行排序之后,所述方法还包括:对预处理后的每个数据集依次扫描每一条记录,计算每一条记录中所有位置上的元素被选为前缀的最大相似度阈值θ′;把每一条记录中的元素及其θ′作为一个整体插入到相应的倒排列表中;将每一个所述倒排列表中的元素按照其θ′进行排序,构建相似度感知的索引。进一步地,所述记录中每一个元素所在的位置与其被选为前缀时相似度阈值之间的关系为:(|s|-n)/|s|<θ≤(|s|-n+1)/|s|,其中|s|为记录中元素的个数,n为元素在记录中的位置。根据本专利技术的另一个方面,还提供了一种非一致性约束的相似连接装置,包括:设置模块,用于使进行相似连接处理的数据集中的每一条记录拥有自己独立的相似度阈值;处理模块,用于进行相似连接处理过程中,使所述相似连接的处理结果中的记录对满足该记录对中的两个记录所对应的相似度阈值中的至少之一。进一步地,所述处理模块,用于根据相似度约束进行所述相似连接处理,其中,根据所述相似度约束的不同选择进行正向连接、逆向连接或者双向连接;所述正向连接的结果满足第一的数据集R中记录的相似度阈值的要求;所述逆向连接的结果满足另一数据集S中记录的相似度阈值的要求;所述双向连接的结果同时满足两个数据集中记录的相似度阈值的要求。进一步地,所述装置还包括:预处理模块,用于对进行相似度处理的数据集中的记录进行预处理;其中,所述预处理包括:确定进行相似连接处理的每一条记录的组成元素;统计所述数据集中每一个元素出现的次数;遍历所述数据集中的所有记录并根据每一个元素出现次数对记录的元素进行排序,得到排序后的记录集合。进一步地,所述装置还包括:索引构建模块,用于对预处理后的每个数据集依次扫描每一条记录,计算每一条记录中所有位置上的元素被选为前缀的最大相似度阈值θ′;把每一条记录中的元素及其θ′作为一个整体插入到相应的倒排列表中;将每一个所述倒排列表中的元素按照其θ′进行排序,构建相似度感知的索引。进一步地,所述记录中每一个元素所在的位置与其被选为前缀时相似度阈值之间的关系为:(|s|-n)/|s|<θ≤(|s|-n+1)/|s|,其中|s|为记录中元素的个数,n为元素在记录中的位置。通过本专利技术,采用对于进行相似连接处理的数据集中的每一条记录设置该记录对应的相似度阈值;进行相似连接处理,其中,该相似连接的处理结果满足进行该相似连接的至少两个记录对应的相似度阈值中的至少之一。通过本专利技术解决相关技术中使用统一的提前预定相似
度阈值所导致的相似度连接结果受限的问题,促进了相似度连接的应用。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的非一致性约束的相似连接方法的流程图;图2是根据本专利技术实施例的相似连接装置的结构框图;图3是根据本专利技术实施例的非一致性约束的相似连接方法的流程示意图一;图4是根据本专利技术实施例的非一致性约束的相似连接方法的流程示意图二。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。在本实施例中提供了一种相似连接方法,图1是根据本专利技术实施例的相似连接方法的流程图,如图1所示,该方法包括如下步骤:步骤S102,使进行相似连接处理的数据集中的每一条记录拥有自己独立的相似度阈值;步骤S104,进行相似连接处理的过程中,使该相似连接的处理结果中的记录对满足该记录对中的两个记录所对应的相似度阈值中的至少之一。通过上述步骤解决相关技术中使用统一的提前预定相似度阈值所导致的相似度连接结果受限的问题,促进了相似度连接的应用。可选地,进行该相似连接处理包括:根据相似度约束进行该相似连接处理,其中,根据该相似度约束的不同选择进行正向连接、逆向连接或者双向连接;该正向连接的结果满足第一的数据集R中记录的相似度阈值的要求;该逆向连接的结果满足另一数据集S中记录的相似度阈值的要求;该双向连接的结果同时满足两个数据集中记录的相似度阈值的要求。可选地,在进行该相似连接处理之前,该方法还包括:对进行相似度处理的数据集中的记录进行预处理;其中,该预处理包括:确定进行相本文档来自技高网
...

【技术保护点】
一种非一致性约束的相似连接方法,其特征在于,包括:使进行相似连接处理的数据集中的每一条记录拥有自己独立的相似度阈值;进行相似连接处理的过程中,使所述相似连接的处理结果中的记录对满足该记录对中的两个记录所对应的相似度阈值中的至少之一。

【技术特征摘要】
1.一种非一致性约束的相似连接方法,其特征在于,包括:使进行相似连接处理的数据集中的每一条记录拥有自己独立的相似度阈值;进行相似连接处理的过程中,使所述相似连接的处理结果中的记录对满足该记录对中的两个记录所对应的相似度阈值中的至少之一。2.根据权利要求1所述的方法,其特征在于,进行所述相似连接处理包括:根据相似度约束进行所述相似连接处理,其中,根据所述相似度约束的不同选择进行正向连接、逆向连接或者双向连接;所述正向连接的结果满足第一的数据集R中记录的相似度阈值的要求;所述逆向连接的结果满足另一数据集S中记录的相似度阈值的要求;所述双向连接的结果同时满足两个数据集中记录的相似度阈值的要求。3.根据权利要求1或2所述的方法,其特征在于,在进行所述相似连接处理之前,所述方法还包括:对进行相似度处理的数据集中的记录进行预处理;其中,所述预处理包括:确定进行相似连接处理的每一条记录的组成元素;统计所述数据集中每一个元素出现的次数;遍历所述数据集中的所有记录并根据每一个元素出现次数对记录的元素进行排序,得到排序后的记录集合。4.根据权利要求3所述的方法,其特征在于,对所述记录的元素进行排序之后,所述方法还包括:对预处理后的每个数据集依次扫描每一条记录,计算每一条记录中所有位置上的元素被选为前缀的最大相似度阈值θ′;把每一条记录中的元素及其θ′作为一个整体插入到相应的倒排列表中;将每一个所述倒排列表中的元素按照其θ′进行排序,构建相似度感知的索引。5.根据权利要求4所述的方法,其特征在于,所述记录中每一个元素所在的位置与其被选为前缀时相似度阈值之间的关系为:(|s|-n)/|s|<θ≤(|s|-n+1)/|s|,其中|s|为记录中元素的个数,n为元素在记录中的位置...

【专利技术属性】
技术研发人员:荣垂田
申请(专利权)人:天津工业大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1