非一致性约束的相似连接方法及装置制造方法及图纸

技术编号：13837951 阅读：116 留言：0更新日期：2016-10-16 00:30

本发明专利技术公开了非一致性约束的相似连接方法及装置，该方法包括：使进行相似连接处理的数据集中的每一条记录拥有自己独立的相似度阈值；在进行相似连接处理的过程中，使该相似连接的处理结果中的记录对满足该记录对中的两个记录所对应的相似度阈值中的至少之一。通过本发明专利技术解决相关技术中使用统一的提前预定相似度阈值所导致的相似连接结果受限的问题，促进了相似连接的应用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及通讯领域，具体而言，涉及非一致性约束的相似连接方法及装置。
技术介绍
随着社会网络、智能终端的发展，人们参与社会网络上的活动日益增加，比如就业招聘、租赁行业、征婚交友等。为了提供更好的服务，社会网络平台都会提供搜索和推荐的功能。社会网络平台已有的检索和推荐服务不能满足用户查询的多样化和个性化需求，查询和推荐的结果包含有很多不必要的信息，用户与目标对象之间是否真正满足对方的需求需要人工来进一步辨别，往往带来资源的浪费。同样的情况在租赁行业和就业招聘等社会网络活动中表现的更加明显，往往会造成社会资源的浪费。如果在进行检索的时候考虑到用户和目标对象双方的约束条件则可以提供更加个性化的服务，使资源配置更合理，交易更加便利。相似连接是指在给定的数据集和相似度阈值的情况下，按照一定的相似度计算方法来计算数据之间的相似度，然后并找出所有相似度不小于给定阈值的数据对的操作。相似连接作为一个基本的操作已经广泛应用于信息集成、数据清洗、协同过滤、推荐系统、诈骗检测、文本聚集和模糊关键字查询等领域。在相关技术中，可以将文本中元素(token)按照其词频递增的顺序把所有记录进行排序，然后对排序后的每一条记录的前缀构建倒排索引。对每一条记录的前缀构建索引的前提是需要统一且提前预定的相似度阈值。在另一种相关技术中，可以在扫描索引的过程中利用前缀元素在有序列表中的位置信息来估算字符串相似度的上限，以此来减少候选。此外，在此基础上还可以利用后缀token的位置信息来更精确的估算字符串之间的相似度上限，以进一步提高过滤的效率。无论相关技术中的哪种方法，都是为了利用前缀过滤技...

【技术保护点】
一种非一致性约束的相似连接方法，其特征在于，包括：使进行相似连接处理的数据集中的每一条记录拥有自己独立的相似度阈值；进行相似连接处理的过程中，使所述相似连接的处理结果中的记录对满足该记录对中的两个记录所对应的相似度阈值中的至少之一。

【技术特征摘要】
1.一种非一致性约束的相似连接方法，其特征在于，包括：使进行相似连接处理的数据集中的每一条记录拥有自己独立的相似度阈值；进行相似连接处理的过程中，使所述相似连接的处理结果中的记录对满足该记录对中的两个记录所对应的相似度阈值中的至少之一。2.根据权利要求1所述的方法，其特征在于，进行所述相似连接处理包括：根据相似度约束进行所述相似连接处理，其中，根据所述相似度约束的不同选择进行正向连接、逆向连接或者双向连接；所述正向连接的结果满足第一的数据集R中记录的相似度阈值的要求；所述逆向连接的结果满足另一数据集S中记录的相似度阈值的要求；所述双向连接的结果同时满足两个数据集中记录的相似度阈值的要求。3.根据权利要求1或2所述的方法，其特征在于，在进行所述相似连接处理之前，所述方法还包括：对进行相似度处理的数据集中的记录进行预处理；其中，所述预处理包括：确定进行相似连接处理的每一条记录的组成元素；统计所述数据集中每一个元素出现的次数；遍历所述数据集中的所有记录并根据每一个元素出现次数对记录的元素进行排序，得到排序后的记录集合。4.根据权利要求3所述的方法，其特征在于，对所述记录的元素进行排序之后，所述方法还包括：对预处理后的每个数据集依次扫描每一条记录，计算每一条记录中所有位置上的元素被选为前缀的最大相似度阈值θ′；把每一条记录中的元素及其θ′作为一个整体插入到相应的倒排列表中；将每一个所述倒排列表中的元素按照其θ′进行排序，构建相似度感知的索引。5.根据权利要求4所述的方法，其特征在于，所述记录中每一个元素所在的位置与其被选为前缀时相似度阈值之间的关系为：(|s|-n)/|s|<θ≤(|s|-n+1)/|s|，其中|s|为记录中元素的个数，n为元素在记录中的位置...

【专利技术属性】
技术研发人员：荣垂田，
申请(专利权)人：天津工业大学，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人