【技术实现步骤摘要】
集合间相似度的确定方法和装置
本专利技术涉及相似度度量
,尤其是涉及一种集合间相似度的确定方法和装置。
技术介绍
现有的确定数据集合之间的相似度的计算方法主要包括:最短距离(singlelinkage)/最长距离(completelinkage)、杰卡德(Jaccard)相似度、K-S(Kolmogorov-Smirnov)检验、K-L(Kullback-Leibler)散度等方法。一、最短距离/最长距离广泛用于聚类中描述类与类之间(即集合与集合之间)距离,其中:最短距离为两类样品两两之间的距离最小值;最长距离为两类样品两两之间的距离最大值。该技术的不足之处:对于集合的距离定义过于简单,会受到个别奇异数据带来的巨大误差;最短距离往往高估集合间的相似性,最长距离往往低估集合间的相似性。二、Jaccard相似度是一种广泛用于描述集合间相似度的算法,在自然语言处理中应用最多,包括数据索引匹配、推荐系统等等场景,其公式表示如下:其中,|A|表示集合元素的个数;该技术的不足之处:适用于集合中元素精确匹配,特别适用于特征向量为简单多元选择型的样本集,无法解决包括文本或数值的模糊匹配问题,没有考虑到样本的特征向量不完全相同,但实质上样本点接近也是样本集合相似的表现之一;比较适合用于一维数据,在多维数据中效果不佳。三、K-S检验基于累积分布函数,用以检验一个经验分布是否符合某种理论分布或用于比较两个经验分布是否有显著性差异。设零假设为总体X和Y分布相同,计算统计量Z值,其公式表示如下:其中F1,n(·),F2,m(·)为累积分布函数;若则拒绝零假设,其中,该技术的不 ...
【技术保护点】
一种集合间相似度的确定方法,其特征在于,所述方法包括:获取第一数据集合和第二数据集合,其中,所述第一数据集合中的数据点的维数和第二数据集合中的数据点的维数相同;将第一数据集合和第二数据集合合并为第三数据集合;逐一从所述第三数据集合中选取当前抽样点,对于每个所述当前抽样点,计算所述当前抽样点与所述第三数据集合中的其它数据点的KNN距离;根据所述当前抽样点的KNN距离选取满足k最近邻邻居的邻居点,其中,k为预设值;如果所述邻居点和所述当前抽样点分别属于所述第一数据集合和所述第二数据集合,为所述当前抽样点设置相似标记;根据所述第三数据集合中带有相似标记的抽样点的总数,计算所述第一数据集合和所述第二数据集合的相似度。
【技术特征摘要】
1.一种集合间相似度的确定方法,其特征在于,所述方法包括:获取第一数据集合和第二数据集合,其中,所述第一数据集合中的数据点的维数和第二数据集合中的数据点的维数相同;将第一数据集合和第二数据集合合并为第三数据集合;逐一从所述第三数据集合中选取当前抽样点,对于每个所述当前抽样点,计算所述当前抽样点与所述第三数据集合中的其它数据点的KNN距离;根据所述当前抽样点的KNN距离选取满足k最近邻邻居的邻居点,其中,k为预设值;如果所述邻居点和所述当前抽样点分别属于所述第一数据集合和所述第二数据集合,为所述当前抽样点设置相似标记;根据所述第三数据集合中带有相似标记的抽样点的总数,计算所述第一数据集合和所述第二数据集合的相似度。2.根据权利要求1所述的方法,其特征在于,计算所述当前抽样点与所述第三数据集合中的其它数据点的KNN距离的步骤,包括:采用距离函数计算所述当前抽样点与所述第三数据集合中的其它数据点的KNN距离;所述距离函数为欧氏距离、马氏距离、切比雪夫距离或余弦距离。3.根据权利要求1所述的方法,其特征在于,根据所述当前抽样点的KNN距离选取满足k最近邻邻居的邻居点的步骤,包括:将所述当前抽样点与所述第三数据集合中的其它各数据点的KNN距离按照递增的顺序进行排序;从排序后的KNN距离中,选取前k个KNN距离对应的数据点作为所述当前抽样点的k最近邻邻居的邻居点。4.根据权利要求1所述的方法,其特征在于,根据所述第三数据集合中带有相似标记的抽样点的总数,计算所述第一数据集合和所述第二数据集合的相似度的步骤,包括:将所述带有相似标记的抽样点的总数与所述第三数据集合所包含的抽样点总数的比值,作为所述第一数据集合和所述第二数据集合的相似度。5.根据权利要求1所述的方法,其特征在于,获取第一数据集合和第二数据集合的步骤,包括:获取第一目标集合和第二目标集合;判断第一目标集合与第二目标集合所包含的数据点的数量是否相同;如果是,将所述第一目标集合和第二目标集合分别作为第一数据集合和第二数据集合;如果否,从所述第一目标集合抽取设定数量的数据点作为第一数据集合,从所述第二目标集合抽取所述设定数量的数据点作为第二数据集合。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:如果第一目标集合与第二目标集合所包含的数据点的数量不相同,重复执行...
【专利技术属性】
技术研发人员:殷鹏,周家岐,
申请(专利权)人:深圳先进技术研究院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。