集合间相似度的确定方法和装置制造方法及图纸

技术编号:17705828 阅读:27 留言:0更新日期:2018-04-14 18:31
本发明专利技术提供了一种集合间相似度的确定方法和装置,属于相似度度量技术领域。本发明专利技术提供的集合间相似度的确定方法和装置,根据数据集合中数据点之间的KNN距离,从数据点与数据点之间的k最近邻关系,进一步得出数据点与数据集合之间的k最近邻关系,进而通过计算集合中每个数据点与另一数据集合的k最近邻的比例,确定两数据集合间的相似度,从而确定样本差异或样本相似性,精度高;并且适用于各个维数、各种样本分布的数据集合,具有广泛的普适性。

【技术实现步骤摘要】
集合间相似度的确定方法和装置
本专利技术涉及相似度度量
,尤其是涉及一种集合间相似度的确定方法和装置。
技术介绍
现有的确定数据集合之间的相似度的计算方法主要包括:最短距离(singlelinkage)/最长距离(completelinkage)、杰卡德(Jaccard)相似度、K-S(Kolmogorov-Smirnov)检验、K-L(Kullback-Leibler)散度等方法。一、最短距离/最长距离广泛用于聚类中描述类与类之间(即集合与集合之间)距离,其中:最短距离为两类样品两两之间的距离最小值;最长距离为两类样品两两之间的距离最大值。该技术的不足之处:对于集合的距离定义过于简单,会受到个别奇异数据带来的巨大误差;最短距离往往高估集合间的相似性,最长距离往往低估集合间的相似性。二、Jaccard相似度是一种广泛用于描述集合间相似度的算法,在自然语言处理中应用最多,包括数据索引匹配、推荐系统等等场景,其公式表示如下:其中,|A|表示集合元素的个数;该技术的不足之处:适用于集合中元素精确匹配,特别适用于特征向量为简单多元选择型的样本集,无法解决包括文本或数值的模糊匹配问题,没有考虑到样本的特征向量不完全相同,但实质上样本点接近也是样本集合相似的表现之一;比较适合用于一维数据,在多维数据中效果不佳。三、K-S检验基于累积分布函数,用以检验一个经验分布是否符合某种理论分布或用于比较两个经验分布是否有显著性差异。设零假设为总体X和Y分布相同,计算统计量Z值,其公式表示如下:其中F1,n(·),F2,m(·)为累积分布函数;若则拒绝零假设,其中,该技术的不足之处:只适用于一维数据,用于多维数据时十分复杂;对于较相近的数据集合的区分敏感度较低。四、K-L散度基于熵的概念,也被称为相对熵,表示两个函数或概率分布P和Q的差异性,假设P(x)和Q(x)是X上取值的两个离散概率分布,则P对Q的K-L散度为:差异越大则K-L散度越大,差异越小则K-L散度越小,当且仅当两分布相同时,KL散度等于0;特别地,KL散度是非对称的,即D(P||Q)≠D(Q||P)。该技术的不足之处在于:尽管KL散度从直观上是个度量或距离函数,但它并不是一个真正的度量或者距离,因为它不具有对称性,虽然在实际应用中一般用D(P||Q)和D(Q||P)的均值来表示距离,但是很难说明K-L散度的不平衡性可以仅靠取均值来解决。这些方法确定两集合间的相似度的精度低,且对于数据样本的分布有特殊要求,没有普适性。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种集合间相似度的确定方法和装置,以提高所确定的集合间相似度值的精度。第一方面,本专利技术实施例提供了一种集合间相似度的确定方法,所述方法包括:获取第一数据集合和第二数据集合,其中,所述第一数据集合中的数据点的维数和第二数据集合中的数据点的维数相同;将第一数据集合和第二数据集合合并为第三数据集合;逐一从所述第三数据集合中的选取当前抽样点,对于每个所述当前抽样点,计算所述当前抽样点与所述第三数据集合中的其它数据点的KNN距离;根据所述当前抽样点的KNN距离选取满足k最近邻邻居的邻居点,其中,k为预设值;如果所述邻居点和所述当前抽样点分别属于所述第一数据集合和所述第二数据集合,为所述当前抽样点设置相似标记;根据所述第三数据集合中带有相似标记的抽样点的总数,计算所述第一数据集合和所述第二数据集合的相似度。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,计算所述当前抽样点与所述第三数据集合中的其它数据点的KNN距离的步骤,包括:采用距离函数计算所述当前抽样点与所述第三数据集合中的其它数据点的KNN距离;所述距离函数为欧氏距离、马氏距离、切比雪夫距离或余弦距离。结合第一方面,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,根据所述当前抽样点的KNN距离选取满足k最近邻邻居的邻居点的步骤,包括:将所述当前抽样点与所述第三数据集合中的其它各数据点的KNN距离按照递增的顺序进行排序;从排序后的KNN距离中,选取前k个KNN距离对应的数据点作为所述当前抽样点的k最近邻邻居的邻居点。结合第一方面,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,根据所述第三数据集合中带有相似标记的抽样点的总数,计算所述第一数据集合和所述第二数据集合的相似度的步骤,包括:将所述带有相似标记的抽样点的总数与所述第三数据集合所包含的抽样点总数的比值,作为所述第一数据集合和所述第二数据集合的相似度。结合第一方面,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,获取第一数据集合和第二数据集合的步骤,包括:获取第一目标集合和第二目标集合;判断第一目标集合与第二目标集合所包含的数据点的数量是否相同;如果是,将所述第一目标集合和第二目标集合分别作为第一数据集合和第二数据集合;如果否,从所述第一目标集合抽取设定数量的数据点作为第一数据集合,从所述第二目标集合抽取所述设定数量的数据点作为第二数据集合。结合第一方面的第四种可能的实施方式,本专利技术实施例提供了第一方面的第五种可能的实施方式,其中,所述方法还包括:如果第一目标集合与第二目标集合所包含的数据点的数量不相同,重复执行所述从所述第一目标集合抽取设定数量的数据点作为第一数据集合,从所述第二目标集合抽取所述设定数量的数据点作为第二数据集合的步骤,得到多组所述第一数据集合和第二数据集合;对于多组所述第一数据集合和第二数据集合,执行权利要求1-5任一项所述的集合间相似度的确定方法,得到各组所述第一数据集合和第二数据集合的相似度;计算各组所述第一数据集合和第二数据集合的相似度的均值;将所述均值作为所述第一目标集合与第二目标集合的相似度。结合第一方面,本专利技术实施例提供了第一方面的第六种可能的实施方式,其中,所述第一数据集合和第二数据集合分别为目标场景中的两个集合;所述方法目标场景包括以下之一:数据聚类、图像识别和自然语言处理;所述方法还包括:根据所述第一数据集合和第二数据集合的相似度进行所述目标场景对应的后续处理,其中,所述数据聚类对应的后续处理包括分类处理,所述图像识别对应的后续处理包括图像的识别处理,所述自然语言处理对应的后续处理包括匹配处理或分类处理。第二方面,本专利技术实施例提供了一种集合间相似度的确定装置,所述装置包括:数据集合获取模块,用于获取第一数据集合和第二数据集合,其中,所述第一数据集合中的数据点的维数和第二数据集合中的数据点的维数相同;将第一数据集合和第二数据集合合并为第三数据集合;相似度确定模块,用于逐一从所述第三数据集合中的选取当前抽样点,对于每个所述当前抽样点,计算所述当前抽样点与所述第三数据集合中的其它数据点的KNN距离;根据所述当前抽样点的KNN距离选取满足k最近邻邻居的邻居点,其中,k为预设值;如果所述邻居点和所述当前抽样点分别属于所述第一数据集合和所述第二数据集合,为所述当前抽样点设置相似标记;根据所述第三数据集合中带有相似标记的抽样点的总数,计算所述第一数据集合和所述第二数据集合的相似度。结合第二方面,本专利技术实施例提供了第二方面的第一种可能的实施方式,其中,所述相似度确定模块,还用于:将所述当前抽样点与所述第三数据集合中的其它各数据点的本文档来自技高网
...
集合间相似度的确定方法和装置

【技术保护点】
一种集合间相似度的确定方法,其特征在于,所述方法包括:获取第一数据集合和第二数据集合,其中,所述第一数据集合中的数据点的维数和第二数据集合中的数据点的维数相同;将第一数据集合和第二数据集合合并为第三数据集合;逐一从所述第三数据集合中选取当前抽样点,对于每个所述当前抽样点,计算所述当前抽样点与所述第三数据集合中的其它数据点的KNN距离;根据所述当前抽样点的KNN距离选取满足k最近邻邻居的邻居点,其中,k为预设值;如果所述邻居点和所述当前抽样点分别属于所述第一数据集合和所述第二数据集合,为所述当前抽样点设置相似标记;根据所述第三数据集合中带有相似标记的抽样点的总数,计算所述第一数据集合和所述第二数据集合的相似度。

【技术特征摘要】
1.一种集合间相似度的确定方法,其特征在于,所述方法包括:获取第一数据集合和第二数据集合,其中,所述第一数据集合中的数据点的维数和第二数据集合中的数据点的维数相同;将第一数据集合和第二数据集合合并为第三数据集合;逐一从所述第三数据集合中选取当前抽样点,对于每个所述当前抽样点,计算所述当前抽样点与所述第三数据集合中的其它数据点的KNN距离;根据所述当前抽样点的KNN距离选取满足k最近邻邻居的邻居点,其中,k为预设值;如果所述邻居点和所述当前抽样点分别属于所述第一数据集合和所述第二数据集合,为所述当前抽样点设置相似标记;根据所述第三数据集合中带有相似标记的抽样点的总数,计算所述第一数据集合和所述第二数据集合的相似度。2.根据权利要求1所述的方法,其特征在于,计算所述当前抽样点与所述第三数据集合中的其它数据点的KNN距离的步骤,包括:采用距离函数计算所述当前抽样点与所述第三数据集合中的其它数据点的KNN距离;所述距离函数为欧氏距离、马氏距离、切比雪夫距离或余弦距离。3.根据权利要求1所述的方法,其特征在于,根据所述当前抽样点的KNN距离选取满足k最近邻邻居的邻居点的步骤,包括:将所述当前抽样点与所述第三数据集合中的其它各数据点的KNN距离按照递增的顺序进行排序;从排序后的KNN距离中,选取前k个KNN距离对应的数据点作为所述当前抽样点的k最近邻邻居的邻居点。4.根据权利要求1所述的方法,其特征在于,根据所述第三数据集合中带有相似标记的抽样点的总数,计算所述第一数据集合和所述第二数据集合的相似度的步骤,包括:将所述带有相似标记的抽样点的总数与所述第三数据集合所包含的抽样点总数的比值,作为所述第一数据集合和所述第二数据集合的相似度。5.根据权利要求1所述的方法,其特征在于,获取第一数据集合和第二数据集合的步骤,包括:获取第一目标集合和第二目标集合;判断第一目标集合与第二目标集合所包含的数据点的数量是否相同;如果是,将所述第一目标集合和第二目标集合分别作为第一数据集合和第二数据集合;如果否,从所述第一目标集合抽取设定数量的数据点作为第一数据集合,从所述第二目标集合抽取所述设定数量的数据点作为第二数据集合。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:如果第一目标集合与第二目标集合所包含的数据点的数量不相同,重复执行...

【专利技术属性】
技术研发人员:殷鹏周家岐
申请(专利权)人:深圳先进技术研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1