基于不相似度与拉普拉斯正则化下的稀疏子集选择方法技术

技术编号：17467958 阅读：183 留言：0更新日期：2018-03-15 05:19

本发明专利技术公开了一种基于不相似度与拉普拉斯正则化下的稀疏子集选择方法，其通过利用给定源集和目标集之间的成对不相似性关系，考虑了从源集合中找到可以有效地代表目标集的代表元的问题，并提出了基于不相似度的低秩稀疏子集选择模型，可以使用凸规划有效地解决。在以往工作的基础上我们考虑了代表元之间的结构，使得代表元的数目更少，代表的质量更高。其中还使用Algorithm 1进行算法的有效实现，并且我们的算法可以更进一步并行化，因此可以进一步减少计算时间。

全部详细技术资料下载

【技术实现步骤摘要】
基于不相似度与拉普拉斯正则化下的稀疏子集选择方法
本申请涉及机器学习与数据分析领域，其尤其指一种基于不相似度与拉普拉斯正则化下的稀疏子集选择方法。
技术介绍
稀疏子集的选择：发现大量模型或数据点的子集，其保留了整个集合的特征，是计算机视觉应用中的机器学习和数据分析中的一个重要问题，其在图像和自然语言处理，生物/健康信息学，推荐系统等方面有大量应用。这些信息要素被称为代表元或示范。数据代表有助于总结和可视化文本/Web文档，图像和视频的数据集，因此增加数据分析师和领域专家的大规模数据集的可解释性。模型代表帮助有效地描述使用少量模型的复杂现象或事件，或者可以用于集合模型中的模型压缩。更重要的是，学习和推理算法(如最近邻(NN))分类器的计算时间和内存要求通过处理包含原始集合的大部分信息的代表来改进。选择一小部分产品推荐给客户不仅可以提高零售商的收入，还可以节省客户时间。此外，代表元有助于数据集的聚类，并且作为最原始的元素，可用于有效地合成/生成新的数据点。最后同样重要的，可以使用代表来获取高性能分类器，使用非常少的样本从大量未标记的样本中选择和注释。不相似度：不相似度是一种数据之间成对的对应关系，它有许多优点：第一，对于高维数据集，其中环境空间维度远高于数据集的基数，处理成对关系比在高维度测量向量上工作更有效。第二，虽然一些实际数据集不存在于向量空间中，例如社交网络数据或蛋白质组学数据中，但成对关系已经可以对其进行有效地计算。拉普拉斯正则化：低秩方法捕获潜在的低维-RANK表示(LRR)，作为有前途的数据结构，已经引起了模式分析和信号处理社区的极大兴趣。具体来...
基于不相似度与拉普拉斯正则化下的稀疏子集选择方法

【技术保护点】
一种基于不相似度与拉普拉斯正则化下的稀疏子集选择方法，其特征在于，所述方法包括：假设有一个源集X＝{x1,...,xM}和一个目标集Y＝{y1,...,yN}，他们分别含有M和N个元素，假设我们得到了X与Y之间的不相似度关系

【技术特征摘要】
1.一种基于不相似度与拉普拉斯正则化下的稀疏子集选择方法，其特征在于，所述方法包括：假设有一个源集X＝{x1,...,xM}和一个目标集Y＝{y1,...,yN}，他们分别含有M和N个元素，假设我们得到了X与Y之间的不相似度关系dij表示xi代表yj的好坏程度，它的值越小表示xi越能更好的代表yj；将这种二元关系写成如下的矩阵形式用如下矩阵代表这些未知变量用变量zij表示xi是否代表yj，当zij取0时表示xi代表yj，反之则不代表；为了保证每一个yj都有相应的代表元，规定基于不相似度选择一个很好地编码Y的X元素需要达到以下三个目标，第一，我们需要代表元能够足够好的代表yj，如果xi被选为代表元，则编码yj的花费为dijzij∈{0，dij}，则通过X的子集代表Y的花费为第二，我们希望能够选择尽可能少的代表元来代表目标集Y，这个目标等同于矩阵Z含有较少非零行。第三，我们希望所得到的代表元能够有比较好的结构，即代表元之间的“距离”能够尽可能的远；将这三个目标集合起来，我们得到以下优化函数

【专利技术属性】
技术研发人员：武继刚，贺子楠，姜文超，王勇，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人