The invention provides a multi label classification method for privacy protection based on ML kNN, which belongs to the field of information security. By using the homomorphic encryption system and the secure point product protocol, the multi label classification server can protect the users' and server 's privacy information and ensure the security of both parties' data, while the unclassified samples are correctly classified. This method is suitable for multi label classification and query task in the environment of lack of trust between the user and the server. It expands the space for the progress of the technical field, and has practical effect.
【技术实现步骤摘要】
一种基于ML-kNN的保护隐私的多标记分类方法
本专利技术属于信息安全
,具体涉及一种基于ML-kNN(Multi-Labelk-NearestNeighbor)的保护隐私的多标记分类方法。
技术介绍
多标记学习(multi-labellearning)是机器学习的一个重要研究领域,在多标记学习中,每一个训练样本都被赋予由一组类别标记组成的标记子集来表示其多种语义信息。而学习的任务为给未见的样本预测出所有相关的类别标记。针对多标记学习任务,近些年已经发展出了多种解决此类任务的方法。文献[Min-LingZhang,Zhi-HuaZhou,“ML-kNN;Alazylearningapproachtomulti-labellearning”,2007]提出一种基于k近邻算法改造的多标记学习算法。该算法基本思想是先根据未分类样本的特征信息找出样本的k个最近邻,然后基于这些近邻样本的标记信息,以最大化后验概率的准则来预测其相关标记。但是,该方法并没有考虑保护隐私的问题。如果分类模型和训练数据集是服务器的私有信息,未分类样本是用户的私有信息,则在分类时,服务器需要完全知道未分类样本的特征信息,才能根据特征信息找到样本的k近邻,同时服务器还会知道用户的未分类样本的最终分类结果。这些都不适用于当服务器和用户相互之间不可信环境下的多标记分类任务,将会泄漏双方的隐私信息。因此,该方案的应用范围具有一定的局限性。下面介绍本专利涉及的背景知识:(1)多标记学习;(2)ML-kNN方案;(3)Paillier同态加密系统;(4)安全计算协议;(5)形式化安全和攻击者模型。 ...
【技术保护点】
一种基于ML‑kNN的保护隐私的多标记分类方法,其特征在于,包括如下步骤:步骤1:服务器根据自己的训练数据集D建立好分类模型,计算出各种k取值情况下的先验概率和后验概率,k表示训练数据集D中的每个样本xi(i=1,…,m)的最近邻居的数量;步骤2:计算未分类样本t与训练数据集D中的每个样本xi(i=1,…,m)之间的距离;步骤3:根据步骤2中得到的距离,找出未分类样本t在训练数据集D中的kNN样本;步骤4:根据步骤3中得到的kNN样本,统计出针对每个标记l跟该标记相关的近邻数量
【技术特征摘要】
1.一种基于ML-kNN的保护隐私的多标记分类方法,其特征在于,包括如下步骤:步骤1:服务器根据自己的训练数据集D建立好分类模型,计算出各种k取值情况下的先验概率和后验概率,k表示训练数据集D中的每个样本xi(i=1,…,m)的最近邻居的数量;步骤2:计算未分类样本t与训练数据集D中的每个样本xi(i=1,…,m)之间的距离;步骤3:根据步骤2中得到的距离,找出未分类样本t在训练数据集D中的kNN样本;步骤4:根据步骤3中得到的kNN样本,统计出针对每个标记l跟该标记相关的近邻数量l∈Y,Y={y1,y2,…,yq}表示有q个不同类别组成的标记空间;步骤5:根据步骤4中得到的计算得到未分类样本t与标记l相关的概率以及未分类样本t与标记s不相关的概率比较和的大小,若则样本t与标记l相关,否则样本t与标记l不相关,从而得到最终的分类结果。2.根据权利要求1所述的一种基于ML-kNN的保护隐私的多标记分类方法,其特征在于,步骤2的具体计算过程为:样本t用d维向量表示t=(t1,t2,…,td),将t扩展为t=(t1,t2,…,td,1);服务器的训练数据集中每个样本xi用d维向量表示xi=(xi1,xi2,…,xid),将每个样本向量扩展成服务器和用户利用安全点积协议来计算出未分类样本数据t与服务器的训练数据集D中的每个样本之间的距离dist(xi,t)=si+ci(i=1,…,m),其中si只有服务器知道,ci只有用户知道。3.根据权利要求2所述的一种基于ML-kNN的保护隐私的多标记分类方法,其特征在于,步骤3的具体步骤为:用户利用Paillier同态加密系统生成密钥对(sk,pk),选取随机整数A,用户加密ci得到Epk(Aci)(i∈{1,…,m})并发送给服务器,服务器选取随机整数R,加密si并与接收到的用户发送的距离密文合并,得到Epk(A(ci+si)+R)(i∈{1,…,m})并发送给用户;用...
【专利技术属性】
技术研发人员:刘洋,王箭,朱友文,
申请(专利权)人:南京航空航天大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。