当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于迁移学习的具有隐私保护功能的文本分类方法技术

技术编号:24853628 阅读:37 留言:0更新日期:2020-07-10 19:07
本发明专利技术公开一种基于迁移学习的具有隐私保护功能的文本分类方法,通过迁移学习来对不同分布的样本进行处理,使用户能够利用他人的文本协助进行训练;利用同态加密,设计了一个能够保护隐私的文本分类器的训练方法,并通过实验表明其能提高分类准确率,同时满足隐私保护。

【技术实现步骤摘要】
一种基于迁移学习的具有隐私保护功能的文本分类方法
本专利技术涉及一种文本分类器的构建方法,尤其涉及的是一种基于迁移学习的能够保护隐私的逻辑回归分文本类器的训练方法,可以通过本专利技术得到的文本类器对文本数据进行分类。
技术介绍
文本分类是一种很常见的技术,在互联网中应用广泛,例如判断垃圾邮件,分析评论的情绪,判断文字主题等场景。目前主流的方法是通过训练机器学习模型来进行文本分类,即将一些文本打上标签作为训练集,训练一个逻辑回归或者神经网络模型,而其中数据量不足是影响分类器效果的很大的一个因素。因此我们期望利用他人的文本协助进行训练,其中存在两个问题,其一是每个人文本的分布并不相同。其二是他人的文本例如邮件可能含有他人的隐私信息不能直接透露,同时其数据分布可能透露出他人的经常浏览的话题等信息也不能泄露,目前已有的差分隐私方法不能同时保护这两类隐私信息。
技术实现思路
专利技术目的:针对现有技术中存在的问题与不足,本专利技术提供了一种基于迁移学习的具有隐私保护功能的文本分类方法,通过迁移学习来对不同分布的样本进行处理,使本文档来自技高网...

【技术保护点】
1.一种基于迁移学习的具有隐私保护功能的文本分类方法,其特征在于,参与文本分类器训练的分为三类节点,一类是数量为若干个的源节点,每个源节点拥有自己的私有带标签的文本数据集,一类为目标节点,目标节点拥有自己的私有的带标签的文本数据集,并且得到训练好的文本分类器,一类为公共节点,公共节点拥有公共的文本数据集,允许各节点访问;三类节点之间互相通过网络连接并可以进行安全的数据传输;/n迁移学习的文本分类器训练过程如下:/n步骤201,每个源节点利用其私有的文本数据S

【技术特征摘要】
1.一种基于迁移学习的具有隐私保护功能的文本分类方法,其特征在于,参与文本分类器训练的分为三类节点,一类是数量为若干个的源节点,每个源节点拥有自己的私有带标签的文本数据集,一类为目标节点,目标节点拥有自己的私有的带标签的文本数据集,并且得到训练好的文本分类器,一类为公共节点,公共节点拥有公共的文本数据集,允许各节点访问;三类节点之间互相通过网络连接并可以进行安全的数据传输;
迁移学习的文本分类器训练过程如下:
步骤201,每个源节点利用其私有的文本数据Sk训练一个私有的逻辑回归模型θk;
步骤202,每个源节点获取公共节点的文本数据集合P,计算其私有文本数据集S与公共节点的文本数据集合P的重要性权重向量wk;
步骤203,目标节点计算其自身的文本数据集T与公共节点的文本数据集P的重要性权重wT;
步骤204,按照假设权重的计算方法,目标节点计算出假设权重向量wH,使得按照wH线性组合wk得到的结果与wT的KL散度最小;
步骤205,对于源节点i,生成K个随机数(ri,0,ri,1,...,ri,K)且保证生成完毕后将ri,k发送给源节点k;
步骤206,目标节点生成一对公钥和私钥,使用公钥将wH(k)加密后发送给源节点k;
步骤207,对于源节点k的训练出的逻辑回归模型θk的第j维(j=1,2,3,...,d),源节点i在wH(k)的密文上通过同态加密计算出并把结果送回给目标节点;
步骤208,目标节点用私钥将各个源节点返回的解密并进行求和,得到目标高斯分布的μ值,即计算将计算结果再次利用其公钥进行加密,将密文发送给每个源节点;
步骤209,每个源节点利用同态加密计算并将结果发送给目标节点;
步骤210,目标节点用私钥将各个源传回的σk解密,然后计算目标节点利用μ与σ的高斯先验信息训练逻辑回归模型;得到文本分类器;
利用得到的文本分类器进行文本分类,方法过程结束。


2.根据权利要求1所述的基于迁移学习的具有隐私保护功能的文本分类方法,其特征在于...

【专利技术属性】
技术研发人员:张渊刘继钊仲盛
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1