【技术实现步骤摘要】
一种基于隐私集合运算的安全文本分类方法和系统
[0001]本专利技术涉及数据加密的
,具体是一种基于隐私集合运算的安全文本分类方法和系统。
技术介绍
[0002]在当前大数据时代,数据类型丰富多彩且在经过处理分析后通常具有极高的使用价值和商用价值。其中,个人文本消息可以说覆盖了生活的方方面面,作为一种最常见最基本的数据,其背后价值更是举足轻重,对其进行扫描分析可获得极高的经济、社会价值。分类是机器学习(ML)中的一种监督学习技术,其目标是在给定一组带有类标签的训练数据的情况下构建分类器,该算法可用于个人文本消息分类,解决许多实际问题,目前在监控、电子商务和心理保健等方面有很多实用性应用,如将电子邮件、短消息服务(SMS)分类为垃圾信息或非垃圾信息、医疗状况的诊断(有病与无病)、仇恨言论检测、人脸分类、指纹识别等。但随之而来的便是个人文本信息中的隐私信息泄露与滥用问题,授予应用程序访问个人信息的权限很容易导致隐私侵犯与犯罪事件的产生。因此,隐私保护机器学习(PPML)的研究逐渐兴起,其中应用最广泛的是差分隐私(DP)技术,该技术通过在查询信息中添加噪声,从而防止敌手了解有关训练数据集中任何特定个人的信息。虽然在ML设置中的DP旨在保护训练数据集中的个人隐私,但是对于使用ML模型分类的预测数据隐私也非常重要。为了达到对数据更全面的保护,安全多方计算(MPC)被成功应用于许多具有结构化数据的ML任务中。同态加密(HE)是一种可以直接对密文执行计算的加密模式,曾被用于加密隐私保护文本分析框架,达到对数据提供者方数据的保 ...
【技术保护点】
【技术特征摘要】
1.一种基于隐私集合运算的安全文本分类方法,其特征在于,包含以下步骤:S1:文本提供方与模型提供方分别构造各自关键词的字符串组,模型提供方在ML模型中利用已知数据集计算后续利用贝叶斯公式时所需的各项概率;S2:文本提供方与模型提供方利用各自的字符串组执行安全特征提取,最后得到在大小为q的环上的秘密分享值[[y1]]
q
,...,[[y
n
]]
q
,其中若模型提供方的关键词i在文本提供方构造的信息中出现的单字符对应的二进制字符串组A={a1,...,a
m
}中存在,则在秘密分享值向量对应位置的数值y
i
为1,否则为0;S3:对于两种分类,文本提供方与模型提供方安全计算出两类所对应的贝叶斯公式的分子部分,由于每一类待比较的式子分母部分都相同,故省略计算;S4:文本提供方与模型提供方安全比较对应两个类的结果,最终输出分类结果,并对两方公开。2.根据权利要求1所述的一种基于隐私集合运算的安全文本分类方法,其特征在于,所述文本提供方与模型提供方分别构造各自关键词的字符串组,文本提供方构造其信息中出现的单字符对应的二进制字符串组A={a1,...,a
m
},模型提供方构造其在文本分类模型中出现的单字符对应的二进制字符串组B={b1,...,b
n
},其中A,B中的每一项都为一个长度为l的二进制字符串。3.根据权利要求1所述的一种基于隐私集合运算的安全文本分类方法,其特征在于,其特征在于:步骤S1所述计算后续利用贝叶斯公式时所需的各项概率,包括以下子步骤:S1.1:获取已知数据集内容并将其里面的内容解析为一元组,即单字符,其中将字母都转为小写,除字母外的内容全删除;S1.2:对解析的单字符进行处理,包括利用词干提取方式将同义词归类为一个相同的词汇、利用停用词方式过滤掉与分类任务无关的词汇;S1.3:将从已知数据集中的有用信息拆出来的单字符放入一个词汇存储集合,再将从已知数据集中的垃圾信息中拆出来的单字符放入另一个词汇存储集合,...
【专利技术属性】
技术研发人员:张峰,石建,赵川,
申请(专利权)人:杭州后量子密码科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。