保护隐私的文本分类方法及装置制造方法及图纸

技术编号:25836030 阅读:27 留言:0更新日期:2020-10-02 14:16
本说明书实施例提供一种保护隐私的文本分类方法及装置,在文本分类方法中,第一服务器接收数据请求方发送的文本分类请求,文本分类请求至少包括采用数据请求方的第一公钥进行加密的待分类文本。基于数据提供方提供的加密样本文本,构建词组集合。该加密样本文本采用第一公钥对样本文本加密得到。确定加密词频,该加密词频为词组集合中各词组在加密的待分类文本中的词频统计的加密值。至少向第二服务器发送加密词频,以使得第二服务器将加密词频加载到其可信执行环境TEE中,在TEE中,对加密词频进行解密,并将解密结果输入预先部署在TEE中的文本分类模型,得到待分类文本的分类结果,其中的文本分类模型基于上述样本文本训练得到。

【技术实现步骤摘要】
保护隐私的文本分类方法及装置
本说明书一个或多个实施例涉及计算机
,尤其涉及一种保护隐私的文本分类方法及装置。
技术介绍
在大数据时代,市场存在大量的数据合作需求。比如,某个企业或者组织(以下简称数据请求方)想要针对某个文本进行分类,而其在本地又没有维护相应的文本分类模型。那么就需要其它维护有文本分类模型的企业或者组织(以下简称数据提供方)协助其完成文本的分类。然而,对于数据提供方来说,文本分类模型属于其私有数据,不能泄露给数据请求方。而对于数据请求方来说,它也不能让数据提供方获取到所请求分类的文本。因此,需要提供一种方案,以便能够在保护双方隐私的情况下,实现文本的分类。
技术实现思路
本说明书一个或多个实施例描述了一种保护隐私的文本分类方法及装置,可以在确保各方数据安全的情况下实现文本的分类。第一方面,提供了一种保护隐私的文本分类方法,包括:接收数据请求方发送的文本分类请求,所述文本分类请求至少包括采用所述数据请求方的第一公钥进行加密的待分类文本;基于数据提供方提供的加密样本文本文档来自技高网...

【技术保护点】
1.一种保护隐私的文本分类方法,通过第一服务器执行,包括:/n接收数据请求方发送的文本分类请求,所述文本分类请求至少包括采用所述数据请求方的第一公钥进行加密的待分类文本;/n基于数据提供方提供的加密样本文本,构建词组集合;所述加密样本文本采用所述第一公钥对样本文本加密得到,所述词组集合中的每个词组由所述加密样本文本中的一个或多个加密样本词组成;/n确定加密词频,所述加密词频为所述词组集合中各词组在所述加密的待分类文本中的词频统计的加密值;/n至少向第二服务器发送所述加密词频,以使得所述第二服务器将所述加密词频加载到其可信执行环境TEE中,在所述TEE中,对所述加密词频进行解密,并将解密结果输入...

【技术特征摘要】
1.一种保护隐私的文本分类方法,通过第一服务器执行,包括:
接收数据请求方发送的文本分类请求,所述文本分类请求至少包括采用所述数据请求方的第一公钥进行加密的待分类文本;
基于数据提供方提供的加密样本文本,构建词组集合;所述加密样本文本采用所述第一公钥对样本文本加密得到,所述词组集合中的每个词组由所述加密样本文本中的一个或多个加密样本词组成;
确定加密词频,所述加密词频为所述词组集合中各词组在所述加密的待分类文本中的词频统计的加密值;
至少向第二服务器发送所述加密词频,以使得所述第二服务器将所述加密词频加载到其可信执行环境TEE中,在所述TEE中,对所述加密词频进行解密,并将解密结果输入预先部署在所述TEE中的文本分类模型,得到所述待分类文本的分类结果,其中所述文本分类模型基于所述样本文本训练得到。


2.根据权利要求1所述的方法,所述确定加密词频包括:
对于所述词组集合中各词组在所述加密的待分类文本中的词频进行统计;
采用所述数据请求方的第二公钥,对所述各词组的统计结果进行加密,得到所述加密词频。


3.根据权利要求2所述的方法,所述对于所述词组集合中各词组在所述加密的待分类文本中的词频进行统计,包括:
对于所述词组集合中任意的第一词组,依次对所述第一词组与所述加密的待分类文本中的各词组进行同态减法计算,并统计计算结果为预定数值的第一数目,将所述第一数目作为所述第一词组的统计结果。


4.根据权利要求1所述的方法,所述文本分类请求还包括初始加密词频,所述初始加密词频采用所述数据请求方的第三公钥对随机数加密得到;所述确定加密词频包括:
对于所述词组集合中任意的第一词组,通过迭代地修改所述初始加密词频,对所述第一词组在所述加密的待分类文本中的词频进行统计,得到所述第一词组的加密统计结果;将所述加密统计结果作为所述第一词组的加密词频。


5.根据权利要求4所述的方法,所述通过迭代地修改所述初始加密词频,对所述第一词组在所述加密的待分类文本中的词频进行统计,包括:
依次对所述第一词组与所述加密的待分类文本中的各词组进行同态减法计算,若与任一词组的计算结果为预定数值,则将所述初始加密词频与1相加后作为新的初始加密词频;将达到统计结束条件时的初始加密词频作为所述第一词组的加密统计结果。


6.一种保护隐私的文本分类方法,通过第二服务器执行;所述第二服务器包括可信执行环境TEE,所述TEE中部署有文本分类模型;所述方法包括:
接收第一服务器发送的加密词频;所述加密词频为词组集合中各词组在加密的待分类文本中的词频统计的加密值;
所述词组集合由所述第一服务器基于数据提供方提供的加密样本文本构建得到;所述加密样本文本采用数据请求方的第一公钥对样本文本加密得到;所述加密的待分类文本采用所述第一公钥对待分类文本加密得到;
将所述加密词频加载到所述TEE中,在所述TEE中,对所述加密词频进行解密;
将解密结果输入所述文本分类模型,得到所述待分类文本的分类结果,其中所述文本分类模型基于所述样本文本训练得到。


7.一种保护隐私的文本分类方法,通过可信第三方执行;所述可信第三方包括可信执行环境TEE,所述TEE中部署有文本分类模型;所述方法包括:
接收数据请求方发送的文本分类请求,所述文本分类请求至少包括采用所述数据请求方的第一公钥进行加密的待分类文本;
基于数据提供方提供的加密样本文本,构建词组集合;所述加密样本文本采用所述第一公钥对样本文本加密得到,所述词组集合中的每个词组由所述加密样本文本中的一个或多个加密样本词组成;
对于所述词组集合中各词组在所述加密的待分类文本中的词频进行统计,得到目标词频;
将所述目标词频加载到所述TEE中,在所述TEE中,将所述目标词频输入所述文本分类模型,得到所述待分类文本的分类结果,其中所述文本分类模型基于所述样本文本训练得到;
向所述数据请求方返回所述待分类文本的分类结果。


8.根据权利要求7所述的方法,所述对于所述词组集合中各词组在所述加密的待分类文本中的词频进行统计,包括:
对于所述词组集合中任意的第一词组,依次对所述第一词组与所述加密的待分类文本中的各词组进行同态减法计算,并统计计算结果为预定数值的第一数目,将所述第一数目作为所述第一词组的目标词频。


9.一种保护隐私的文本分类装置,设置于第一服务器,包括:
接收单元,用于接收数据请求方发送的文本分类请求,所述文本分类请求至少包括采用所述数据请求方的第一公钥进行加密的待分类文本;
构建单元,用于...

【专利技术属性】
技术研发人员:李龙飞周俊
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1