【技术实现步骤摘要】
数据处理方法、装置、设备和介质
本申请涉及计算机
,尤其涉及一种云计算技术,具体涉及一种数据处理方法、装置、设备和介质。
技术介绍
由于数据的不完备性,通过人工智能技术提升模型效果,往往需要融合多个机构的数据。但是,若将各机构的数据与其他机构共享,则数据的安全性难以保证,很可能造成数据泄露的问题。目前在融合多个机构的数据进行模型训练的过程中,主要通过数据加密的方式避免数据泄露,但是存在通过数据密文解密得到数据原文的风险。并且,非法机构也可能会根据数据密文反推得到数据原文,例如,根据加密数据的占比估算各数值所对应的特定字段,以及特定字段数据的数量。
技术实现思路
本申请实施例提供的一种数据处理方法、装置、设备和介质,以实现提高各机构数据的安全性。本申请实施例公开了一种数据处理方法,该方法由提供方执行,包括:确定原始数据中字段取值所关联的候选数值,并根据字段取值与候选数值之间的关联关系生成数据字典;根据所述数据字典对所述原始数据进行转换,得到转换数据;向第三方发送 ...
【技术保护点】
1.一种数据处理方法,其特征在于,由提供方执行,所述方法包括:/n确定原始数据中字段取值所关联的候选数值,并根据字段取值与候选数值之间的关联关系生成数据字典;/n根据所述数据字典对所述原始数据进行转换,得到转换数据;/n向第三方发送包括转换数据和数据字典信息的数据处理请求,所述数据处理请求用于指示第三方对至少两个提供方的数据进行处理。/n
【技术特征摘要】
1.一种数据处理方法,其特征在于,由提供方执行,所述方法包括:
确定原始数据中字段取值所关联的候选数值,并根据字段取值与候选数值之间的关联关系生成数据字典;
根据所述数据字典对所述原始数据进行转换,得到转换数据;
向第三方发送包括转换数据和数据字典信息的数据处理请求,所述数据处理请求用于指示第三方对至少两个提供方的数据进行处理。
2.根据权利要求1所述的方法,其特征在于,单个所述字段取值所关联的候选数值数量大于数量阈值。
3.根据权利要求1所述的方法,其特征在于,根据所述数据字典对所述原始数据进行转换,包括:
针对每一原始数据,基于数据字典从该原始数据中字段取值所关联的候选数值中,为该原始数据中字段取值选择目标数值;
采用选择的目标数值替换该原始数据中的字段取值。
4.根据权利要求3所述的方法,其特征在于,根据所述数据字典对所述原始数据进行转换,还包括:
采用字段符号替换该原始数据中的字段标识。
5.根据权利要求1所述的方法,其特征在于,生成数据字典之后,还包括:对所述数据字典进行加密得到字典密文;
向第三方发送包括转换数据和数据字典信息的数据处理请求,包括:
向第三方发送包括转换数据和字典密文的数据处理请求。
6.一种数据处理方法,其特征在于,由第三方执行,所述方法包括:
接收至少两个提供方发送的包括转换数据和数据字典信息的数据处理请求;其中,所述数据处理请求通过如下方式生成:确定原始数据中字段取值所关联的候选数值,并根据字段取值与候选数值之间的关联关系生成数据字典;根据所述数据字典对所述原始数据进行转换,得到转换数据;
对至少两个提供方的数据进行处理,得到处理结果。
7.根据权利要求6所述的方法,其特征在于,对至少两个提供方的数据进行处理,包括:
基于提供方的数据字典信息,将从提供方获取的转换数据转换为原始数据;
对至少两个提供方的原始数据进行处理。
8.根据权利要求7所述的方法,其特征在于,所述数据字典信息为字典密文;
基于提供方的数据字典信息,将从提供方获取的转换数据转换为原始数据,包括:
对提供方的字典密文进行解密,得到提供方的数据字典;
基于提供方的数据字典,将从提供方获取的转换数据转换为...
【专利技术属性】
技术研发人员:刘昊骋,方灵鹏,李原,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。