【技术实现步骤摘要】
数据处理方法、装置、计算机及存储介质
[0001]本申请涉及计算机
,尤其涉及一种数据处理方法、装置、计算机及存储介质。
技术介绍
[0002]目前经常会存在需要为用户提供实体成分推荐和替换服务等的情况,为解决该问题,一般会基于语义相似性或明确的替换规则,实现实体替换。也就是,识别需要替换的实体(记作实体A)的语义,再获取与该需要替换的实体(即实体A)的语义相似的实体(记作实体B),将实体B作为实体A的替换实体,而这一方式,使得一个实体的替换实体完全依赖于该实体的语义,导致在实体替换过程中会忽略从而导致实体替换的准确性较低。或者,直接基于明确的替换规则,获取满足实体的替换规则的替换实体,而这一方式需要不断明确替换规则,还需要部署可以用于对其他实体进行替换的实体集群,需要耗费较多的资源和时间,导致实体替换效率较低。
技术实现思路
[0003]本申请实施例提供了一种数据处理方法、装置、计算机及存储介质,可以提高数据处理的准确性及效率。
[0004]本申请实施例一方面提供了一种数据处理方法,该方法包括:获取待更新数据所在的知识三元组的三元组序列,基于待更新数据为三元组序列添加掩码数据,生成掩码序列;对掩码序列中的掩码数据进行预测,得到针对待更新数据的候选预测数据;对候选预测数据与待更新数据进行对抗处理,从候选预测数据中,确定针对待更新数据的替换实体。
[0005]本申请实施例一方面提供了一种数据处理装置,该装置包括:序列获取模块,用于获取待更新数据所在的知识三元组的三元组序列;掩码处理 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取待更新数据所在的知识三元组的三元组序列,基于所述待更新数据为所述三元组序列添加掩码数据,生成掩码序列;对所述掩码序列中的掩码数据进行预测,得到针对所述待更新数据的候选预测数据;对所述候选预测数据与所述待更新数据进行对抗处理,从所述候选预测数据中,确定针对所述待更新数据的替换实体。2.如权利要求1所述的方法,其特征在于,所述获取待更新数据所在的知识三元组的三元组序列,包括:获取领域知识图谱,在所述领域知识图谱中获取待更新数据所在的知识三元组,对所述知识三元组进行分词处理,得到所述知识三元组的三元组序列;或者,获取待处理信息,对所述待处理信息进行解析,确定所述待处理信息中的待更新数据,基于所述待更新数据对所述待处理信息进行三元组解析,得到包括所述待更新数据的知识三元组,获取所述知识三元组的三元组序列。3.如权利要求1所述的方法,其特征在于,所述基于所述待更新数据为所述三元组序列添加掩码数据,生成掩码序列,包括:获取掩码语言模型的目标掩码添加方式,基于所述目标掩码添加方式及所述待更新数据在所述三元组序列中的位置,为所述三元组序列添加掩码数据,生成掩码序列;所述对所述掩码序列中的掩码数据进行预测,得到针对所述待更新数据的候选预测数据,包括:将所述掩码序列输入所述掩码语言模型,对所述掩码序列中的掩码数据进行预测,得到针对所述待更新数据的候选预测数据。4.如权利要求3所述的方法,其特征在于,所述方法还包括:获取第一样本序列,在所述第一样本序列中确定第一样本数据,获取所述第一样本数据在所述第一样本序列中的第一样本位置;基于所述第一样本位置及所述第一样本数据,采用M个掩码添加方式分别为所述第一样本序列添加第一样本掩码数据,生成M个第一样本掩码序列;M为正整数;采用所述掩码语言模型分别对所述M个第一样本掩码序列进行预测,得到所述M个第一样本掩码序列分别对应的第一样本预测数据;基于所述M个第一样本掩码序列分别对应的第一样本预测数据,及所述第一样本序列,从所述M个掩码添加方式中确定所述掩码语言模型的目标掩码添加方式。5.如权利要求4所述的方法,其特征在于,所述基于所述M个第一样本掩码序列分别对应的第一样本预测数据,及所述第一样本序列,从所述M个掩码添加方式中确定所述掩码语言模型的目标掩码添加方式,包括:将所述M个第一样本掩码序列分别对应的第一样本预测数据,输入三元组检测网络中进行三元组检测,得到所述M个第一样本掩码序列分别对应的样本预测准确度;将所述第一样本序列输入所述三元组检测网络中进行三元组检测,得到所述第一样本序列所对应的第一样本准确度;将M个样本预测准确度分别与所述第一样本准确度进行准确度对比,得到所述M个掩码添加方式分别对应的添加质量指标;
将所述添加质量指标最大的掩码添加方式,确定为所述掩码语言模型的目标掩码添加方式。6.如权利要求5所述的方法,其特征在于,所述方法还包括:获取正三元组样本,对所述正三元组样本进行实体替换,生成负三元组样本;将所述正三元组样本及所述负三元组样本分别输入初始三元组检测网络中进行三元组检测,得到所述正三元组样本的正样本准确度,以及所述负三元组样本的负样本准确度;获取所述正三元组样本的正三元组标签以及所述负三元组样本的负三元组标签,根据所述正样本准确度、所述正三元组标签、所述负样本准确度及所述负三元组标签,构建第一损失;采用所述第一损失对所述初始三元组检测网络进行参数调整,得到所述三元组检测网络。7.如权利要求3所述的方法,其特征在于,所述基于所述目标掩码添加方式及所述待更新数据在所述三元组序列中的位置,为所述三元组序列添加掩码数据,生成掩码序列,包括:若所述目标掩码添加方式为替换添加方式,则基于所述待更新数据在所述三元组序列中的位置,将所述三元组序列中的所述待更新数据替换为掩码数据,得到掩码序列;若所述目标掩码添加方式为增加添加方式,则基于所述待更新数据在所述三元组序列中的位置,在所述三元组序列中插入所述掩码数据,得到所述掩码序列;所述掩码数据与所述待更新数据在所述三元组序列中相邻;若所述目标掩码添加方式为删除添加方式,则基于所述待更新数据在所述三元组序列...
【专利技术属性】
技术研发人员:石志林,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。