数据处理方法、装置、计算机及存储介质制造方法及图纸

技术编号:38678010 阅读:17 留言:0更新日期:2023-09-02 22:52
本申请实施例公开了一种数据处理方法、装置、计算机及存储介质,涉及人工智能领域及云技术领域,该方法包括:获取待更新数据所在的知识三元组的三元组序列,基于待更新数据为三元组序列添加掩码数据,生成掩码序列;对掩码序列中的掩码数据进行预测,得到针对待更新数据的候选预测数据;对候选预测数据与待更新数据进行对抗处理,从候选预测数据中,确定针对待更新数据的替换实体。采用本申请,可以提高数据处理的效率及准确性。数据处理的效率及准确性。数据处理的效率及准确性。

【技术实现步骤摘要】
数据处理方法、装置、计算机及存储介质


[0001]本申请涉及计算机
,尤其涉及一种数据处理方法、装置、计算机及存储介质。

技术介绍

[0002]目前经常会存在需要为用户提供实体成分推荐和替换服务等的情况,为解决该问题,一般会基于语义相似性或明确的替换规则,实现实体替换。也就是,识别需要替换的实体(记作实体A)的语义,再获取与该需要替换的实体(即实体A)的语义相似的实体(记作实体B),将实体B作为实体A的替换实体,而这一方式,使得一个实体的替换实体完全依赖于该实体的语义,导致在实体替换过程中会忽略从而导致实体替换的准确性较低。或者,直接基于明确的替换规则,获取满足实体的替换规则的替换实体,而这一方式需要不断明确替换规则,还需要部署可以用于对其他实体进行替换的实体集群,需要耗费较多的资源和时间,导致实体替换效率较低。

技术实现思路

[0003]本申请实施例提供了一种数据处理方法、装置、计算机及存储介质,可以提高数据处理的准确性及效率。
[0004]本申请实施例一方面提供了一种数据处理方法,该方法包括:获取待更新数据所在的知识三元组的三元组序列,基于待更新数据为三元组序列添加掩码数据,生成掩码序列;对掩码序列中的掩码数据进行预测,得到针对待更新数据的候选预测数据;对候选预测数据与待更新数据进行对抗处理,从候选预测数据中,确定针对待更新数据的替换实体。
[0005]本申请实施例一方面提供了一种数据处理装置,该装置包括:序列获取模块,用于获取待更新数据所在的知识三元组的三元组序列;掩码处理模块,用于基于待更新数据为三元组序列添加掩码数据,生成掩码序列;掩码预测模块,用于对掩码序列中的掩码数据进行预测,得到针对待更新数据的候选预测数据;替换确定模块,用于对候选预测数据与待更新数据进行对抗处理,从候选预测数据中,确定针对待更新数据的替换实体。
[0006]其中,该序列获取模块,包括:图谱解析单元,用于获取领域知识图谱,在领域知识图谱中获取待更新数据所在的知识三元组,对知识三元组进行分词处理,得到知识三元组的三元组序列;或者,信息解析单元,用于获取待处理信息,对待处理信息进行解析,确定待处理信息中的待更新数据,基于待更新数据对待处理信息进行三元组解析,得到包括待更新数据的知识三元组,获取知识三元组的三元组序列。
[0007]其中,该掩码处理模块,包括:方式获取单元,用于获取掩码语言模型的目标掩码添加方式;掩码添加单元,用于基于目标掩码添加方式及待更新数据在三元组序列中的位置,为三元组序列添加掩码数据,生成掩码序列;该掩码预测模块,具体用于:将掩码序列输入掩码语言模型,对掩码序列中的掩码数据进行预测,得到针对待更新数据的候选预测数据。
[0008]其中,该装置还包括:第一样本获取模块,用于获取第一样本序列,在第一样本序列中确定第一样本数据,获取第一样本数据在第一样本序列中的第一样本位置;多方式掩码模块,用于基于第一样本位置及第一样本数据,采用M个掩码添加方式分别为第一样本序列添加第一样本掩码数据,生成M个第一样本掩码序列;M为正整数;第一样本预测模块,用于采用掩码语言模型分别对M个第一样本掩码序列进行预测,得到M个第一样本掩码序列分别对应的第一样本预测数据;方式确定模块,用于基于M个第一样本掩码序列分别对应的第一样本预测数据,及第一样本序列,从M个掩码添加方式中确定掩码语言模型的目标掩码添加方式。
[0009]其中,该方式确定模块,包括:第一检测单元,用于将M个第一样本掩码序列分别对应的第一样本预测数据,输入三元组检测网络中进行三元组检测,得到M个第一样本掩码序列分别对应的样本预测准确度;第二检测单元,用于将第一样本序列输入三元组检测网络中进行三元组检测,得到第一样本序列所对应的第一样本准确度;质量确定单元,用于将M个样本预测准确度分别与第一样本准确度进行准确度对比,得到M个掩码添加方式分别对应的添加质量指标;方式确定单元,用于将添加质量指标最大的掩码添加方式,确定为掩码语言模型的目标掩码添加方式。
[0010]其中,该装置还包括:样本构建模块,用于获取正三元组样本,对正三元组样本进行实体替换,生成负三元组样本;准确检测模块,用于将正三元组样本及负三元组样本分别输入初始三元组检测网络中进行三元组检测,得到正三元组样本的正样本准确度,以及负三元组样本的负样本准确度;损失构建模块,用于获取正三元组样本的正三元组标签以及负三元组样本的负三元组标签,根据正样本准确度、正三元组标签、负样本准确度及负三元组标签,构建第一损失;第一调整模块,用于采用第一损失对初始三元组检测网络进行参数调整,得到三元组检测网络。
[0011]其中,该掩码添加单元,包括:替换添加子单元,用于若目标掩码添加方式为替换添加方式,则基于待更新数据
在三元组序列中的位置,将三元组序列中的待更新数据替换为掩码数据,得到掩码序列;增加添加子单元,用于若目标掩码添加方式为增加添加方式,则基于待更新数据在三元组序列中的位置,在三元组序列中插入掩码数据,得到掩码序列;掩码数据与待更新数据在三元组序列中相邻;删除添加子单元,用于若目标掩码添加方式为删除添加方式,则基于待更新数据在三元组序列中的位置,将三元组序列中的待更新数据及待更新数据的邻接数据替换为掩码数据,得到掩码序列。
[0012]其中,该装置还包括:第二样本获取模块,用于获取第二样本序列,为第二样本序列添加第二样本掩码数据,得到第二样本掩码序列,获取第二样本掩码数据在第二样本序列中所对应的第二样本数据;第二样本预测模块,用于将第二样本掩码序列输入初始掩码语言模型中进行预测,得到第二样本预测数据;第二调整模块,用于根据第二样本数据及第二样本预测数据构建第二损失,采用第二损失对初始掩码语言模型进行参数调整,得到掩码语言模型。
[0013]其中,该掩码处理模块,包括:长度获取单元,用于获取三元组序列的第一序列长度,获取掩码语言模型的模型输入长度;序列分段单元,用于若第一序列长度大于模型输入长度,则对三元组序列进行分段处理,得到至少两个子段序列,将至少两个子段序列中包括待更新数据的子段序列,确定为目标子段序列;向量获取单元,用于获取组成目标子段序列的序列词组,获取序列词组的词组语义向量及序列词组在三元组序列中的词组位置向量;向量确定单元,用于基于词组语义向量及词组位置向量,组成序列词组的词组向量;该掩码添加单元,还用于为词组向量添加掩码数据,生成掩码序列。
[0014]其中,该向量确定单元,包括:嵌入确定子单元,用于获取序列词组在知识三元组中的参数类型,基于序列词组的参数类型确定序列词组的嵌入向量;向量组合子单元,用于将序列词组的词组语义向量、词组位置向量及嵌入向量,组成序列词组的初始词组向量;向量编码子单元,用于对初始词组向量进行编码处理,生成序列词组的词组向量。
[0015]其中,该替换确定模块,包括:参数检测单元,用于获取候选预测数据的预测概率,获取候选预测数据与待更新数据之间的数据相似度;候选检测单元,用于将三元组序列中的待更新数据替换本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取待更新数据所在的知识三元组的三元组序列,基于所述待更新数据为所述三元组序列添加掩码数据,生成掩码序列;对所述掩码序列中的掩码数据进行预测,得到针对所述待更新数据的候选预测数据;对所述候选预测数据与所述待更新数据进行对抗处理,从所述候选预测数据中,确定针对所述待更新数据的替换实体。2.如权利要求1所述的方法,其特征在于,所述获取待更新数据所在的知识三元组的三元组序列,包括:获取领域知识图谱,在所述领域知识图谱中获取待更新数据所在的知识三元组,对所述知识三元组进行分词处理,得到所述知识三元组的三元组序列;或者,获取待处理信息,对所述待处理信息进行解析,确定所述待处理信息中的待更新数据,基于所述待更新数据对所述待处理信息进行三元组解析,得到包括所述待更新数据的知识三元组,获取所述知识三元组的三元组序列。3.如权利要求1所述的方法,其特征在于,所述基于所述待更新数据为所述三元组序列添加掩码数据,生成掩码序列,包括:获取掩码语言模型的目标掩码添加方式,基于所述目标掩码添加方式及所述待更新数据在所述三元组序列中的位置,为所述三元组序列添加掩码数据,生成掩码序列;所述对所述掩码序列中的掩码数据进行预测,得到针对所述待更新数据的候选预测数据,包括:将所述掩码序列输入所述掩码语言模型,对所述掩码序列中的掩码数据进行预测,得到针对所述待更新数据的候选预测数据。4.如权利要求3所述的方法,其特征在于,所述方法还包括:获取第一样本序列,在所述第一样本序列中确定第一样本数据,获取所述第一样本数据在所述第一样本序列中的第一样本位置;基于所述第一样本位置及所述第一样本数据,采用M个掩码添加方式分别为所述第一样本序列添加第一样本掩码数据,生成M个第一样本掩码序列;M为正整数;采用所述掩码语言模型分别对所述M个第一样本掩码序列进行预测,得到所述M个第一样本掩码序列分别对应的第一样本预测数据;基于所述M个第一样本掩码序列分别对应的第一样本预测数据,及所述第一样本序列,从所述M个掩码添加方式中确定所述掩码语言模型的目标掩码添加方式。5.如权利要求4所述的方法,其特征在于,所述基于所述M个第一样本掩码序列分别对应的第一样本预测数据,及所述第一样本序列,从所述M个掩码添加方式中确定所述掩码语言模型的目标掩码添加方式,包括:将所述M个第一样本掩码序列分别对应的第一样本预测数据,输入三元组检测网络中进行三元组检测,得到所述M个第一样本掩码序列分别对应的样本预测准确度;将所述第一样本序列输入所述三元组检测网络中进行三元组检测,得到所述第一样本序列所对应的第一样本准确度;将M个样本预测准确度分别与所述第一样本准确度进行准确度对比,得到所述M个掩码添加方式分别对应的添加质量指标;
将所述添加质量指标最大的掩码添加方式,确定为所述掩码语言模型的目标掩码添加方式。6.如权利要求5所述的方法,其特征在于,所述方法还包括:获取正三元组样本,对所述正三元组样本进行实体替换,生成负三元组样本;将所述正三元组样本及所述负三元组样本分别输入初始三元组检测网络中进行三元组检测,得到所述正三元组样本的正样本准确度,以及所述负三元组样本的负样本准确度;获取所述正三元组样本的正三元组标签以及所述负三元组样本的负三元组标签,根据所述正样本准确度、所述正三元组标签、所述负样本准确度及所述负三元组标签,构建第一损失;采用所述第一损失对所述初始三元组检测网络进行参数调整,得到所述三元组检测网络。7.如权利要求3所述的方法,其特征在于,所述基于所述目标掩码添加方式及所述待更新数据在所述三元组序列中的位置,为所述三元组序列添加掩码数据,生成掩码序列,包括:若所述目标掩码添加方式为替换添加方式,则基于所述待更新数据在所述三元组序列中的位置,将所述三元组序列中的所述待更新数据替换为掩码数据,得到掩码序列;若所述目标掩码添加方式为增加添加方式,则基于所述待更新数据在所述三元组序列中的位置,在所述三元组序列中插入所述掩码数据,得到所述掩码序列;所述掩码数据与所述待更新数据在所述三元组序列中相邻;若所述目标掩码添加方式为删除添加方式,则基于所述待更新数据在所述三元组序列...

【专利技术属性】
技术研发人员:石志林
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1