数据分类模型训练方法、数据处理方法及存储介质技术

技术编号:31313034 阅读:35 留言:0更新日期:2021-12-12 21:49
本申请公开了一种数据分类模型训练方法、数据处理方法、装置、电子设备及存储介质,其中,数据分类模型训练方法包括:将第一特征张量输入数据分类模型,输出第二特征张量;所述第一特征张量中的每一行第一向量对应表征数据对象的一个第一属性名;所述第二特征张量中的每一行元素对应表征任两行第一向量的距离;基于输出的第二特征张量,对各第一向量进行聚类,得到至少一簇;对每一簇下的设定数量的第一向量对应的第一属性名进行标注,得到第一样本集;基于所述第一样本集确定损失值,根据确定出的损失值更新数据分类模型的权重参数,直到确定出的所有第一样本集满足设定的结束训练条件。练条件。练条件。

【技术实现步骤摘要】
数据分类模型训练方法、数据处理方法及存储介质


[0001]本申请涉及计算机
,尤其涉及一种数据分类模型训练方法、数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]由于互联网内容的大规模、组织结构松散等特点,给用户获取信息和知识提出了挑战。知识图谱(Knowledge Graph)以强大的语义处理能力,为互联网时代的智能化信息应用奠定了基础。知识图谱旨在描述真实世界中存在的各种实体及关系,常见描述形式包括:“实体1—关系—实体2”或“实体—属性名—属性值”。
[0003]相关技术中,在多个属性名中确定一个标准化属性名时,通过字面匹配召回所有候选属性名,再由人工筛选标准的属性名,由于字面匹配的属性名可能对应不同的属性,字面不匹配的属性名也可能对应相同的属性,也就是说,召回供人工筛选的候选属性名关联度不高,导致筛选标准化属性名的效率不高、效果不佳。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种数据分类模型训练方法、数据处理方法、装置、电子设备及存储介质,以至少解决相关技术筛选属性名的效率不高、效本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据分类模型训练方法,其特征在于,所述方法包括:将第一特征张量输入数据分类模型,输出第二特征张量;所述第一特征张量中的每一行第一向量对应表征数据对象的一个第一属性名;所述第二特征张量中的每一行元素对应表征任两行第一向量的距离;基于输出的第二特征张量,对各第一向量进行聚类,得到至少一簇;对每一簇下的设定数量的第一向量对应的第一属性名进行标注,得到第一样本集;基于所述第一样本集确定损失值,根据确定出的损失值更新数据分类模型的权重参数,直到确定出的所有第一样本集满足设定的结束训练条件。2.根据权利要求1所述的方法,其特征在于,所述对每一簇下的设定数量的第一向量对应的第一属性名进行标注,得到第一样本集,包括:将每一簇下设定数量的第一向量中任两个第一向量对应的第一属性名进行组合,得到至少一个第一数据组;根据第一数据组包括的两个第一属性名是否对应同一类属性,对所述至少一个第一数据组中的每个第一数据组进行标注,得到每个第一数据组对应的标注结果;基于标注结果确定所述第一样本集。3.根据权利要求2所述的方法,其特征在于,所述基于标注结果确定所述第一样本集,包括:基于标注结果确定至少一个第二数据组;根据所有确定出的第二数据组得到所述第一样本集;其中,所述第二数据组由满足设定的构成条件的两个第一数据组构成;所述设定的构成条件表征两个第一数据组对应不同的标注结果,且两个第一数据组有且仅有一个相同的第一属性名。4.根据权利要求1所述的方法,其特征在于,所述将第一特征张量输入数据分类模型,包括:基于至少一类第一信息,确定对应的第一特征张量;将确定出的第一特征张量输入数据分类模型。5.根据权利要求4所述的方法,其特征在于,所述基于至少一类第一信息,确定对应的第一特征张量,包括:基于所述至少一类第一信息构建二分图,确定对应的第一特征张量;和/或,对所述至少一类第一信息进行分词,基于分词结果对应的词向量确定对应的第一特征张量。6.根据权利要求4所述的方法,其特征在于,至少两次确定对应的第一特征张量;所述将确定出的第一特征张量输入数据分类模型,包括:对确定出的至少两个第一特征张量进行非线性变换,得到第三特征张量;将得到的第三特征张量输入数据分类模型。7.根据权利要求1至6任一项所述的方法,其特征在于,所述设定的结束训练条件,包括:标注结果表征同一簇下的设定数量的第一向量对应的第一属性名对应同一类属性;所述标注结果表征对每一簇下的设定数量的第一向量对应的第一属性名进行标注得到的结
果。8.一种数据处理方法,其特征在于,所述方法包括:将第四特征张量输入数据分类模型,输出第五特征张量;所述第四特征张量中的每一行第二向量对应表征数据对象的一个第二属性名;所述第五特征张量中的每一行元素对应表征任两行第二向量的距离;基于输出的第五特征张量,对各第二向量进行聚类,得到至少一簇;基于聚类得到的每一簇对应的簇中心,确定每一...

【专利技术属性】
技术研发人员:袁平广李鹏黄英凡宋洪超程晓培李勇包勇军颜伟鹏
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1