System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 针对结构化数据的分类方法和装置制造方法及图纸_技高网

针对结构化数据的分类方法和装置制造方法及图纸

技术编号:41217018 阅读:4 留言:0更新日期:2024-05-09 23:38
本说明书实施例提供一种针对结构化数据的分类方法和装置,方法包括:至少基于待识别的结构化数据的元数据信息,构建第一文本;所述元数据信息用于描述所述待识别的结构化数据的来源或属性;将所述第一文本输入神经网络模型,得到第一编码向量;将分类模板包括的各个数据类型的名称分别作为一个第二文本,将各个所述第二文本分别输入所述神经网络模型,得到各个数据类型分别对应的第二编码向量;根据所述第一编码向量和各个数据类型分别对应的第二编码向量,计算所述待识别的结构化数据分别与各个数据类型之间的相似度;根据各个相似度的排序,确定所述待识别的结构化数据的分类结果。能够兼顾数据分类的灵活性和准确性。

【技术实现步骤摘要】

本说明书一个或多个实施例涉及计算机领域,尤其涉及针对结构化数据的分类方法和装置


技术介绍

1、随着数字经济的发展,数据成为国家和社会的重要资源和要素,数据的流通利用是实现数据价值的必然路径,也是推动经济社会发展的重要动力。但是,数据的流通利用也面临着诸多风险和挑战,如数据安全、数据隐私、数据合规、数据质量等,需要通过数据分类分级,规范数据行为,保障数据权益,维护数据秩序。

2、数据分类分级是指根据数据的属性、特征、敏感度或重要性,将数据划分为不同的类别和级别,并采取相应的保护措施。对数据进行有效分类分级,可以使得在数据安全管理上采用更加精细的措施,使数据在共享使用和安全使用之间获得平衡。其中,数据分类是指按照数据的来源、内容或用户对数据进行分类。而数据分级是指按照数据的价值、内容的敏感程度、影响或分发范围不同对数据进行敏感级别划分。通常情况,需要先对数据进行分类,然后再对每一类数据进行分级。

3、现有技术针对结构化数据的分类方案,无法应对数据类型的多样性和复杂性,以及数据标注的成本和难度高等问题,从而无法兼顾数据分类的灵活性和准确性。


技术实现思路

1、本说明书一个或多个实施例描述了一种针对结构化数据的分类方法和装置,能够兼顾数据分类的灵活性和准确性。

2、第一方面,提供了一种针对结构化数据的分类方法,方法包括:

3、至少基于待识别的结构化数据的元数据信息,构建第一文本;所述元数据信息用于描述所述待识别的结构化数据的来源或属性;p>

4、将所述第一文本输入神经网络模型,得到第一编码向量;

5、将分类模板包括的各个数据类型的名称分别作为一个第二文本,将各个所述第二文本分别输入所述神经网络模型,得到各个数据类型分别对应的第二编码向量;

6、根据所述第一编码向量和各个数据类型分别对应的第二编码向量,计算所述待识别的结构化数据分别与各个数据类型之间的相似度;

7、根据各个相似度的排序,确定所述待识别的结构化数据的分类结果。

8、在一种可能的实施方式中,所述至少基于待识别的结构化数据的元数据信息,构建第一文本,包括:

9、将所述元数据信息作为所述第一文本。

10、在一种可能的实施方式中,所述至少基于待识别的结构化数据的元数据信息,构建第一文本,包括:

11、将所述元数据信息、所述待识别的结构化数据的内容采样信息和知识标签信息,拼接成所述第一文本;所述内容采样信息包括从所述待识别的结构化数据中采样的部分数据内容,所述知识标签信息用于描述所述待识别的结构化数据的类型或特征。

12、进一步地,所述拼接成所述第一文本之前,所述方法还包括:

13、将所述元数据信息作为初始的第一文本,得到所述待识别的结构化数据分别与各个数据类型之间的各个第一相似度;

14、所述拼接成所述第一文本,包括:

15、在所述各个第一相似度均未超过预设阈值的情况下,进行所述拼接,形成所述第一文本。

16、进一步地,所述知识标签信息为将所述内容采样信息输入前置规则或模型得到的低于预设置信度的分类结果。

17、进一步地,所述知识标签信息为由数字构成的数据类型。

18、在一种可能的实施方式中,所述神经网络模型采用如下方式进行训练:

19、获取用于文本编码或匹配的预训练模型;

20、在数据分类任务上对所述预训练模型进行微调,得到所述神经网络模型。

21、进一步地,所述微调利用带标签的训练样本对所述预训练模型进行训练;

22、所述带标签的训练样本包括样本结构化数据的元数据信息、内容采样信息、知识标签信息、分类类别、用于表征所述分类类别与样本结构化数据是否对应的标签。

23、进一步地,所述利用带标签的训练样本对所述预训练模型进行训练,包括:

24、将所述样本结构化数据的元数据信息、内容采样信息和知识标签信息,拼接成第三文本;

25、将所述第三文本输入所述预训练模型,得到第三编码向量;

26、将所述分类类别的名称作为一个第四文本,将所述第四文本输入所述预训练模型,得到第四编码向量;

27、根据所述第三编码向量和所述第四编码向量,计算所述样本结构化数据与所述分类类别之间的预测相似度;

28、根据所述预测相似度与所述标签之间的距离,计算预测损失;

29、以最小化多个样本结构化数据的预测损失之和为训练目标,调整所述预训练模型的模型参数。

30、第二方面,提供了一种针对结构化数据的分类装置,装置包括:

31、构建单元,用于至少基于待识别的结构化数据的元数据信息,构建第一文本;所述元数据信息用于描述所述待识别的结构化数据的来源或属性;

32、第一编码单元,用于将所述构建单元构建的第一文本输入神经网络模型,得到第一编码向量;

33、第二编码单元,用于将分类模板包括的各个数据类型的名称分别作为一个第二文本,将各个所述第二文本分别输入所述神经网络模型,得到各个数据类型分别对应的第二编码向量;

34、计算单元,用于根据所述第一编码单元得到的第一编码向量和所述第二编码单元得到的各个数据类型分别对应的第二编码向量,计算所述待识别的结构化数据分别与各个数据类型之间的相似度;

35、确定单元,用于根据所述计算单元得到的各个相似度的排序,确定所述待识别的结构化数据的分类结果。

36、第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。

37、第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。

38、通过本说明书实施例提供的方法和装置,首先至少基于待识别的结构化数据的元数据信息,构建第一文本;所述元数据信息用于描述所述待识别的结构化数据的来源或属性;然后将所述第一文本输入神经网络模型,得到第一编码向量;接着将分类模板包括的各个数据类型的名称分别作为一个第二文本,将各个所述第二文本分别输入所述神经网络模型,得到各个数据类型分别对应的第二编码向量;再根据所述第一编码向量和各个数据类型分别对应的第二编码向量,计算所述待识别的结构化数据分别与各个数据类型之间的相似度;最后根据各个相似度的排序,确定所述待识别的结构化数据的分类结果。由上可见,本说明书实施例,将针对结构化数据的数据类型的识别和判断转化为一个语义匹配的问题,即计算待识别的结构化数据和分类模板中的各个数据类型之间的相似度,然后根据各个相似度的排序,选择一个数据类型作为分类结果。其中,该方案可以支持分类模板的修改和扩充,只需要将新的数据类型的名称作为输入,就可以进行语义匹配,因为它使用了语义文本作为输入,可以实现零样本的推理能力,从而能够兼顾本文档来自技高网...

【技术保护点】

1.一种针对结构化数据的分类方法,所述方法包括:

2.如权利要求1所述的方法,其中,所述至少基于待识别的结构化数据的元数据信息,构建第一文本,包括:

3.如权利要求1所述的方法,其中,所述至少基于待识别的结构化数据的元数据信息,构建第一文本,包括:

4.如权利要求3所述的方法,其中,所述拼接成所述第一文本之前,所述方法还包括:

5.如权利要求3所述的方法,其中,所述知识标签信息为将所述内容采样信息输入前置规则或模型得到的低于预设置信度的分类结果。

6.如权利要求3所述的方法,其中,所述知识标签信息为由数字构成的数据类型。

7.如权利要求1所述的方法,其中,所述神经网络模型采用如下方式进行训练:

8.如权利要求7所述的方法,其中,所述微调利用带标签的训练样本对所述预训练模型进行训练;

9.如权利要求8所述的方法,其中,所述利用带标签的训练样本对所述预训练模型进行训练,包括:

10.一种针对结构化数据的分类装置,所述装置包括:

11.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-9中任一项的所述的方法。

12.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-9中任一项的所述的方法。

...

【技术特征摘要】

1.一种针对结构化数据的分类方法,所述方法包括:

2.如权利要求1所述的方法,其中,所述至少基于待识别的结构化数据的元数据信息,构建第一文本,包括:

3.如权利要求1所述的方法,其中,所述至少基于待识别的结构化数据的元数据信息,构建第一文本,包括:

4.如权利要求3所述的方法,其中,所述拼接成所述第一文本之前,所述方法还包括:

5.如权利要求3所述的方法,其中,所述知识标签信息为将所述内容采样信息输入前置规则或模型得到的低于预设置信度的分类结果。

6.如权利要求3所述的方法,其中,所述知识标签信息为由数字构成的数据类型。

7.如权利要求1所述的方...

【专利技术属性】
技术研发人员:鲍梦瑶刘佳伟章鹏
申请(专利权)人:蚂蚁区块链科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1