一种数据自动化分类分级系统及方法技术方案

技术编号:44749469 阅读:21 留言:0更新日期:2025-03-26 12:37
本申请公开了一种数据自动化分类分级系统及方法,涉及智能分级领域,其使用基于大模型和人工智能的数据分析和编码方式来对所述待处理的数据资产进行概括描述,接着对概括后的待处理数据资产摘要描述进行语义编码,同时对各个分类标准进行语义嵌入编码,以此根据处理数据资产摘要描述语义特征和各个分类标准语义嵌入特征之间的主成分语义匹配表示来智能地生成各个匹配概率,并将其最大对应的分类标准作为所述待处理的数据资产的类别标签。本申请能够对数据资产进行概括描述和语义化处理,以智能创建分类标签,确保了数据能够及时响应业务需求的变化。

【技术实现步骤摘要】

本申请涉及智能分类领域,且更为具体地,涉及一种数据自动化分类分级系统及方法


技术介绍

1、在当今数字化时代,各行业领域都积累了海量的数据资产,从金融机构存储的海量客户交易记录、信用信息,到互联网企业拥有的用户行为日志、内容创作数据,再到制造业企业的产品设计图纸、生产流程数据等,数据已成为推动企业发展、提升竞争力的关键要素。然而,这些数据资产的无序堆积给企业带来了严峻的挑战,因此,对这些数据进行有效分类以满足高效管理和利用的需求变得尤为重要。

2、传统的数据分类方法主要依赖人工和关键词匹配,这种方式越来越显得低效且容易出错。一方面,企业内部的数据管理人员需要花费大量时间和精力翻阅复杂多样的数据文档,并依据模糊的经验规则尝试对数据进行归类。这不仅导致分类工作进展缓慢,难以满足业务快速迭代对数据及时分类利用的需求。另一方面,简单的关键词匹配或统计方法无法深入理解数据的内容和背景,忽略了其中蕴含的深层语义信息,导致分类结果不够准确。

3、因此,期望一种数据自动化分类分级方案,其能够快速、精准地识别数据资产的关键特征,以实现数据资产的科学分本文档来自技高网...

【技术保护点】

1.一种数据自动化分类分级方法,其特征在于,包括:获取待处理的数据资产;从分类标准库提取分类标准的集合;对所述待处理的数据资产进行数据资产概括描述以得到待处理数据资产摘要描述;对所述待处理数据资产摘要描述进行语义编码以得到待处理数据资产摘要描述语义编码向量;对所述分类标准的集合中的各个分类标准进行语义嵌入编码以得到分类标准语义嵌入编码向量的集合;对所述待处理数据资产摘要描述语义编码向量和所述分类标准语义嵌入编码向量的集合中的各个分类标准语义嵌入编码向量分别进行数据资产语义主成分匹配补偿以得到数据资产-分类标准语义匹配编码向量的集合;基于所述数据资产-分类标准语义匹配编码向量的集合,得到匹...

【技术特征摘要】

1.一种数据自动化分类分级方法,其特征在于,包括:获取待处理的数据资产;从分类标准库提取分类标准的集合;对所述待处理的数据资产进行数据资产概括描述以得到待处理数据资产摘要描述;对所述待处理数据资产摘要描述进行语义编码以得到待处理数据资产摘要描述语义编码向量;对所述分类标准的集合中的各个分类标准进行语义嵌入编码以得到分类标准语义嵌入编码向量的集合;对所述待处理数据资产摘要描述语义编码向量和所述分类标准语义嵌入编码向量的集合中的各个分类标准语义嵌入编码向量分别进行数据资产语义主成分匹配补偿以得到数据资产-分类标准语义匹配编码向量的集合;基于所述数据资产-分类标准语义匹配编码向量的集合,得到匹配概率的集合;基于所述匹配概率的集合中最大者对应的分类标准,确定所述待处理的数据资产的类别标签。

2.根据权利要求1所述的数据自动化分类分级方法,其特征在于,对所述待处理的数据资产进行数据资产概括描述以得到待处理数据资产摘要描述,包括:将所述待处理的数据资产输入基于大语言模型的数据资产概括描述器以得到所述待处理数据资产摘要描述。

3.根据权利要求2所述的数据自动化分类分级方法,其特征在于,对所述待处理数据资产摘要描述进行语义编码以得到待处理数据资产摘要描述语义编码向量,包括:对所述待处理数据资产摘要描述进行分词后输入包含词嵌入层的语义编码器以得到所述待处理数据资产摘要描述语义编码向量。

4.根据权利要求3所述的数据自动化分类分级方法,其特征在于,对所述分类标准的集合中的各个分类标准进行语义嵌入编码以得到分类标准语义嵌入编码向量的集合,包括:使用基于bert模型的语义编码器对所述分类标准的集合中的各个分类标准进行语义嵌入编码以得到所述分类标准语义嵌入编码向量的集合。

5.根据权利要求4所述的数据自动化分类分级方法,其特征在于,对所述待处理数据资产摘要描述语义编码向量和所述分类标准语义嵌入编码向量的集合中的各个分类标准语义嵌入编码向量分别进行数据资产语义主成分匹配补偿以得到数据资产-分类标准语义匹配编码向量的集合,包括:对所述待处理数据资产摘要描述语义编码向量和所述分类标准语义嵌入编码向量进行特征主成分分析以得到待处理数据资产摘要描述语义主成分编码向量的集合和分类标准语义嵌入主成分编码向量的集合;对所述待处理数据资产摘要描述语义主成分编码向量的集合和所述分类标准语义嵌入主成分编码向量的集合进行形状重塑以得到待处理数据资产摘要描述语义主成分聚合编码特征图和分类标准语义嵌入主成分聚合编码特征图;计算所述待处理数据资产摘要描述语义主成分聚合编码特征图和所述分类标准语义嵌入主成分聚合编码特征图之间的数据资产-分类标准语义差异嵌入补偿编码权重向量;基于所述数据资产-分类标准语义差异嵌入补偿编码权重向量,对所述待处理数据资产摘要描述语义主成分编码向量的集合和所述分类标准语义嵌入主成分编码向量的集合进行全局均值计算和聚合以得到所述数据...

【专利技术属性】
技术研发人员:徐创凡石振峰
申请(专利权)人:杭州融至兴科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1