一种数据表分类方法、装置、设备及存储介质制造方法及图纸

技术编号:36341525 阅读:14 留言:0更新日期:2023-01-14 17:54
本申请实施例提供了一种数据表分类方法、装置、设备及存储介质,涉及大数据处理技术领域,该方法包括:从多个预设关键词中确定出与数据表的各维度表信息匹配的至少一个目标关键词,针对任一目标关键词,基于分类标签对应关系,确定目标关键词对应的目标分类标签,以及目标关键词与目标分类标签相关联的多维度卡方值。最后,基于每个目标关键词对应的目标分类标签以及每个目标关键词与目标分类标签相关联的多维度卡方值,确定数据表的分类结果,而不再是依赖人工经验,提高了数据表分类结果的准确性,进而保证了数据表划分至对应的数仓分层的准确性。数仓分层的准确性。数仓分层的准确性。

【技术实现步骤摘要】
一种数据表分类方法、装置、设备及存储介质


[0001]本专利技术实施例涉及大数据处理
,尤其涉及一种数据表分类方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网的快速发展,数据也呈爆发式增长。为了便于对数据进行存储,目前各个企业将数据按照数据表的形式存储至数据仓库中。
[0003]数据仓库一般分为5个数仓分层,分别为数据运营层(Operation Data Store,ODS)、公共维度层(Dimension,DIM)、数据细节层(Data Warehouse Details,DWD)、数据中间层(Data Warehouse Service,DWS)、数据应用层(Application Data Service,ADS)。其中,数据运营层为离线或准实时数据接入层;公共维度层存储的是多维度整理获得的数据;数据细节层的数据是对数据运营层的数据做一定的数据清洗和转换获得的;数据中间层的数据对数据细节层的数据做轻度的汇总获得的;数据应用层的数据是对数据中间层的数据进行整合汇总获得的,提供后续的业务查询等服务。
[0004]为了对数据仓库中的数据表更加清晰地进行管理,需要将数据表划分至不同的数仓分层。目前一般人工对数据表进行分析,根据分析结果将数据表划分至对应的数仓分层,由于依赖人工经验,这容易导致数据表划分结果并不准确。

技术实现思路

[0005]本申请实施例提供了一种数据表分类方法、装置、设备及存储介质,用于提高数据表分类结果的准确性。
[0006]一方面,本申请实施例提供了一种数据表分类方法,该方法包括:
[0007]从多个预设关键词中确定出与数据表的各维度表信息匹配的至少一个目标关键词;
[0008]针对任一目标关键词,基于分类标签对应关系,确定所述目标关键词对应的目标分类标签,以及所述目标关键词与所述目标分类标签相关联的多维度卡方值;所述分类标签对应关系是根据多个样本数据表确定的每个预设关键词的分类关系;其中,每个预设关键词的分类关系包括预设关键词所属的分类标签及预设关键词与所属的分类标签相关联的多维度卡方值;多维度卡方值用于表征预设关键词在多个维度表信息下与所属的分类标签相关性;
[0009]基于每个目标关键词对应的目标分类标签以及每个目标关键词与所述目标分类标签相关联的多维度卡方值,确定所述数据表的分类结果。
[0010]可选地,所述分类标签对应关系是根据多个样本数据表确定的每个预设关键词的分类关系,包括:
[0011]针对任一预设关键词,基于所述多个样本数据表,分别确定所述预设关键词与每个候选分类标签的多维度卡方值;
[0012]从多个多维度卡方值中选取最大的多维度卡方值,并且当最大的多维度卡方值大于卡方分布的临界值时,将最大的多维度卡方值所对应的候选分类标签,作为所述预设关键词所属的分类标签,并将所述最大的多维度卡方值作为所述预设关键词与所属的分类标签相关联的多维度卡方值。
[0013]可选地,所述针对任一预设关键词,基于所述多个样本数据表,分别确定所述预设关键词与每个候选分类标签的多维度卡方值,包括:
[0014]针对任一预设关键词对应的任一候选分类标签,执行以下步骤:
[0015]基于所述多个样本数据表,分别确定每个维度表信息对应的置信值;所述置信值用于表征每个维度信息与候选分类标签的相关性;
[0016]基于每个维度表信息对应的置信值,以及每个维度表信息中所述预设关键词与所述候选分类标签相关联的单维度卡方值,确定所述预设关键词与所述候选分类标签的多维度卡方值。
[0017]可选地,所述分别确定每个维度表信息对应的置信值,包括:
[0018]针对任一维度表信息,基于所述多个样本数据表,确定所述维度表信息中所述预设关键词与所述候选分类标签的关联概率值;
[0019]基于每个维度表信息中所述预设关键词与所述候选分类标签的关联概率值,确定每个维度表信息的权重因子;
[0020]针对任一维度表信息,采用所述维度表信息的权重因子,对所述维度表信息中所述预设关键词与所述候选分类标签的关联概率值进行调整,获得所述维度表信息的置信值。
[0021]可选地,所述基于所述多个样本数据表,确定所述维度表信息中所述预设关键词与所述候选分类标签的关联概率值,包括:
[0022]确定所述多个样本数据表的维度表信息中包含所述预设关键词的第一数据表量;
[0023]确定所述多个样本数据表的维度表信息中包含所述预设关键词,且所述多个样本数据表属于所述候选分类标签的第二数据表量;
[0024]将所述第二数据表量与所述第一数据表量的比值,作为所述关联概率值。
[0025]可选地,所述基于每个维度表信息中所述预设关键词与所述候选分类标签的关联概率值,确定每个维度表信息的权重因子,包括:
[0026]确定每个维度表信息中所述预设关键词与所述候选分类标签的关联概率值的和,作为关联概率总值;
[0027]针对任一维度表信息,基于所述维度表信息中所述预设关键词与所述候选分类标签的关联概率值,以及关联概率总值,确定所述维度信息的权重因子。
[0028]可选地,所述基于每个维度表信息对应的置信值,以及每个维度表信息中所述预设关键词与所述候选分类标签相关联的单维度卡方值,确定所述预设关键词与所述候选分类标签的多维度卡方值,包括:
[0029]按照每个维度表信息对应的置信值进行排序,获得排序后的置信值;
[0030]按照预设匹配关系,依次从排序后的置信值中获取存在匹配关系的第一置信值和第二置信值;
[0031]针对每个存在匹配关系的第一置信值和第二置信值,基于第一置信值所对应的维
度表信息中所述预设关键词与所述候选分类标签相关联的单维度卡方值,以及第二置信值所对应的维度表信息中所述预设关键词与所述候选分类标签相关联的单维度卡方值,确定卡方差值;
[0032]基于多个存在匹配关系的第一置信值和第二置信值对应的卡方差值,确定所述预设关键词与所述候选分类标签的多维度卡方值。
[0033]可选地,所述基于每个目标关键词对应的目标分类标签以及每个目标关键词与所述目标分类标签相关联的多维度卡方值,确定所述数据表的分类结果,包括:
[0034]根据每个目标关键词对应的目标分类标签,确定分类标签组;所述分类标签组与所述目标分类标签一一对应;所述分类标签组内包括至少一个目标关键词;
[0035]基于每个分类标签组各自对应的标签数量,以及每个分类标签组内的至少一个目标关键词分别与所述目标分类标签相关联的卡方值,确定所述数据表的分类结果。
[0036]可选地,所述基于每个分类标签组各自对应的标签数量,以及每个分类标签组内至少一个目标关键词分别与所述目标分类标签相关联的卡方值,确定所述数据表的分类结果,包括:
[0037]若存在至少两个分类标签组,且所述至少两个分类标签组的标签数量最大并且相等,将所述至少两个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据表分类方法,其特征在于,包括:从多个预设关键词中确定出与数据表的各维度表信息匹配的至少一个目标关键词;针对任一目标关键词,基于分类标签对应关系,确定所述目标关键词对应的目标分类标签,以及所述目标关键词与所述目标分类标签相关联的多维度卡方值;所述分类标签对应关系是根据多个样本数据表确定的每个预设关键词的分类关系;其中,每个预设关键词的分类关系包括预设关键词所属的分类标签及预设关键词与所属的分类标签相关联的多维度卡方值;多维度卡方值用于表征预设关键词在多个维度表信息下与所属的分类标签相关性;基于每个目标关键词对应的目标分类标签以及每个目标关键词与所述目标分类标签相关联的多维度卡方值,确定所述数据表的分类结果。2.如权利要求1所述的方法,其特征在于,所述分类标签对应关系是根据多个样本数据表确定的每个预设关键词的分类关系,包括:针对任一预设关键词,基于所述多个样本数据表,分别确定所述预设关键词与每个候选分类标签的多维度卡方值;从多个多维度卡方值中选取最大的多维度卡方值,并且当最大的多维度卡方值大于卡方分布的临界值时,将最大的多维度卡方值所对应的候选分类标签,作为所述预设关键词所属的分类标签,并将所述最大的多维度卡方值作为所述预设关键词与所属的分类标签相关联的多维度卡方值。3.如权利要求2所述的方法,其特征在于,所述针对任一预设关键词,基于所述多个样本数据表,分别确定所述预设关键词与每个候选分类标签的多维度卡方值,包括:针对任一预设关键词对应的任一候选分类标签,执行以下步骤:基于所述多个样本数据表,分别确定每个维度表信息对应的置信值;所述置信值用于表征每个维度信息与候选分类标签的相关性;基于每个维度表信息对应的置信值,以及每个维度表信息中所述预设关键词与所述候选分类标签相关联的单维度卡方值,确定所述预设关键词与所述候选分类标签的多维度卡方值。4.如权利要求3所述的方法,其特征在于,所述分别确定每个维度表信息对应的置信值,包括:针对任一维度表信息,基于所述多个样本数据表,确定所述维度表信息中所述预设关键词与所述候选分类标签的关联概率值;基于每个维度表信息中所述预设关键词与所述候选分类标签的关联概率值,确定每个维度表信息的权重因子;针对任一维度表信息,采用所述维度表信息的权重因子,对所述维度表信息中所述预设关键词与所述候选分类标签的关联概率值进行调整,获得所述维度表信息的置信值。5.如权利要求4所述的方法,其特征在于,所述基于所述多个样本数据表,确定所述维度表信息中所述预设关键词与所述候选分类标签的关联概率值,包括:确定所述多个样本数据表的维度表信息中包含所述预设关键词的第一数据表量;确定所述多个样本数据表的维度表信息中包含所述预设关键词,且所述多个样本数据表属于所述候选分类标签的第二数据表量;
将所述第二数据表量与所述第一数据表量的比值,作为所述关联概率值。6.如权利要求4所述的方法,其特征在于,所述基于每个维度表信息中所述预设关键词与所述候选分类标签的关联概率值,确定每个维度表信息的权重因子,包括:确定每个维度表信息中所述预设关键词与所述候选分类标签的关联概率值的和,作为关联概率总值;针对任一维度表信息,基于所述维度表信息中所述预设关键词与所述候选分类标签的关联概率值,以及关联概率总值,确定所述维度信息的权重因子。7.如权利要求3所述的方法,其特征在于,所述基于每个维度表信息对应的置信值,以及每个维度表信息中所述预设关键词与所述候选分类标签相关联的单维度...

【专利技术属性】
技术研发人员:王和平尹强杨永坤夏晨笪尚白乐郝谋洪邸帅卢道和
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1