数据类型的确定方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35142814 阅读:22 留言:0更新日期:2022-10-05 10:19
本申请提出了一种数据类型的确定方法、装置、电子设备及存储介质,其中,方法包括:获取待识别的目标数据项的多维数据特征,以及至少一个标准数据类型的多维标识信息;根据多维标识信息和多维数据特征之间的关联度,从至少一个标准数据类型中,确定目标数据项所属的候选数据类型和对应的候选概率;根据候选概率,从候选标准数据类型中确定目标数据项所属的目标数据类型。本申请中,通过其他维度的数据特征实现异常数据项所属数据类型的确定,避免了人工研判,缩短了数据类型的确认时间,实现了数据类型的标准化判定,节约了人工成本,提高了数据类型确认的效率。了数据类型确认的效率。了数据类型确认的效率。

【技术实现步骤摘要】
数据类型的确定方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理领域,尤其涉及一种数据类型的确定方法、装置、电子设备及存储介质。

技术介绍

[0002]随着技术的发展,大数据提供的服务对于人们日常的工作生活越加重要,其中,可以通过大数据平台实现对人们的工作、生活的大数据服务的提供。
[0003]在大数据平台搭建的过程中,存在从其他相关系统中抽取数据的业务需求,因此,需要对不同的系统中获取的数据进行统一化、规范化的识别和定义,在该过程中,存在部分数据的数据类型维度信息存在缺失,相关技术中可以通过人工研判对该部分异常数据的识别和定义,人工成本高,处理时间较长。

技术实现思路

[0004]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]为此,本申请第一方面提出一种数据类型的确定方法。
[0006]本申请第二方面还提出一种数据类型的确定装置。
[0007]本申请第三方面提出一种电子设备。
[0008]本申请第四方面提出一种计算机可读存储介质。
[0009]本申请第五方面提出一种计算机程序产品。
[0010]本申请第一方面提出一种数据类型的确定方法,包括:获取待识别的目标数据项的多维数据特征,以及至少一个标准数据类型的多维标识信息;根据多维标识信息和多维数据特征之间的关联度,从至少一个标准数据类型中,确定目标数据项所属的候选数据类型和对应的候选概率;根据候选概率,从候选标准数据类型中确定目标数据项所属的目标数据类型。/>[0011]另外,本申请第一方面提出的数据类型的确定方法,还可以具有如下附加的技术特征:
[0012]根据本申请的一个实施例,根据多维标识信息和多维数据特征之间的关联度,从至少一个标准数据类型中,确定目标数据项所属的候选数据类型和候选数据类型对应的候选概率分布,包括:根据目标数据项在元数据维度上的第一数据特征和标准数据项在元数据维度上的第一标识信息之间匹配度,获取目标数据项所属的第一数据类型和对应的第一概率;根据目标数据项在数据内容维度上的第二数据特征,和标准数据项在数据内容维度上的第二标识信息之间语义相似度,获取目标数据项所属的第二数据类型和对应的第二概率;根据目标数据项和标注数据项的已标注数据类型,获取目标数据项所属的第三数据类型和对应的第三概率;将第一数据类型、第二数据类型、第三数据类型的并集,确定为目标数据项所属的候选数据类型,并根据第一概率、第二概率和第三概率获取候选数据类型对应的候选概率。
[0013]根据本申请的一个实施例,根据目标数据项在元数据维度上的第一特征和标准数据项在元数据维度上的第一标识之间的匹配度,获取目标数据项所属的第一数据类型和对应的第一概率,包括:获取多维标识信息中,属于标准数据类型在元数据维度上的第一标识信息;从多维数据特征中,获取目标数据项的元数据维度上的第一数据特征;根据第一标识信息和第一数据特征的匹配度,确定目标数据项所属的第一数据类型和对应的第一概率。
[0014]根据本申请的一个实施例,根据第一标识信息和第一数据特征的匹配度,确定目标数据项所属的第一数据类型和对应的第一概率,包括:从第一标识信息中,获取与第一数据特征的匹配度满足第一条件的目标第一标识信息;将目标第一标识信息对应的标准数据类型,作为目标数据项所属的第一数据类型;根据第一数据特征和目标第一标识信息之间的匹配度,确定第一概率,其中,第一概率为将目标数据项确定为第一数据类型的概率。
[0015]根据本申请的一个实施例,根据目标数据项在数据内容维度上的第二数据特征,和标准数据项在数据内容维度上的第二标识信息之间的语义相似度,获取目标数据项所属的第二数据类型和对应的第二概率,包括:获取多维标识信息中,属于标准数据类型在数据内容维度上的第二标识信息;
[0016]从多维数据特征中,获取目标数据项的数据内容维度上的第二数据特征;根据第二标识信息和第二数据特征之间的语义相似度,确定目标数据项所属的第二数据类型和对应的第二概率。
[0017]根据本申请的一个实施例,根据第二标识信息和第二数据特征之间的语义相似度,确定目标数据项所属的第二数据类型和对应的第二概率,包括:从第二标识信息中,获取与第二数据特征之间的语义相似度满足第二条件的目标第二标识信息;将目标第二标识信息对应的标准数据类型,作为目标数据项所属的第二数据类型;根据第二数据特征和目标第二标识信息之间的语义相似度,确定第二概率,其中,第二概率为将目标数据项确定为第二数据类型的概率。
[0018]根据本申请的一个实施例,根据目标数据项和标注数据项的已标注数据类型的获取目标数据项所属的第三数据类型和对应的第三概率,包括:获取标注数据项的第三数据特征,其中,第三数据特征与标注数据项的已标记数据类型存在关联关系;根据第二数据特征和第三数据特征,获取目标数据项所属的第三数据类型。
[0019]根据本申请的一个实施例,根据第二数据特征和第三数据特征,获取目标数据项所属的第三数据类型,包括:对第二数据特征和第三数据特征进行聚类,获取聚类后的候选类簇;从候选类簇中,获取第二数据特征所属的目标类簇;根据关联关系,确定属于目标类簇的第三数据特征对应的已标记数据类型,并将对应的已标记数据类型作为目标数据项的第三数据类型。
[0020]根据本申请的一个实施例,根据第一概率、第二概率和第三概率获取候选数据类型对应的候选概率,包括:对候选数据类型对应的第一概率、第二概率以及第三概率进行加权求和,以得到候选数据类型对应的候选概率。
[0021]根据本申请的一个实施例,根据候选概率,从候选标准数据类型中确定目标数据项所属的目标数据类型,包括:确定候选数据类型对应的候选概率中的最大概率值对应的目标候选概率;确定候选标准数据类型中目标候选概率对应的候选标准数据类型,为目标数据项所属的目标数据类型。
[0022]根据本申请的一个实施例,候选数据类型的确定方法包括:对目标数据项进行字段提取,确定目标数据项对应的目标字段类型;将至少一个标准数据类型中对应的字段类型与目标字段类型相匹配的标准数据类型确定为目标数据项所属的候选数据类型。
[0023]本申请第二方面还提出一种数据类型的确定装置,该装置包括提取模块,用于获取待识别的目标数据项的多维数据特征,以及至少一个标准数据类型的多维标识信息;获取模块,用于根据多维标识信息和多维数据特征之间的关联度,从至少一个标准数据类型中,确定目标数据项所属的候选数据类型和对应的候选概率;确定模块,用于根据候选概率,从候选标准数据类型中确定目标数据项所属的目标数据类型。
[0024]本申请第三方面提出了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面提出的数据类型的确定方法。
[0025]本申请第四方面提出了一种计算机可读存储本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据类型的确定方法,其特征在于,所述方法包括:获取待识别的目标数据项的多维数据特征,以及至少一个标准数据类型的多维标识信息;根据所述多维标识信息和所述多维数据特征之间的关联度,从所述至少一个标准数据类型中,确定所述目标数据项所属的候选数据类型和对应的候选概率;根据所述候选概率,从所述候选标准数据类型中确定所述目标数据项所属的目标数据类型。2.根据权利要求1所述的方法,其特征在于,所述根据所述多维标识信息和所述多维数据特征之间的关联度,从所述至少一个标准数据类型中,确定所述目标数据项所属的候选数据类型和所述候选数据类型对应的候选概率分布,包括:根据所述目标数据项在元数据维度上的第一数据特征和所述标准数据项在所述元数据维度上的第一标识信息之间匹配度,获取所述目标数据项所属的第一数据类型和对应的第一概率;根据所述目标数据项在数据内容维度上的第二数据特征,和所述标准数据项在所述数据内容维度上的第二标识信息之间语义相似度,获取所述目标数据项所属的第二数据类型和对应的第二概率;根据所述目标数据项和标注数据项的已标注数据类型,获取所述目标数据项所属的第三数据类型和对应的第三概率;将所述第一数据类型、所述第二数据类型、所述第三数据类型的并集,确定为所述目标数据项所属的所述候选数据类型,并根据所述第一概率、所述第二概率和所述第三概率获取所述候选数据类型对应的所述候选概率。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标数据项在元数据维度上的第一特征和所述标准数据项在所述元数据维度上的第一标识之间的匹配度,获取所述目标数据项所属的第一数据类型和对应的第一概率,包括:获取所述多维标识信息中,属于所述标准数据类型在元数据维度上的第一标识信息;从所述多维数据特征中,获取所述目标数据项的所述元数据维度上的第一数据特征;根据所述第一标识信息和所述第一数据特征的匹配度,确定所述目标数据项所属的所述第一数据类型和对应的所述第一概率。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一标识信息和所述第一数据特征的匹配度,确定所述目标数据项所属的所述第一数据类型和对应的第一概率,包括:从所述第一标识信息中,获取与所述第一数据特征的匹配度满足第一条件的目标第一标识信息;将所述目标第一标识信息对应的标准数据类型,作为所述目标数据项所属的所述第一数据类型;根据所述第一数据特征和所述目标第一标识信息之间的匹配度,确定所述第一概率,其中,所述第一概率为将所述目标数据项确定为所述第一数据类型的概率。5.根据权利要求2所述的方法,其特征在于,所述根据所述目标数据项在数据内容维度上的第二数据特征,和所述标准数据项在所述数据内容维度上的第二标识信息之间的语义相似度,获取所述目标数据项所属的第二数据类型和对应的第二概率,包括:
获取所述多维标识信息中,属于所述标准数据类型在数据内容维度上的第二标识信息;从所述多维数据特征中,获取所述目标数据项的数据内容维度上的第二数据特征;根据所述第二标识信息和所述第二数据特征之间的语义相似度,确定所述目标数据项所属的所述第二数据类型和对应的所述第二概率。6.根据权利要求5所述的方法,其特征在于,所述根据所述第二标识信息和所述第二数据特征之间的语义相似度,确定所述目标数据项所属的所述第二数据类型和对应的所述第二概率,包括:从所述第二标识信息中,获取与所述第二数据特征之间的语义相...

【专利技术属性】
技术研发人员:李鹏飞王倩贺娟娟
申请(专利权)人:杭州数梦工场科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1