表格数据含义推断方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:33618513 阅读:17 留言:0更新日期:2022-06-02 00:37
本申请提供一种表格数据含义推断方法、装置、计算机设备和存储介质,其中,表格数据含义推断方法包括:从目标表格数据中选取目标列,对选取的目标列进行相关性筛选,以找到若干个相关列;基于预选编码器对目标列和若干个相关列进行编码,以得到目标列的特征向量和相关列的特征向量;基于自注意层对目标列的特征向量和相关列的特征向量计算得到目标输出向量;输出目标类的若干个预属类别的分数;基于归一化处理结果确定概率最大的预属类别;将概率最大的预属类别确定为目标列的含义分类结。本申请能够基于注意力机制,针对离散数据和连续数据的编码和多个相关列对目标列的含义进行共同推理,进而能够提高对目标列的含义的推断准确性。性。性。

【技术实现步骤摘要】
表格数据含义推断方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,具体而言,涉及一种表格数据含义推断方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着深度学习与数据科学的发展,越来越多的企业通过算法对数据进行分析,从而获得产品的改善方向或提升业务的收益,常见的场景如制造业的成本优化,银行的风控系统,零售业的仓储和定价等等。这其中大部分数据为表格型数据。表格型数据因为自身格式规范,特征处理的工作流程相对一致,市场上出现了越来越多针对表格型数据的自动化数据分析工具。
[0003]表格型数据中,如果能推测出每一列数据的具体含义,可以产生很大价值,节省很多人力标注的成本。但是目前存在的推断系统往往聚焦于基本的数据类型推断,比如流行的数据科学库pandas,其数据推断仅支持区分整数型,类别型,字符型等等基础数据类型;其他的一些针对数据含义推断的系统,也常常依靠数据本身的一些规则特征,通过规则匹配去推断数据的现实含义,支持的类型十分有限。比如通过“YYYY

MM

DD”等特定格式推断是否为日期,通过数字型字符串的长度,各个位置的规则推断是否为身份证号。
[0004]然而现有技术因为是针对每一个单列进行规则匹配,因此很难捕捉到这些其他列提供的特征,因此具有数据含义准确率低的缺点。

技术实现思路

[0005]本申请实施例的目的在于提供一种表格数据含义推断方法,用以基于表格中的目标列与其他列之间的关联性确定目标列的数据含义,从而实现提高表格数据的含义推断的准确性。
[0006]为此,本申请实施例第一方面公开一种表格数据含义推断方法,所述方法包括:
[0007]从目标表格数据中选取目标列;
[0008]基于所述目标表格数据,对选取的所述目标列进行相关性筛选,以找到和所述目标列相关性最高的若干个相关列;
[0009]基于预选编码器对所述目标列和所述若干个相关列进行编码,以得到所述目标列的特征向量和所述相关列的特征向量;
[0010]基于自注意层对所述目标列的特征向量和所述相关列的特征向量计算得到目标输出向量;
[0011]将所述目标输出向量作为多层神经网络的输入,以使得所述多层神经网络输出所述目标类的若干个预属类别的分数;
[0012]对所述目标类的若干个预属类别的分数进行归一化处理,并基于归一化处理结果确定概率最大的预属类别;
[0013]将所述概率最大的预属类别确定为所述目标列的含义分类结果。
[0014]在本申请第一方面中,作为一种可选的实施方式,所述对所述目标类的若干个预属类别的分数进行归一化处理,并基于归一化处理结果确定概率最大的预属类别,包括:
[0015]根据Softmax函数对所述目标类的若干个预属类别的分数进行归一化处理,并基于归一化处理结果确定所述概率最大的预属类别。
[0016]在本申请第一方面中,作为一种可选的实施方式,所述预选编码器包括离散特征编码器和连续特征编码器。
[0017]在本申请第一方面中,作为一种可选的实施方式,在所述基于预选编码器对所述目标列和所述若干个相关列进行编码之后,所述基于自注意层对所述目标列的特征向量和所述相关列的特征向量计算得到目标输出向量之前,所述方法还包括:
[0018]基于特征拼接器将所述目标列的特征向量和所述相关列的特征向量进行拼接,并将拼接向量作为所述自注意层的输入。
[0019]在本申请第一方面中,作为一种可选的实施方式,所述自注意层包括查询矩阵、键矩阵和值矩阵;
[0020]以及,所述基于自注意层对所述目标列的特征向量和所述相关列的特征向量计算得到目标输出向量,包括:
[0021]将所述目标列的特征向量与所述查询矩阵相乘,得到查询向量;
[0022]将所述目标列的特征向量和所述相关列的特征向量与所述键矩阵相乘,得到键向量;
[0023]将所述目标列的特征向量和所述相关列的特征向量与所述值矩阵相乘,得到值向量;
[0024]将所述查询向量与所述键向量点乘,得到m个权重值;
[0025]对所述m个权重值进行收缩,得到n个权重值,其中,n<m;
[0026]将n个权重值与所述值向量点乘,得到所述目标输出向量。
[0027]在本申请第一方面中,作为一种可选的实施方式,在所述基于自注意层对所述目标列的特征向量和所述相关列的特征向量计算得到目标输出向量之前,所述方法还包括:
[0028]基于所述目标列的特征向量的类型和所述相关列的特征向量的类型,确定所述查询矩阵、所述键矩阵和所述值矩阵,其中,所述查询矩阵为离散型查询矩阵、连续型查询矩阵中的一种,所述键矩阵为离散型键矩阵、连续型键矩阵中的一种,所述值矩阵为离散型值矩阵、连续型值矩阵中的一种。
[0029]在本申请第一方面中,作为一种可选的实施方式,所述对所述m个权重值进行收缩,得到n个权重值,包括:
[0030]根据所述查询向量的长度和所述键向量的长度对所述m个权重值进行收缩,并得到n个权重值。
[0031]本申请第二方面公开一种表格数据含义推断装置,所述装置包括:
[0032]选取模块,用从目标表格数据中选取目标列;
[0033]筛选模块,用于基于所述目标表格数据,对选取的所述目标列进行相关性筛选,以找到和所述目标列相关性最高的若干个相关列;
[0034]编码模块,用于基于预选编码器对所述目标列和所述若干个相关列进行编码,以得到所述目标列的特征向量和所述相关列的特征向量;
[0035]计算模块,用于基于自注意层对所述目标列的特征向量和所述相关列的特征向量计算得到目标输出向量;
[0036]输入模块,用于将所述目标输出向量作为多层神经网络的输入,以使得所述多层神经网络输出所述目标类的若干个预属类别的分数;
[0037]归一化处理模块,用于对所述目标类的若干个预属类别的分数进行归一化处理,并基于归一化处理结果确定概率最大的预属类别;
[0038]确定模块,用于将所述概率最大的预属类别确定为所述目标列的含义分类结果。
[0039]本申请第三方面公开一种计算机设备,所述设备包括:
[0040]存储有可执行程序代码的存储器;
[0041]与所述存储器耦合的处理器;
[0042]所述处理器调用所述存储器中存储的所述可执行程序代码,执行本申请第一方面的表格数据含义推断方法。
[0043]本申请第三方面公开一种存储介质,所述存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本申请第一方面的表格数据含义推断方法。
附图说明
[0044]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格数据含义推断方法,其特征在于,所述方法包括:从目标表格数据中选取目标列;基于所述目标表格数据,对选取的所述目标列进行相关性筛选,以找到和所述目标列相关性最高的若干个相关列;基于预选编码器对所述目标列和所述若干个相关列进行编码,以得到所述目标列的特征向量和所述相关列的特征向量;基于自注意层对所述目标列的特征向量和所述相关列的特征向量计算得到目标输出向量;将所述目标输出向量作为多层神经网络的输入,以使得所述多层神经网络输出所述目标类的若干个预属类别的分数;对所述目标类的若干个预属类别的分数进行归一化处理,并基于归一化处理结果确定概率最大的预属类别;将所述概率最大的预属类别确定为所述目标列的含义分类结果。2.如权利要求1所述的方法,其特征在于,所述对所述目标类的若干个预属类别的分数进行归一化处理,并基于归一化处理结果确定概率最大的预属类别,包括:根据Softmax函数对所述目标类的若干个预属类别的分数进行归一化处理,并基于归一化处理结果确定所述概率最大的预属类别。3.如权利要求1所述的方法,其特征在于,所述预选编码器包括离散特征编码器和连续特征编码器。4.如权利要求1所述的方法,其特征在于,在所述基于预选编码器对所述目标列和所述若干个相关列进行编码之后,所述基于自注意层对所述目标列的特征向量和所述相关列的特征向量计算得到目标输出向量之前,所述方法还包括:基于特征拼接器将所述目标列的特征向量和所述相关列的特征向量进行拼接,并将拼接向量作为所述自注意层的输入。5.如权利要求4所述的方法,其特征在于,所述自注意层包括查询矩阵、键矩阵和值矩阵;以及,所述基于自注意层对所述目标列的特征向量和所述相关列的特征向量计算得到目标输出向量,包括:将所述目标列的特征向量与所述查询矩阵相乘,得到查询向量;将所述目标列的特征向量和所述相关列的特征向量与所述键矩阵相乘,得到键向量;将所述目标列的特征向量和所述相关列的特征向量与所述值矩阵相乘,得到值向量;将所述查询向量与所述键向量点乘,得到m个权重值;对所述m个权重值进行收缩,得到n个权重值,其中,n<m;将...

【专利技术属性】
技术研发人员:张发恩唐犁
申请(专利权)人:创新奇智浙江科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1