数据分类方法、数据分类模型的训练方法及系统技术方案

技术编号:22166904 阅读:21 留言:0更新日期:2019-09-21 10:34
本说明书公开了数据分类方法、数据分类模型的训练方法及系统,获得用于处理所述待分类数据字段的数据库操作语句;对所述数据库操作语句进行解析,获得用于处理所述待分类数据字段的操作参数;针对所述操作参数进行特征提取,获得对应的操作特征;调用训练得到的数据分类模型对所述操作特征进行分类,以获得所述待分类数据字段的分类结果。

Data Classification Method, Training Method and System of Data Classification Model

【技术实现步骤摘要】
数据分类方法、数据分类模型的训练方法及系统
本申请涉及互联网
,尤其涉及数据分类方法、数据分类模型的训练方法及系统。
技术介绍
目前针对数据库中的结构化数据的分类,主要基于对字段名称和注释的语义分析、对字段内容的规则等等对其进行匹配分类。例如,基于字段的语义信息,提取出带分类字段的名称和字段注释,通过正则表达式匹配其中可能存在的敏感信息,如若匹配到“card”,则可归类于“银行卡”这一类别。或者,基于字段的内容对字段内容进行抽样,然后利用以往经验对内容进行分析,例如身份证号,便可以在抽取的字段内容中用正则匹配+校验位的方式进行检验。但是,上述分类方式存在分类准确率不高的问题。
技术实现思路
本说明书提供了数据分类方法、数据分类模型的训练方法及系统,以解决或者部分解决当前分类方式的分类精度不高的技术问题。为解决上述技术问题,本说明书公开了一种数据分类方法,所述方法包括:获得用于处理所述待分类数据字段的数据库操作语句;对所述数据库操作语句进行解析,获得用于处理所述待分类数据字段的操作参数;针对所述操作参数进行特征提取,获得对应的操作特征;调用训练得到的数据分类模型对所述操作特征进行分类,以获得所述待分类数据字段的分类结果。本说明书公开了一种数据分类模型的训练方法,所述方法包括:获得用于处理数据字段样本的数据库操作语句样本;其中,所述数据字段样本具有分类类别;对所述数据库操作语句样本进行解析,获得用于处理所述数据字段样本的操作参数样本;针对所述操作参数样本进行特征提取,获得对应的操作特征样本;通过所述操作特征样本确定对应的待训练模型;通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型,获得对应的数据分类模型。本说明书公开了一种数据分类系统,包括:第一获得单元,用于获得用于处理所述待分类数据字段的数据库操作语句;第一解析单元,用于对所述数据库操作语句进行解析,获得用于处理所述待分类数据字段的操作参数;第一提取单元,用于针对所述操作参数进行特征提取,获得对应的操作特征;分类单元,用于调用训练得到的数据分类模型对所述操作特征进行分类,以获得所述待分类数据字段的分类结果。本说明书公开了一种数据分类模型的训练系统,包括:获得模块,用于获得用于处理数据字段样本的数据库操作语句样本;其中,所述数据字段样本具有分类类别;解析模块,用于对所述数据库操作语句样本进行解析,获得用于处理所述数据字段样本的操作参数样本;提取模块,用于针对所述操作参数样本进行特征提取,获得对应的操作特征样本;确定模块,用于通过所述操作特征样本确定对应的待训练模型;训练模块,用于通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型,获得对应的数据分类模型。本说明书公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。本说明书公开了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。通过本说明书的一个或者多个技术方案,本说明书具有以下有益效果或者优点:本说明书公开了数据分类方法、数据分类模型的训练方法及系统,本说明书的数据分类方法,并没有针对结构化数据本身,而是从调用结构化数据的数据操作语句入手,通过对待分类数据字段对应的数据操作语句进行解析、提取得到数据操作语句的操作特征,调用训练得到的数据分类模型对所述操作特征进行分类,以获得所述待分类数据字段的分类结果,由于数据操作语句能够可以更加客观的揭示结构化数据中数据字段的真实含义,进而对数据操作语句进行分类提升数据分类的覆盖率和准确率,特别是针对内容和语义特征不明显的结构化数据(例如交易金额、公司利润等等),能够大幅提升分类精度。进一步的,本说明书的训练方法并没有针对结构化数据本身,而是从调用结构化数据的数据操作语句入手,通过获得数据操作语句样本,并对所述数据操作语句样本进行解析、提取等操作得到数据操作语句样本的操作特征样本,然后通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型,获得对应的数据分类模型,来对结构化数据的种类的判断。通过多维度数据的积累可以更加客观的揭示结构化数据中数据字段的真实含义,进而提升数据分类的覆盖率和准确率,特别是针对内容和语义特征不明显的结构化数据(例如交易金额、公司利润等等),能够大幅提升分类精度。上述说明仅是本说明书技术方案的概述,为了能够更清楚了解本说明书的技术手段,而可依照说明书的内容予以实施,并且为了让本说明书的上述和其它目的、特征和优点能够更明显易懂,以下特举本说明书的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本说明书的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本说明书一个实施例的一种数据分类模型的训练方法的实施过程图;图2示出了根据本说明书一个实施例的一种数据分类方法的实施过程图;图3示出了根据本说明书一个实施例的一种数据分类模型的训练系统的示意图;图4示出了根据本说明书一个实施例的一种数据分类系统的示意图;图5示出了根据本说明书一个实施例的一种计算机设备的示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。对于数据库中的结构化数据,目前仅仅根据字段名称和注释的语义分析、对字段内容的规则等等对其进行匹配分类,如果命名不当,或者缺少注释,或者没有明显特征的字段内容,就会存在分类不准的问题。故而,本说明书的一个或者多个实施例提供了一种数据分类方法、数据分类模型的训练方法及系统。在数据分类过程和数据分类模型的训练过程中,都没有针对存储在数据库中的结构化数据本身进行分类,而是从调用结构化数据的数据操作语句入手,通过对数据操作语句的分析得到更多维度的信息,用于对结构化数据的种类的判断。通过多维度数据的积累可以更加客观的揭示结构化数据中数据字段的真实含义,进而提升数据分类的覆盖率和准确率,特别是针对内容和语义特征不明显的结构化数据(例如交易金额、公司利润等等),能够大幅提升分类精度。当然,本实施例的数据分类方法和数据分类模型的训练方法不仅仅针对内容和语义特征不明显的结构化数据,而是针对所有结构化数据。因为所有结构化数据都对应有各自的数据操作语句,因此利用本方案可以覆盖所有的结构化数据,提升所有结构化数据的分类精度。在下面的一个或者多个实施例中,先介绍数据分类模型的训练方法,该方法训练出的数据分类模型分类精度较高。能够针对所有结构化数据进行分类,不管数据库中的数据是何种形式,都能够准确的对其分类。数据操作语句,也称为DML(DataManipulationLanguage,数据操作语言),负责对数据库对象运行数据访问工作的指令集。下面请参看图1,是本实施例公开的一种数据分类模型的训练方法的实施过程图,主要是根据数据操作语句样本文档来自技高网...

【技术保护点】
1.一种数据分类方法,所述方法包括:获得用于处理所述待分类数据字段的数据库操作语句;对所述数据库操作语句进行解析,获得用于处理所述待分类数据字段的操作参数;针对所述操作参数进行特征提取,获得对应的操作特征;调用训练得到的数据分类模型对所述操作特征进行分类,以获得所述待分类数据字段的分类结果。

【技术特征摘要】
1.一种数据分类方法,所述方法包括:获得用于处理所述待分类数据字段的数据库操作语句;对所述数据库操作语句进行解析,获得用于处理所述待分类数据字段的操作参数;针对所述操作参数进行特征提取,获得对应的操作特征;调用训练得到的数据分类模型对所述操作特征进行分类,以获得所述待分类数据字段的分类结果。2.如权利要求1所述的方法,所述操作参数包括:参数as后的字段别名,统计函数,位置where条件参数,连接join条件参数,casewhen函数,关键字参数中的一种或者多种组合;所述操作特征包括:语义特征、统计特征、行为特征、血缘特征,关键字特征中的一种或者多种组合。3.如权利要求1所述的方法,所述调用训练得到的数据分类模型对所述操作特征进行分类之前,所述方法还包括:利用数据库操作语句样本作为训练样本训练得到数据分类模型,所述数据库操作语句样本用于处理数据字段样本。4.如权利要求3所述的方法,所述利用数据库操作语句样本作为训练样本训练得到数据分类模型,具体包括:获得所述数据库操作语句样本;其中,所述数据字段样本具有分类类别;对所述数据库操作语句样本进行解析,获得用于处理所述数据字段样本的操作参数样本;针对所述操作参数样本进行特征提取,获得对应的操作特征样本;通过所述操作特征样本确定对应的待训练模型;通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型,获得对应的数据分类模型。5.如权利要求4所述的方法,所述操作特征样本包括:语义特征样本、统计特征样本、行为特征样本、血缘特征样本、关键字特征样本中的一种或者多种组合;所述通过所述操作特征样本确定出对应的待训练模型,具体包括以下一种或者多种组合方式:通过所述语义特征样本确定待训练自然语言处理NLP模型;通过所述统计特征样本确定待训练决策树模型;通过所述行为特征样本确定待训练人员-行为-字段关系图模型;通过所述血缘特征样本确定待训练字段流转模型;通过所述关键字特征样本确定待训练专家经验模型。6.如权利要求5所述的方法,所述通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型,获得对应的数据分类模型,具体包括以下一种或者多种组合方式:通过所述语义特征样本和所述数据字段样本的分类类别,对待训练NLP模型进行训练,获得关联语义的数据分类模型;通过所述统计特征样本和所述数据字段样本的分类类别,对待训练决策树模型进行训练,获得关联统计的数据分类模型;通过所述行为特征样本和所述数据字段样本的分类类别,对待训练人员-行为-字段关系图模型进行训练,获得关联行为的数据分类模型;通过所述血缘特征样本和所述数据字段样本的分类类别,对待训练字段流转模型进行训练,获得关联血缘的数据分类模型;通过所述关键字特征样本和所述数据字段样本的分类类别,对待训练专家经验模型进行训练,获得关联关键字的数据分类模型。7.如权利要求2所述的方法,所述数据分类模型包括:关联语义的数据分类模型、关联统计的数据分类模型、关联行为的数据分类模型、关联血缘的数据分类模型、关联关键字的数据分类模型;所述调用训练得到的数据分类模型对所述操作特征进行分类,具体包括以下一种或者多种组合方式:调用所述关联语义的数据分类模型对所述语义特征进行分类;调用所述关联统计的数据分类模型对所述统计特征进行分类;调用所述关联行为的数据分类模型对所述行为特征进行分类;调用所述关联血缘的数据分类模型对所述血缘特征进行分类;调用所述关联关键字的数据分类模型对所述关键字特征进行分类。8.如权利要求1-7任一权项所述的方法,所述调用训练得到的数据分类模型对所述操作特征进行分类之后,具体包括:按照预设级别划分规则对所述待分类数据字段的分类结果中的类别进行分级。9.一种数据分类模型的训练方法,所述方法包括:获得用于处理数据字段样本的数据库操作语句样本;其中,所述数据字段样本具有分类类别;对所述数据库操作语句样本进行解析,获得用于处理所述数据字段样本的操作参数样本;针对所述操作参数样本进行特征提取,获得对应的操作特征样本;通过所述操作特征样本确定对应的待训练模型;通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型,获得对应的数据分类模型。10.如权利要求9所述的方法,所述操作参数样本包括:参数as后面的字段别名,统计函数,位置where条件参数,连接join条件参数,casewhen函数,关键字参数中的一种或者多种组合;所述操作特征样本包括:语义特征样本、统计特征样本、行为特征样本、血缘特征样本,关键字特征样本中的一种或者多种组合。11.一种数据分类系统,包括:第一获得单元,用于获得用于处理所述待分类数据字段的数据库操作语句;第一解析单元,用于对...

【专利技术属性】
技术研发人员:林博
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1