基于特征工程血缘关系的可回溯、可视化方法技术

技术编号:24853221 阅读:34 留言:0更新日期:2020-07-10 19:07
本发明专利技术公开了一种基于特征工程血缘关系的可回溯、可视化方法,所述方法包括:步骤一、数据库宽表整合的血缘构建,步骤二、数据预处理血缘构建,步骤三、血缘关系整合,步骤四,可视化交互构建,以整体血缘关系基础,多层次地构建可回溯的可视化交互界面。本发明专利技术解决了当前行业特征工程结果变量难回溯、错误数据的源头难查找问题,同时血缘关系解决特征工程实验和生产脱节,变量处理难以在生产环境复现的问题,最终使得整体流程能基于血缘关系结构快速复现,快速应用于生产环境。

【技术实现步骤摘要】
基于特征工程血缘关系的可回溯、可视化方法
本专利技术通过人工智能进行数据处理的
,尤其涉及一种利用计算机构建特征工程血缘关系,对特征进行回溯与可视化交互构建。
技术介绍
在大数据和人工智能的发展中,模型开发速度和模型效果的要求越来越高,与之对应的,数据的采集、汇总以及处理的效率要求也越来越高。数据整合与处理是限制模型开发效率的最主要因素,机器学习建模是不断对模型进行调参和不断输入数据进行调整的过程。因此,对数据特征的处理流进行血缘关系构建,创建可回溯、可视化血缘关系结构变得十分有必要。构建特征的血缘关系,能使用户在建模过程,快速的调节模型的输入特征,复现从源特征到最终特征的处理流,提供给用户清晰的特征来源路径,并最终有利于实现数据处理跨平台处理。在模型上线过程中,可回溯的血缘关系结构有利于用户对错误数据进行回溯,及时定位到出现问题的地方,并快速更正。目前市面上方案较少,现有的方案存在以下几个问题:1)血缘关系的记录只针对部分流程,没有全流程的记录,无法进行源到结果的复现。2)血缘关系构建以表为维度,只能提供简单的展示,用户不能根据展示内容详细了解某个特征的情况。。3)诸如归一化、异常值修正等特征加工方式的底层参数,没有完整纳入血缘关系体系之中,因此在进行特征工程复现时,生成的数据集只可作为训练集,不能作为测试集。专利申请201610127589.0公开了一种特征工程策略确定方法及装置,该方法通过获取用于训练预设模型的预设维度特征的多个特征值;根据所述多个特征值的排序确定多个分位区间;获取每个分位区间中作为正样本的特征值的数量与所在区间内所有特征值的数量的正样本比例;计算任意两个相邻的所述分位区间的所述正样本比例之间的正样本变化率;根据所有分位区间对应的所述正样本比例之间的正样本变化率,可以确定用于处理所述预设维度特征的目标特征工程策略。又如专利申请201810669281.8公开了一种用于构建机器学习建模过程的方法及系统。所述方法包括:在用于构建机器学习建模过程的图形界面中显示构建的机器学习建模过程;响应于用于运行所述机器学习建模过程中的至少一个步骤的用户操作,运行所述至少一个步骤;在运行所述至少一个步骤的同时,接收用户的用于修改所述机器学习建模过程的修改操作;响应于所述修改操作,对所述机器学习建模过程进行修改,其中,当运行到所述机器学习建模过程的被修改的部分时,基于修改后的机器学习建模过程来运行。
技术实现思路
为解决上述问题,本专利技术提供一种基于特征工程血缘关系的可回溯、可视化方法,该方法能够帮助用户在进行特征工程后,对结果变量进行溯源,以及将特征工程的过程完整地进行可视化交互展现。本专利技术的另一个目的在于提供一种基于特征工程血缘关系的可回溯、可视化方法,该方法能完整记录基于全流程的数据处理流,解决用户对最终生成特征的来源存在困惑的问题,同时,以特征为维度的清晰的血缘结构,使用户在选取对建模有用的结果变量时,能通过血缘关系结构复现逻辑,能够清晰且快速地进行模型开发,跨平台上线。为实现上述目的,本专利技术的技术方案如下:一种基于特征工程血缘关系的可回溯、可视化方法,所述方法包括:步骤一、数据库宽表整合的血缘构建:所述数据库宽表整合为按聚合、关联、抽取、衍生等机制,按预先定义的表间关系,将多表整合为用于建模的宽表的过程。所述聚合为根据数据表唯一键,对其它特征列采用汇聚计算;所述关联为对表与表,以某共同列进行横向连接;所述抽取为坐表与右表,一对多关联时,抽取右表中的一条记录与左表关联;所述衍生为根据业务规则,对特征列进行聚合或列与列间组合计算;涉及上述处理的字段和表,依据字段所属表,以及操作内容进行血缘构建;进一步,在宽表整合过程中,根据每个特征的聚合和衍生业务规则方式的不同,分别以各个单一特征为维度,记录每个变量的聚合和衍生规则以及上一级特征,并输出标准可回溯的数据结构。步骤二、数据预处理血缘构建:所述数据为步骤一中由数据库产出形成的宽表数据,所述数据预处理为对该宽表的特征进行常见特征工程处理方式的加工,包括但不限于变量删除、归一化、填补缺失值、异常值修正、独热编码、标准化、多种类分箱以及自定义衍生,受限于不同的操作内容,该步骤血缘主要涉及操作内容和操作底层参数;进一步,本系统特征工程的处理方式为可视化的加工,即处理过程根据处理方式原理的不同,按单个特征维度,依次对所涉及的各个操作进行底层参数进行纪录,输出标准可回溯的数据结构。步骤三、血缘关系整合:由于数据处理一般为分块进行,以上述为例,最终对两部分数据结构进行匹配和汇总,数据预处理的源变量为数据库聚合与衍生的结果变量,最终形成以数据预处理结果变量为维度的血缘关系结构数据。步骤四、可视化交互构建:以步骤三输出完整血缘为基础,按多层面多级别进行可视化交互构建,包括表级别(目标字段来源于何表,体现字段与表的关系),字段级别(目标字段来源于何字段,体现字段与字段的来源关系),记录级别(目标记录来源于何记录,体现记录与记录),从头至尾(由源字段找到目标字段),从尾至头(由结果字段找到源字段),层级选择由用户交互选择。本专利技术解决了当前行业特征工程结果变量难回溯、错误数据的源头难查找问题,同时解决特征工程实验和生产脱节,变量处理难以在生产环境复现的问题和展示问题,最终使得整体流程能基于血缘关系结构快速展示和复现,快速应用于生产环境。本专利技术所实现的方案步骤如下:步骤一、数据库宽表整合的血缘构建;具体地,数据的源头在于数据库的各个表,表的构建存在原子性,因此形成一张宽表,需要经过多个表进行聚合和关联得到,包括有:101、在采用聚合和关联时,需要预先定义多个表之间的关联关系,以及定义特征之间的业务关系;关联关系包括但不限于内关联、左关联、右关联等多种方式,特征业务关系类型包括但不限于交易流水类型、通话记录类型、短信记录类型等多种类型;102、采用数据库聚合(数据库聚合特征的加工方式主要有:最大值聚合、最小值聚合、求和聚合、计数聚合、标准差聚合、均值聚合等几种方式,以客户为维度,分别表示某个客户某个特征的总和、非空数量、最大值、最小值、标准差、均值)的方式,对数据进行汇总计算;103、采取数据库抽取的方式,仅在左表与右表关联时,右表记录相对于关联字段而言,记录不唯一时采用,抽取某一条右表记录与左表关联;104、在采取数据库衍生的方式时,依据预先设定的特征之间的交互计算规则,对特征进行衍生处理,形成新特征,新特征具备相关的业务含义,存在实际行业意义;在进行数据库聚合和关联时,每个特征的加工方式都有不同,根据不同,分别构建各个特征的血缘关系,每个当前特征,都是上一级表的某个特征,经过聚合操作来的,所以上一级表是哪个,特征是哪个都要记录,这就是血缘关系,后面才能根据记录的信息(也就是血缘关系)用别的方式进行复现。血缘关系包括所有特征的上一级表、上一级特征,聚合类型、上一级表关联字段以及上一级关联表,血缘关本文档来自技高网
...

【技术保护点】
1.一种基于特征工程血缘关系的可回溯、可视化方法,其特征在于所述方法包括:/n步骤一、数据库宽表整合的血缘构建:所述数据库宽表整合为按聚合、关联、抽取、衍生等机制,按预先定义的表间关系,将多表整合为用于建模的宽表的过程。所述聚合为根据数据表唯一键,对其它特征列采用汇聚计算;所述关联为对表与表,以某共同列进行横向连接;所述抽取为左表与右表,一对多关联时,抽取右表中的一条记录与左表关联;所述衍生为根据业务规则,对特征列进行聚合或列与列间组合计算;涉及上述处理的字段和表,依据字段所属表,以及操作内容进行血缘构建。/n步骤二、数据预处理血缘构建:所述数据为步骤一中由数据库产出形成的宽表数据,所述数据预处理为对该宽表的特征进行常见特征工程处理方式的加工,包括但不限于变量删除、归一化、填补缺失值、异常值修正、独热编码、标准化、多种类分箱以及自定义衍生,受限于不同的操作内容,该步骤血缘主要涉及操作内容和操作底层参数。/n步骤三、血缘关系整合:由于数据处理一般为分块进行,以上述为例,最终对两部分数据结构进行匹配和汇总,数据预处理的源变量为数据库聚合与衍生的结果变量,最终形成以数据预处理结果变量为维度的血缘关系结构数据。/n步骤四、可视化交互构建:以步骤三输出完整血缘为基础,按多层面多顺序进行可视化交互构建,包括表级别,字段级别,记录级别,从头至尾,从尾至头,层级选择由用户交互选择。/n...

【技术特征摘要】
1.一种基于特征工程血缘关系的可回溯、可视化方法,其特征在于所述方法包括:
步骤一、数据库宽表整合的血缘构建:所述数据库宽表整合为按聚合、关联、抽取、衍生等机制,按预先定义的表间关系,将多表整合为用于建模的宽表的过程。所述聚合为根据数据表唯一键,对其它特征列采用汇聚计算;所述关联为对表与表,以某共同列进行横向连接;所述抽取为左表与右表,一对多关联时,抽取右表中的一条记录与左表关联;所述衍生为根据业务规则,对特征列进行聚合或列与列间组合计算;涉及上述处理的字段和表,依据字段所属表,以及操作内容进行血缘构建。
步骤二、数据预处理血缘构建:所述数据为步骤一中由数据库产出形成的宽表数据,所述数据预处理为对该宽表的特征进行常见特征工程处理方式的加工,包括但不限于变量删除、归一化、填补缺失值、异常值修正、独热编码、标准化、多种类分箱以及自定义衍生,受限于不同的操作内容,该步骤血缘主要涉及操作内容和操作底层参数。
步骤三、血缘关系整合:由于数据处理一般为分块进行,以上述为例,最终对两部分数据结构进行匹配和汇总,数据预处理的源变量为数据库聚合与衍生的结果变量,最终形成以数据预处理结果变量为维度的血缘关系结构数据。
步骤四、可视化交互构建:以步骤三输出完整血缘为基础,按多层面多顺序进行可视化交互构建,包括表级别,字段级别,记录级别,从头至尾,从尾至头,层级选择由用户交互选择。


2.如权利要求1所述的基于特征工程血缘关系的可回溯、可视化方法,其特征在于步骤一中,在聚合、关联、抽取、衍生过程中,根据每个特征的聚合、关联和衍生业务规则方式的不同,分别以各个单一特征为维度,记录每个变量的聚合、关联和衍生规则以及上一级特征,并输出标准可回溯的数据结构。


3.如权利要求1所述的基于特征工程血缘关系的可回溯、可视化方法,其特征在于步骤二中,特征工程的处理方式为可视化的加工,处理过程按单个特征维度,依次对所涉及的各个操作及底层参数进行纪录,输出标准可回溯的数据结构。


4.如权利要求3所述的基于特征工程血缘关系的可回溯、可视化方法,其特征在于所述方法的具体步骤如下:
步骤一、数据库宽表整合的血缘构建,包括有:
101、在采用聚合和关联时,需要预先定义多个表之间的关联关系,以及定义特征之间的业务关系;关联关系包括但不限于内关联、左关联、右关联方式,特征业务关系类型包括但不限于交易流水类型、通话记录类型、短信记录类型;
102、采用数据库聚合的方式,对数据进行汇总计算,汇总计算包括但不限于最大值聚合、最小值聚合、求和聚合、计数聚合、标准差聚合、均值聚合等多种方式;
103、采取...

【专利技术属性】
技术研发人员:柴磊许靖许灿杰
申请(专利权)人:深圳市魔数智擎人工智能有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1