基于特征工程血缘关系的可回溯、可视化方法技术

技术编号：24853221 阅读：34 留言：0更新日期：2020-07-10 19:07

本发明专利技术公开了一种基于特征工程血缘关系的可回溯、可视化方法，所述方法包括：步骤一、数据库宽表整合的血缘构建，步骤二、数据预处理血缘构建，步骤三、血缘关系整合，步骤四，可视化交互构建，以整体血缘关系基础，多层次地构建可回溯的可视化交互界面。本发明专利技术解决了当前行业特征工程结果变量难回溯、错误数据的源头难查找问题，同时血缘关系解决特征工程实验和生产脱节，变量处理难以在生产环境复现的问题，最终使得整体流程能基于血缘关系结构快速复现，快速应用于生产环境。

全部详细技术资料下载

【技术实现步骤摘要】
基于特征工程血缘关系的可回溯、可视化方法
本专利技术通过人工智能进行数据处理的
，尤其涉及一种利用计算机构建特征工程血缘关系，对特征进行回溯与可视化交互构建。
技术介绍
在大数据和人工智能的发展中，模型开发速度和模型效果的要求越来越高，与之对应的，数据的采集、汇总以及处理的效率要求也越来越高。数据整合与处理是限制模型开发效率的最主要因素，机器学习建模是不断对模型进行调参和不断输入数据进行调整的过程。因此，对数据特征的处理流进行血缘关系构建，创建可回溯、可视化血缘关系结构变得十分有必要。构建特征的血缘关系，能使用户在建模过程，快速的调节模型的输入特征，复现从源特征到最终特征的处理流，提供给用户清晰的特征来源路径，并最终有利于实现数据处理跨平台处理。在模型上线过程中，可回溯的血缘关系结构有利于用户对错误数据进行回溯，及时定位到出现问题的地方，并快速更正。目前市面上方案较少，现有的方案存在以下几个问题：1)血缘关系的记录只针对部分流程，没有全流程的记录，无法进行源到结果的复现。2)血缘关系构建以表为维度，只能提供简单的展示，用户不能根据展示内容详细了解某个特征的情况。。3)诸如归一化、异常值修正等特征加工方式的底层参数，没有完整纳入血缘关系体系之中，因此在进行特征工程复现时，生成的数据集只可作为训练集，不能作为测试集。专利申请201610127589.0公开了一种特征工程策略确定方法及装置，该方法通过获取用于训练预设模型的预设维度特征的多个特征值；根据所...

【技术保护点】
1.一种基于特征工程血缘关系的可回溯、可视化方法，其特征在于所述方法包括：/n步骤一、数据库宽表整合的血缘构建：所述数据库宽表整合为按聚合、关联、抽取、衍生等机制，按预先定义的表间关系，将多表整合为用于建模的宽表的过程。所述聚合为根据数据表唯一键，对其它特征列采用汇聚计算；所述关联为对表与表，以某共同列进行横向连接；所述抽取为左表与右表，一对多关联时，抽取右表中的一条记录与左表关联；所述衍生为根据业务规则，对特征列进行聚合或列与列间组合计算；涉及上述处理的字段和表，依据字段所属表，以及操作内容进行血缘构建。/n步骤二、数据预处理血缘构建：所述数据为步骤一中由数据库产出形成的宽表数据，所述数据预处理为对该宽表的特征进行常见特征工程处理方式的加工，包括但不限于变量删除、归一化、填补缺失值、异常值修正、独热编码、标准化、多种类分箱以及自定义衍生，受限于不同的操作内容，该步骤血缘主要涉及操作内容和操作底层参数。/n步骤三、血缘关系整合：由于数据处理一般为分块进行，以上述为例，最终对两部分数据结构进行匹配和汇总，数据预处理的源变量为数据库聚合与衍生的结果变量，最终形成以数据预处理结果变量为维度的...

【技术特征摘要】
1.一种基于特征工程血缘关系的可回溯、可视化方法，其特征在于所述方法包括：
步骤一、数据库宽表整合的血缘构建：所述数据库宽表整合为按聚合、关联、抽取、衍生等机制，按预先定义的表间关系，将多表整合为用于建模的宽表的过程。所述聚合为根据数据表唯一键，对其它特征列采用汇聚计算；所述关联为对表与表，以某共同列进行横向连接；所述抽取为左表与右表，一对多关联时，抽取右表中的一条记录与左表关联；所述衍生为根据业务规则，对特征列进行聚合或列与列间组合计算；涉及上述处理的字段和表，依据字段所属表，以及操作内容进行血缘构建。
步骤二、数据预处理血缘构建：所述数据为步骤一中由数据库产出形成的宽表数据，所述数据预处理为对该宽表的特征进行常见特征工程处理方式的加工，包括但不限于变量删除、归一化、填补缺失值、异常值修正、独热编码、标准化、多种类分箱以及自定义衍生，受限于不同的操作内容，该步骤血缘主要涉及操作内容和操作底层参数。
步骤三、血缘关系整合：由于数据处理一般为分块进行，以上述为例，最终对两部分数据结构进行匹配和汇总，数据预处理的源变量为数据库聚合与衍生的结果变量，最终形成以数据预处理结果变量为维度的血缘关系结构数据。
步骤四、可视化交互构建：以步骤三输出完整血缘为基础，按多层面多顺序进行可视化交互构建，包括表级别，字段级别，记录级别，从头至尾，从尾至头，层级选择由用户交互选择。

2.如权利要求1所述的基于特征工程血缘关系的可回溯、可视化方法，其特征在于步骤一中，在聚合、关联、抽取、衍生过程中，根据每个特征的聚合、关联和衍生业务规则方式的不同，分别以各个单一特征为维度，记录每个变量的聚合、关联和衍生规则以及上一级特征，并输出标准可回溯的数据结构。

3.如权利要求1所述的基于特征工程血缘关系的可回溯、可视化方法，其特征在于步骤二中，特征工程的处理方式为可视化的加工，处理过程按单个特征维度，依次对所涉及的各个操作及底层参数进行纪录，输出标准可回溯的数据结构。

4.如权利要求3所述的基于特征工程血缘关系的可回溯、可视化方法，其特征在于所述方法的具体步骤如下：
步骤一、数据库宽表整合的血缘构建，包括有：
101、在采用聚合和关联时，需要预先定义多个表之间的关联关系，以及定义特征之间的业务关系；关联关系包括但不限于内关联、左关联、右关联方式，特征业务关系类型包括但不限于交易流水类型、通话记录类型、短信记录类型；
102、采用数据库聚合的方式，对数据进行汇总计算，汇总计算包括但不限于最大值聚合、最小值聚合、求和聚合、计数聚合、标准差聚合、均值聚合等多种方式；
103、采取...

【专利技术属性】
技术研发人员：柴磊，许靖，许灿杰，
申请(专利权)人：深圳市魔数智擎人工智能有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人