【技术实现步骤摘要】
对机器学习过程中的特征生成过程可视化的方法和系统
本专利技术涉及机器学习领域,更具体地讲,涉及对机器学习过程中的特征生成过程进行可视化的方法和系统。
技术介绍
随着大数据时代的到来,很多行业产生海量数据,并且数据种类、数据规模和数据维度都在不断膨胀。为了从海量数据中发现知识和价值,机器学习技术的应用越来越广泛。这里,数据作为机器学习过程的原材料,对于机器学习模型的效果具有重要的意义,而为了能将数据应用于机器学习,往往需要对数据执行相应的处理,例如,数据清洗、数据填充、数据拼接或特征抽取等。实践中,数据处理过程可通过运行程序员编写的代码来实现,也可由机器学习平台根据用户输入的脚本、配置和/或交互操作来实现,整个数据处理过程往往涉及庞大的数据量或复杂的处理操作。现有的机器学习平台与用户之间的交互性较差,一般用户无法直观地了解数据处理过程的逻辑思路和工作细节,即,难以了解某个具体特征的生成过程。即使用户了解整个机器学习过程中的每步操作,也很难快速辨别出某个具体特征与哪些数据处理步骤相关联。因而导致例如在机器学习过程中出现异常或错误时,用户难以快速追溯到导致异常或错误的根 ...
【技术保护点】
1.一种对机器学习过程中的特征生成过程进行可视化的方法,包括:确定将对其生成过程进行可视化的特征;对所述机器学习过程中用于生成所述特征的至少一个数据处理步骤进行解析,以获取所述特征的生成过程信息,其中,生成过程信息包括所述至少一个数据处理步骤的数据信息和/或处理信息;基于生成过程信息来生成用于描绘所述特征的生成过程的过程展示视图;以及以图形化方式展示所述过程展示视图。
【技术特征摘要】
1.一种对机器学习过程中的特征生成过程进行可视化的方法,包括:确定将对其生成过程进行可视化的特征;对所述机器学习过程中用于生成所述特征的至少一个数据处理步骤进行解析,以获取所述特征的生成过程信息,其中,生成过程信息包括所述至少一个数据处理步骤的数据信息和/或处理信息;基于生成过程信息来生成用于描绘所述特征的生成过程的过程展示视图;以及以图形化方式展示所述过程展示视图。2.如权利要求1所述的方法,其中,所述至少一个数据处理步骤的数据信息包括关于所述至少一个数据处理步骤的输入项和/或输出项的信息,所述至少一个数据处理步骤的处理信息包括关于所述至少一个数据处理步骤的处理过程的信息。3.如权利要求2所述的方法,其中,所述过程展示视图为表示所述特征的生成过程的流程图,其中,所述流程图中的节点分别表示对应的数据处理步骤的输入项、输出项和/或处理过程;并且,以图形化方式展示所述过程展示视图的处理包括:在每个节点的显示控件中展示关于对应的数据处理步骤的输入项、输出项和/或处理过程的信息。4.如权利要求3所述的方法,其中,所述至少一个数据处理步骤包括用于生成所述特征的特征抽取步骤,并且,所述特征抽取步骤的数据信息包括关于所述特征抽取步骤的输入项和/或输出项的信息,所述特征抽取步骤的处理信息包括关于所述特征抽取步骤的处理过程的信息。5.如权利要求4所述的方法,其中,所述流程图包括:表示作为所述特征抽取步骤的输入项的来源字段的节点、表示作为所述特征抽取步骤的处理过程的抽取处理过程的节点和/或表示作为所述特征抽取步骤的输出项的所述特征的节点,并且,以图形化方式展示所述过程展示视图的处理还包括:在表示来源字段的节点的显示控件中展示来源字段的名称,在表示抽取处理过程的节点的显示控件中展示抽取处理过程的名称和/或流程信息,并且/...
【专利技术属性】
技术研发人员:方荣,杨博文,黄亚建,杨慧斌,詹镇江,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。