算法特征向量形成的方法、装置、电子设备和存储介质制造方法及图纸

技术编号:34442427 阅读:12 留言:0更新日期:2022-08-06 16:33
本发明专利技术提供了一种算法特征向量形成的方法、装置、电子设备和存储介质,其中算法特征向量形成的方法包括:获取算法研发定义的特征清单,所述特征清单包括ID、参数计算的原始字段、向量计算表达式、向量长度、异常值判断、异常值处理、默认值处理;将特征清单初始化;根据原始数据和特征清单计算特征向量。数据和特征清单计算特征向量。数据和特征清单计算特征向量。

【技术实现步骤摘要】
算法特征向量形成的方法、装置、电子设备和存储介质


[0001]本专利技术涉及计算机计算领域、科学计算领域。

技术介绍

[0002]近年来,线上服务和模型训练得到越来越多的应用。线上服务和模型训练都分为两个部分,算法开发部分和服务开发部分。算法开发使用Python语言或者其他非服务语言,服务开发用的Java之类的服务语言。两者是不通用的。
[0003]现有技术中,在线上服务普遍采用的方法是以编码的方式进行算法特征的编码处理,该方法需要算法研发人员使用算法开发语言进行离线特征处理,训练完模型之后再提交到线上,线上服务开发人员再使用服务开发语言再进行一次开发,这样中间的沟通的成本和技术差异极易导致特征差异,从而无法保证最终的算法效果。模型训练亦是如此。
[0004]随着线上服务和模型训练的发展,带来的新的问题是:如何通过配置化的方式实现在在线预测,离线训练,在线训练等多个场景与平台下进行特征向量的快速生成,并且需保证在不同的平台与场景下原始特征到特征向量的转化的一致性,不出现特征向量因为平台或者语言的不同出现向量不一致,或者向量错位的情况,并且需要支持处理算子的快速扩展。这是摆在技术人员面前的现实挑战。

技术实现思路

[0005]下文呈现各种示例性技术方案的概述。在以下概述中可以进行一些简化和省略,其意在突出并介绍各种示例性技术方案的一些方面,但不限制本专利技术的范围。将在后续部分呈现足以允许本领域的普通技术人员产生并使用本专利技术概念的示例性技术方案的详细描述。
[0006]为解决上述技术问题,本专利技术的技术方案提供一种算法特征向量形成的方法,包括:获取算法研发定义的特征清单,所述特征清单包括ID、参数计算的原始字段、向量计算表达式、向量长度、异常值判断、异常值处理、默认值处理;将特征清单初始化;根据原始数据和特征清单计算特征向量。
[0007]可选地,所述参数计算的原始字段包括以下至少之一:年龄、性别、收入、车品牌。
[0008]可选地,所述将特征清单初始化包括:加载特征清单配置数据;配置校验;预编译向量计算表达式;向量计算表达式排序;优化计算路径;和返回清单实例。
[0009]可选地,所述计算特征向量包括:将原始数据类型标准化。
[0010]可选地,所述计算特征向量包括:异常值判断,如果有异常值则得到异常值的向量,如果没有异常值则使用向量计算表达式计算特征向量。
[0011]可选地,所述计算特征向量包括:计算每个原始数据的特征向量,并合并每个特征向量。
[0012]本专利技术的另一个技术方案提供了一种算法特征向量形成的装置,包括:接收模块,被配置为获取算法研发定义的特征清单,所述特征清单包括ID、参数计算的原始字段、向量
计算表达式、向量长度、异常值判断、异常值处理、默认值处理;初始模块,被配置为将特征清单初始化;计算模块,根据原始数据和特征清单计算特征向量。
[0013]可选地,所述参数计算的原始字段包括以下至少之一:年龄、性别、收入、车品牌。
[0014]可选地,所述初始模块,被配置为:加载特征清单配置数据;配置校验;预编译向量计算表达式;向量计算表达式排序;优化计算路径;和返回清单实例。
[0015]可选地,所述计算模块,被配置为:将原始数据类型标准化。
[0016]可选地,所述计算模块,被配置为:异常值判断,如果有异常值则得到异常值的向量,如果没有异常值则使用向量计算表达式计算特征向量。
[0017]可选地,所述计算模块,被配置为:计算每个原始数据的特征向量,并合并每个特征向量。
[0018]本专利技术的另一个技术方案还提供了一种电子设备,包括:处理器、存储器以及存储在存储器上运行的计算机程序,所述处理器执行计算机程序时实现上述任一个技术方案所述的方法的步骤。
[0019]本专利技术的另一个技术方案还提供了一种计算机可读存储介质,所述计算机程序被处理器执行时实现上述任一个技术方案所述的方法的步骤。
[0020]本专利技术的技术方案主要具有以下几个发面的有益效果:
[0021]第一、通过配置化的方式快速生成特征向量,该特征向量可以在线预测,离线训练,在线训练等多个场景与平台下通用,支持算法特征处理的常见处理算子。
[0022]第二、因为特征的配置与转换工具都完全一样,所以只要能保证使用的是同一份特征清单,就可以从系统上保证转换后的特征向量一致。保证在不同的平台与场景下原始特征到特征向量的转化的一致性,不会出现特征向量因为平台或者语言的不同出现向量不一致,或者向量错位的情况。
[0023]第三、可支持处理算子的快速扩展。
[0024]第四、提高了性能,生成维度在300+的特征向量时单线程仅需要20分钟左右,平均单条数据处理时间仅需0.14ms,较使用独立开发编程相比性能提升25%。
附图说明
[0025]为了更好地理解各种示例性实施例,可以参考附图,在附图中:
[0026]图1示出了实施例提供的算法特征向量形成的方法的流程示意图;
[0027]图2示出了实施例提供的算法特征向量形成的方法中部分步骤的示意图;
[0028]图3示出了实施例提供的算法特征向量形成的例子;
[0029]图4示出了实施例提供的算法特征向量形成的方法的具体应用场景的示意图;
[0030]图5示出了实施例提供的算法特征向量形成的装置的结构示意图。
[0031]为了便于理解,相同的附图标记已用于指代具有基本上相同或类似结构和/或基本上相同或类似功能的元件。
具体实施方式
[0032]描述和图式示出了本专利技术的原理。因此,将了解,本领域的技术人员将能够设计各种布置,尽管本文中未明确地描述或示出所述布置,但所述布置体现本专利技术的原理且包括
在本专利技术的范围内。此外,本文中所引述的所有例子主要旨在明确地用于教学目的,以帮助读者理解本专利技术的原理和由专利技术人提供的用以深化本领域的概念,并且所有例子应视为并不限于此类特定引述的例子和条件。另外,如本文中所使用,除非另有指示(例如,“或另外”或“或在替代方案中”),否则术语“或”是指非排他性的或(即,和/或)。并且,本文中所描述的各种实施例不一定相互排斥,因为一些实施例可以与一个或多个其它实施例组合以形成新的实施例。
[0033]名词解释:
[0034]特征向量:进入模型预测的特征数据的有序序列。
[0035]处理算子:将原始数据转化成部分向量的处理方法。
[0036]特征清单:对算法特征向量形成的方法的简称。
[0037]第一个实施例提供了一种算法特征向量形成的方法,图1示出了实施例提供的算法特征向量形成的方法的流程示意图,所述算法特征向量形成的方法包括:
[0038]S101:获取算法研发定义的特征清单,所述特征清单包括ID、参数计算的原始字段、向量计算表达式、向量长度、异常值判断、异常值处理、默认值处理等。ID用于排序,参数计算的原始字段包括年龄、性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种算法特征向量形成的方法,其特征在于,包括:获取算法研发定义的特征清单,所述特征清单包括ID、参数计算的原始字段、向量计算表达式、向量长度、异常值判断、异常值处理、默认值处理;将特征清单初始化;根据原始数据和特征清单计算特征向量。2.根据权利要求1所述的算法特征向量形成的方法,其特征在于,所述参数计算的原始字段包括以下至少之一:年龄、性别、收入、车品牌。3.根据权利要求1所述的算法特征向量形成的方法,其特征在于,所述将特征清单初始化包括:加载特征清单配置数据;配置校验;预编译向量计算表达式;向量计算表达式排序;优化计算路径;和返回清单实例。4.根据权利要求1所述的算法特征向量形成的方法,其特征在于,所述计算特征向量包括:将原始数据类型标准化。5.根据权利要求1所述的算法特征向量形成的方法,其特征在于,所述计算特征向量包括:异常值判断,如果有异常值则得到异常值的向量,如果没有异常值则使用向量计算表达式计算特征向量。6.根据权利要求1所述的算法特征向量形成的方法,其特征在于,所述计算特征向量包括:计算每个原始数据的特征向量,并合并每个特征向量。7.一种算法特征向量形成的装置,其特征在于,包括:接收模块,被配置为获取算法研发定义的特征清单,所述特征清单包括ID、参数计算的原始字段、向量计算表达式、向量长度、异常值判断、异常值处理、默认值处理...

【专利技术属性】
技术研发人员:石胡
申请(专利权)人:上海虎瑾信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1