【技术实现步骤摘要】
数据存储方法、数据获取方法以及相关设备
[0001]本申请涉及数据处理
,尤其涉及一种数据存储方法、数据获取方法以及相关设备。
技术介绍
[0002]在机器学习任务中,原始数据常常是高维的,其中可能包含了很多冗余数据或者带来较大的计算量,因此通常需要从原始数据中提取原始数据的特征进行训练学习。特征是指数据的一个独立可观测属性,其中包含了数据的信息,一般以数值形态呈现。经过特征提取,原始的高维稀疏数据被转化为低维稠密特征数据,再将特征传入机器学习方法中进行预测或检索。相较于存储原始数据,特征存储可以有效地减少存储空间,也可以节省机器学习任务中特征转换的计算时间,特别对于图像、文字等非结构化数据,转化后的结构化特征便于存储、检索与复用。但是,现有技术中对于特征值的处理和存储存在一定的弊端,往往会出现特征复用性差、特征不一致、不支持历史特征查询以及对实时任务支持较差,这严重影响了特征值的利用效率。
技术实现思路
[0003]有鉴于此,本申请的目的在于提出一种数据存储方法、数据获取方法以及相关设备,以解决现有技 ...
【技术保护点】
【技术特征摘要】
1.一种数据存储方法,其特征在于,所述方法包括:确定原始数据的特征值,对所述特征值进行预处理,得到目标特征值;根据预先确定的特征元数据确定所述目标特征值的存储方式;其中,所述特征元数据表征与所述特征值相应;响应于确定所述目标特征值的存储方式为离线存储,将所述目标特征值写入第一数据库,并记录写入时间;响应于确定所述目标特征值的存储方式为在线存储,将所述目标特征值写入所述第一数据库以及第二数据库。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:响应于接收到特征元生成指令,根据所述特征元生成指令确定所述特征元数据,以基于所述特征元数据确定所述目标特征值的存储方式。3.根据权利要求2所述的方法,其特征在于,所述特征元生成指令还表征所述目标特征值的特征名、特征主键以及特征版本号中的任意一种。4.根据权利要求1所述的方法,其特征在于,所述第一数据库包括与所述目标特征值相应的全量特征值以及所述全量特征值的写入时间;其中,所述全量特征值包括从所述目标特征值创建时刻起到当前时刻为止的所有特征值版本。5.根据权利要求1所述的方法,其特征在于,所述第二数据库包括与所述目标特征值相应的增量特征值。6.根据权利要求1所述的方法,其特征在于,所述确定原始数据的特征值,对所述特征值进行预处理,得到目标特征值,包括:获取若干个原始数据集,根据预设的关联标签从所述若干个原始数据集中确定目标原始数据集;确定所述目标原始数据集的目标标签;根据所述目标标签将所述若干个原始数据集中的数据对象进行整合,得到所述目标特征值。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:将所述目标特征值压缩到0
‑
1之间,以对所述目标特征值进行归一化处理。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:根据预设均值以及预设方差对所述目标特征值进行变换,以对所述目标特征值进行标准化处理。9.根据权利要求8所述的方法,其特征在于,所述方法还包括:响应于所述目标特征值为分类变量,将所述目标特征值转换为特征二进制编码;其中,所述分类变量表征所述目标特征值的唯一属性。10.一种数据获取方法,其特征在于,所述方法包括:响应于接收到特征消费指令,根据所述特征消费指令确定目标特征值的消费方式是否为离线消费;其中,所述特征消费指令包括特征元数据;响应于确定所述目标特征值的消费方式为离线消费,根据所述特征元数...
【专利技术属性】
技术研发人员:宋新彤,朱钰森,危红康,吴剑飞,刘柏,
申请(专利权)人:网易杭州网络有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。