离线特征管理方法、系统、计算机设备和存储介质技术方案

技术编号:42679137 阅读:27 留言:0更新日期:2024-09-10 12:29
本申请涉及一种离线特征管理方法、系统、计算机设备和存储介质。系统包括数据管理平台和分布式关系型数据库;数据管理平台包括数据采集模块、数据处理模块、数据传输模块;分布式关系型数据库用于管理预先创建的多张离线特征表;数据采集模块用于从指定的业务系统中采集业务数据;数据处理模块用于定期执行预先编写的数据处理脚本,以对指定业务数据进行清洗加工和将清洗加工得到的特征数据存储至相应的特征数据表;数据传输模块用于定期将特征数据表中的数据传输至分布式关系型数据库中对应的离线特征表。本申请能实现更加高效的数据处理和加工操作,在处理大规模数据时具有较低延迟,操作时更为方便,从而业务人员能自主操作加工离线特征。

【技术实现步骤摘要】

本申请涉及数据处理,特别是涉及一种离线特征管理方法、系统、计算机设备和存储介质


技术介绍

1、随着大模型技术的飞速发展,现代大模型对离线特征的需求呈现出日益增长的趋势。与以往相比,现代大模型的离线特征输入量和底层业务数据量更加庞大且复杂。

2、目前用于生产大模型的离线特征的方案主要是,从业务数据库中将相关的业务数据同步到hive,然后在hive中进行数据清洗和加工等操作,最后将处理后的数据存储到hbase中作为离线特征存储库。hive是一种数据仓库工具,能将结构化的数据文件映射为一张数据库表,并提供sql(structured query language,结构化查询语言)查询功能,能将sql语句转变成mapreduce(一种编程模型)任务来执行。

3、随着离线特征输入量和底层业务数据量更加庞大且复杂,上述方案越来越难满足实际需求。例如:上述方案中的hive和hbase(一种分布式的、面向列的开源数据库)等组件都需要集群部署,因而成本较高;上述方案涉及多个组件和技术的集成和配置,需要较高的技术水平和维护成本,这使得相关操作在实现上本文档来自技高网...

【技术保护点】

1.一种离线特征管理系统,其特征在于,所述系统包括数据管理平台和分布式关系型数据库;所述数据管理平台包括数据采集模块、数据处理模块、数据传输模块;

2.如权利要求1所述的系统,其特征在于,所述数据管理平台是基于Dataphin构建的系统;所述分布式关系型数据库是基于TiDB构建的数据库。

3.如权利要求2所述的系统,其特征在于,所述数据处理模块,还用于响应第一配置指令,将相关的业务人员预先提交的数据处理脚本配置为数据处理任务,并配置调度器,使得所述调度器定期执行所述数据处理任务。

4.如权利要求3所述的系统,其特征在于,所述数据处理脚本是业务人员预先基...

【技术特征摘要】

1.一种离线特征管理系统,其特征在于,所述系统包括数据管理平台和分布式关系型数据库;所述数据管理平台包括数据采集模块、数据处理模块、数据传输模块;

2.如权利要求1所述的系统,其特征在于,所述数据管理平台是基于dataphin构建的系统;所述分布式关系型数据库是基于tidb构建的数据库。

3.如权利要求2所述的系统,其特征在于,所述数据处理模块,还用于响应第一配置指令,将相关的业务人员预先提交的数据处理脚本配置为数据处理任务,并配置调度器,使得所述调度器定期执行所述数据处理任务。

4.如权利要求3所述的系统,其特征在于,所述数据处理脚本是业务人员预先基于业务需求编写的sql语句;所述数据处理脚本的数量为多条。

5.如权利要求2所述的系统,其特征在于,每一所述特征数据表是行模式的数据表;每一所...

【专利技术属性】
技术研发人员:汪训
申请(专利权)人:上海数禾信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1