【技术实现步骤摘要】
本申请涉及数据处理,特别是涉及一种离线特征管理方法、系统、计算机设备和存储介质。
技术介绍
1、随着大模型技术的飞速发展,现代大模型对离线特征的需求呈现出日益增长的趋势。与以往相比,现代大模型的离线特征输入量和底层业务数据量更加庞大且复杂。
2、目前用于生产大模型的离线特征的方案主要是,从业务数据库中将相关的业务数据同步到hive,然后在hive中进行数据清洗和加工等操作,最后将处理后的数据存储到hbase中作为离线特征存储库。hive是一种数据仓库工具,能将结构化的数据文件映射为一张数据库表,并提供sql(structured query language,结构化查询语言)查询功能,能将sql语句转变成mapreduce(一种编程模型)任务来执行。
3、随着离线特征输入量和底层业务数据量更加庞大且复杂,上述方案越来越难满足实际需求。例如:上述方案中的hive和hbase(一种分布式的、面向列的开源数据库)等组件都需要集群部署,因而成本较高;上述方案涉及多个组件和技术的集成和配置,需要较高的技术水平和维护成本,这
...【技术保护点】
1.一种离线特征管理系统,其特征在于,所述系统包括数据管理平台和分布式关系型数据库;所述数据管理平台包括数据采集模块、数据处理模块、数据传输模块;
2.如权利要求1所述的系统,其特征在于,所述数据管理平台是基于Dataphin构建的系统;所述分布式关系型数据库是基于TiDB构建的数据库。
3.如权利要求2所述的系统,其特征在于,所述数据处理模块,还用于响应第一配置指令,将相关的业务人员预先提交的数据处理脚本配置为数据处理任务,并配置调度器,使得所述调度器定期执行所述数据处理任务。
4.如权利要求3所述的系统,其特征在于,所述数据处理
...【技术特征摘要】
1.一种离线特征管理系统,其特征在于,所述系统包括数据管理平台和分布式关系型数据库;所述数据管理平台包括数据采集模块、数据处理模块、数据传输模块;
2.如权利要求1所述的系统,其特征在于,所述数据管理平台是基于dataphin构建的系统;所述分布式关系型数据库是基于tidb构建的数据库。
3.如权利要求2所述的系统,其特征在于,所述数据处理模块,还用于响应第一配置指令,将相关的业务人员预先提交的数据处理脚本配置为数据处理任务,并配置调度器,使得所述调度器定期执行所述数据处理任务。
4.如权利要求3所述的系统,其特征在于,所述数据处理脚本是业务人员预先基于业务需求编写的sql语句;所述数据处理脚本的数量为多条。
5.如权利要求2所述的系统,其特征在于,每一所述特征数据表是行模式的数据表;每一所...
【专利技术属性】
技术研发人员:汪训,
申请(专利权)人:上海数禾信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。