【技术实现步骤摘要】
一种基于数据分类的模型迁移方法及系统
[0001]本专利技术涉及大数据处理
,尤其涉及一种基于数据分类的模型迁移方法及系统。
技术介绍
[0002]目前各个主体都存在自己独有的模型建设方法、模型建设习惯以及差异化的数据内容和数据格式,但是在模型建设完成投入使用时,缺乏比较标准化的模型存储方法和模型解释文件,而建模工作又是相对存在较高技术门槛的工作。这就导致,在模型移植和模型复用过程中在数据预处理和模型应用等方面都存在一定的困难,从而带来模型移植过程中的高成本以及模型重复开发等问题。并且,模型共享过程中,将原始数据整合、处理为符合模型要求的输入数据需经过数据映射、数据整合、数据清洗、数据预处理以及特征工程等一系列操作,工作繁杂耗时长。
[0003]现有技术的模型共享方式,主要采取建模后模型导出,然后在应用场景,由模型部署人员先对模型进行理解,然后对应用场景数据按各模型的要求进行数据准备,然后代入模型进行计算的方式。在每次进行模型共享时都需针对各应用场景情况编写代码进行数据映射、数据预处理、特征工程等加工后,再应用 ...
【技术保护点】
【技术特征摘要】
1.一种基于数据分类的模型迁移方法,其特征在于,包括:S1、设定数据分类和用于区分不同数据分类的第一验证信息以及对应不同数据分类的处理模板;S2、获取模型数据,提取各项模型数据中的特征信息;S3、匹配特征信息与第一验证信息,根据匹配结果将模型数据标记为对应的数据分类;S4、依据数据分类将模型数据分组形成待处理数据集合;S5、使用对应的处理模板更新待处理数据集合,获得可迁移数据集合;S6、组合各项可迁移数据集合,形成可迁移模型数据;S7、导出需要迁移的模型,提取模型解析文档;S8、依据第一验证信息和处理模板更新模型解析文档;S9、将可迁移模型数据和更新了模型解析文档的模型组合进行迁移。2.如权利要求1所述的方法,其特征在于,所述数据分类包括共享数据、共性数据和个性数据;所述共享数据包括公开渠道可直接获取并直接使用的模型数据;所述共性数据包括不可在公开渠道直接获取,但获取后可以直接使用的模型数据;所述个性数据包括不可直接使用,必须进行数据处理的模型数据。3.如权利要求2所述的方法,其特征在于,所述第一验证信息包括数据来源、数据量级、数据使用权限和数据保存格式。4.如权利要求3所述的方法,其特征在于,所述处理模板包括:共享数据处理模板,包括共享数据特征和共享数据导入路径;共性数据处理模板,包括共性数据特征和共性数据接口;个性数据处理模板,包括个性数据特征、个性数据采集接口、个性数据导入接口和个性数据映射转化模板。5.如权利要求3所述的方法,其特征在于,所述步骤S3包括分步骤:S31、匹配特征信息与第一验证信息,验证模型数据是否属于共享数据,将验证通过的模型数据标记为共享数据;S32、当验证模型数据不属于共享数据时,匹配特征信息与第一验证信息,验证模型数据是否属于共性数据,将验证通过的模型数据标记为共性数据;S33、当验证模型数据不属于共性数据时,将模型数据标记为个性数据。6.如权利要...
【专利技术属性】
技术研发人员:韦东杰,贾国琛,熊衍琴,胡茜,
申请(专利权)人:中国建设银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。