【技术实现步骤摘要】
一种数据驱动的自动模型训练及应用系统
[0001]本专利技术涉及机器学习
,更具体地,涉及一种数据驱动的自动模型训练及应用系统。
技术介绍
[0002]以深度学习为代表的机器学习人工智能技术,其算力、算据(标注的数据)和算法是人工智能从概念到落地应用的三大核心要素。
[0003]算力的发展与科技界的硬件水平发展相关,目前各类硬件设备均在快速迭代,逐渐能够满足深度学习训练预测的需要。
[0004]算据方面,在大数据时代下,海量的原始数据为深度学习提供了批量的未标注处理数据,但却因标注能力的限制,难以对原始数据进行快速有效利用,现有垂直领域的标注数据规模和质量均无法满足高质量智能模型的生成,逐渐成为智能系统研制的瓶颈问题。如何依据少量已标注样本,形成自动标注模型,如何利用自动标注数据再次迭代训练模型,支持军事样本匮乏下的智能参谋业务模型生成,均是难点问题。
[0005]算法方面,各类智能算法开发门槛高,难以为普通的应用系统开发人员使用。首先,算法框架的选择大大依赖于开发人员经验,现有的智能框架(Sp ...
【技术保护点】
【技术特征摘要】
1.一种数据驱动的自动模型训练及应用系统,其特征在于,包括数据增强层、模型自动学习训练层、模型蒸馏层和服务发布层;所述数据增强层,用于接入标注数据,并对所述标注数据进行数据增强,获得增强后的标注数据;所述模型自动学习训练层,用于对增强后的标注数据进行模型的训练,通过模型内部进行参数搜索后获得训练后的模型;所述模型蒸馏层,用于将训练后的模型进行压缩蒸馏,获得压缩蒸馏后的模型;所述服务发布层,用于将训练后的模型和/或压缩蒸馏后的模型封装成智能服务,并对已发布上线的模型服务进行管理。2.根据权利要求1所述的一种数据驱动的自动模型训练及应用系统,其特征在于,所述数据增强层中所述标注数据包括不同种类的异构数据:文本数据、图像数据以及格式化数据;文本数据增强包括配置针对标注文本的数据增强策略,基于数据增强策略进行变形转换,自动生成标注语料;图像数据增强包括图像空间变换和图像像素变换,自动生成图像标注数据;格式化数据增强包括对不同维度数据进行随机替换和词典替换,自动生成标注数据。3.根据权利要求2所述的一种数据驱动的自动模型训练及应用系统,其特征在于,所述对标注文本的数据增强策略包括文本的实体替换、同义词替换和回译,所述文本的实体替换包括通过实体识别文本中的军事实体,通过知识图谱找到相似的词语进行替换;同义词替换包括将文本中的同义词根据同义词表进行替换;回译包括通过翻译引擎将中文译为英文,再从英文译为中文;所述图像空间变换包括图像的旋转、翻转和裁剪,图像像素变换包括噪声和锐化。4.根据权利要求3所述的一种数据驱动的自动模型训练及应用系统,其特征在于,所述模型自动学习训练层,通过历史的模型训练效果信息以及算法研发人员经验知识进行结合,形成业务场景、模型训练算法以及模型训练算法实现所使用的框架之间的映射网络,所述映射网络能够将业务场景与模型训练算法关联起来,针对不同的业务场景,找到不同的模型训练算法候选集,其中相同的模型训练算法包括不同的框架进行实现;在用户选择任务需求以及标注数据时,自动根据映射网络选择匹配的模型训练算法和实现框架,所述匹配的模型训练算法包括两个以上的深度学习模型,一个深度学习模型对应一个实现框架;通过匹配的模型训练算法进行自动的模型网络参数选择以及调优,获得训练后的模型。5.根据权利要求4所述的一种数据驱动的自动模型训练及应用系统,其特征在于,所述通过匹配的模型训练算法进行自动的模型网络参数选择以及调优,获得训练后的模型包括:将增强后的标注数据以及所述两个以上的深度学习模型的超参数和网络结构参数输入至模型自动学习训练层,通过NAS算法生成待搜索网络结构的候选集合,即搜索空间;基于搜索策略在搜索空间中进行模型网络参...
【专利技术属性】
技术研发人员:王羽,葛唯益,王菁,荀智德,刘亚军,陆辰,
申请(专利权)人:中国电子科技集团公司第二十八研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。