模型构建方法、装置、存储介质及设备制造方法及图纸

技术编号:28035318 阅读:18 留言:0更新日期:2021-04-09 23:17
本发明专利技术提供的模型构建方法、装置、存储介质及处理器,获取线上数据;对所述线上数据进行众包标注,得到标注结果;所述标注结果包括:标注好的训练数据与标注情况信息;获取所述标注结果的标注质量;根据当前任务类型与所述标注结果的标注质量,选择相应的机器学习模型与相应的模型训练参数;利用所述标注好的训练数据,按照所述相应的模型训练参数,对所述相应的机器学习模型进行训练,得到训练好的预测模型。本发明专利技术将线上数据与建模配置过程相结合,实现模型与模型训练参数的自动化配置,充分降低了非专业人员的建模门槛,让整个建模过程变得有数据即可得到模型,提高了模型构建的便利性,同时也降低了建模人员的时间成本。

【技术实现步骤摘要】
模型构建方法、装置、存储介质及设备
本专利技术涉及数据处理领域,更具体的说,涉及模型构建方法、装置、存储介质及设备。
技术介绍
可视化建模(VISUALMODELING)是利用围绕现实想法组织模型的一种思考问题的方法,它提供了一种从不同的视角来观察被开发系统的机制。当前市场已经孵化出了很多的可视化建模工具,但是,目前的建模工具都比较偏demo级别,通常都需要将主要建模工作交付给建模人员,以人工操作的方式来进行建模,建模过程非常繁琐、不便;在模型上线使用后,若线上数据发生变动,则还需要建模人员重新训练模型或对模型进行优化,以适应变化后的线上数据;当建模人员并不是特别专业时,很可能对模型的特征选取、参数设置等模型相关项不了解时,这也会给建模工作带来诸多阻碍与不便。因此,目前迫切需要一种切实有效的模型构建方案,以提高模型构建的便利性。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的模型构建方法、装置、存储介质及处理器。为实现上述目的,本专利技术提供如下技术方案:一种模型构建方法,包括:获取线上数据;对所述线上数据进行众包标注,得到标注结果;所述标注结果包括:标注好的训练数据与标注情况信息;获取所述标注结果的标注质量;根据当前任务类型与所述标注结果的标注质量,选择相应的机器学习模型与相应的模型训练参数;利用所述标注好的训练数据,按照所述相应的模型训练参数,对所述相应的机器学习模型进行训练,得到训练好的预测模型。优选的,所述获取所述标注结果的标注质量包括:根据所述标注结果,获取各个标注人员的个人标注准确率与所有标注人员的整体标注准确率;当有标注人员的个人标注准确率,低于所述整体标注准确率且与所述整体标注准确率的偏差大于预设偏差阈值时,获取个人标注准确率低于第一准确率阈值的部分标注人员的人数;根据所述部分标注人员的人数,确定所述标注结果的标注质量。优选的,在所述获取所述标注结果的标注质量之后,所述方法还包括:根据所述标注结果的标注质量,对标注选取人数与一致回收人数的比例进行调整。优选的,所述根据当前任务类型与所述标注结果的标注质量,选择相应的机器学习模型与相应的模型训练参数包括:根据所述标注结果的标注质量,确定所述线上数据的标注难度;根据当前任务类型与所述线上数据的标注难度,选择相应的机器学习模型与相应的模型训练参数。优选的,在所述利用所述标注好的训练数据,按照所述相应的模型训练参数,对所述相应的机器学习模型进行训练,得到训练好的预测模型之后,所述方法还包括:获取新线上数据;对所述新线上数据进行众包标注,得到新标注结果;利用所述训练好的预测模型对所述新线上数据进行预测,得到预测结果;根据所述新标注结果与所述预测结果,确定所述训练好的预测模型是否符合预期效果。优选的,在确定所述训练好的预测模型符合预期效果之后,所述方法还包括:根据所述新标注结果与所述预测结果,获取所述新上线数据的熵值分布信息;根据所述新上线数据的熵值分布信息,设定预测结果报警条件;对所述预测模型的后续预测结果进行监控;当所述预测模型的后续预测结果满足所述预测结果报警条件时,选取主动学习数据对所述预测模型进行增量训练,得到优化后的预测模型。优选的,所述对所述预测模型的后期预测结果进行监控包括:按照预设时间间隔,获取所述预测模型的后续预测结果;根据所述后续预测结果,获取所述后续预测结果的熵值信息;监控所述后续预测结果的熵值信息,是否达到预设熵值报警条件。一种模型构建装置,包括:众包处理单元,用于获取线上数据;对所述线上数据进行众包标注,得到标注结果;所述标注结果包括:标注好的训练数据与标注情况信息;获取所述标注结果的标注质量;算法处理单元,用于根据当前任务类型与所述标注结果的标注质量,选择相应的机器学习模型与相应的模型训练参数;利用所述标注好的训练数据,按照所述相应的模型训练参数,对所述相应的机器学习模型进行训练,得到训练好的预测模型。一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如前面所述的模型构建方法。一种模型构建设备,包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行上述模型构建方法。借由上述技术方案,本专利技术提供的模型构建方法、装置、存储介质及处理器,在对线上数据进行众包标注后,获取标注结果的标注质量,并根据当前任务类型与所述标注结果的标注质量,选择相应的机器学习模型与相应的模型训练参数,从而将线上数据与建模配置过程相结合,实现模型与模型训练参数的自动化配置,充分降低了非专业人员的建模门槛,让整个建模过程变得有数据即可得到模型,提高了模型构建的便利性,也降低了建模人员的时间成本。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本申请实施例提供的模型构建方法的流程图;图2为本申请实施例提供的标注质量获取方案的流程图;图3为本申请实施例提供的模型效果测试方案的流程图;图4为本申请实施例提供的模型监控优化方案的流程图;图5为本申请实施例提供的模型构建装置的一种结构示意图;图6为本申请实施例提供的模型构建装置的另一种结构示意图;图7为本申请实施例提供的知识平台的业务处理流程图;图8为本申请实施例提供的众包处理单元的业务处理流程图;图9为本申请实施例提供的算法处理单元的业务处理流程图;图10为本申请实施例提供的监控优化单元的业务处理流程图;图11为本申请实施例提供的设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。请参阅图1,图1为本申请实施例提供的模型构建方法的流程图。如图1所示,本实施例的模型构建方法可包括:S101:获取线上数据。S102:对所述线上数据进行众包标注,得到标注结果。其中,所述标注结果至少包括:标注好的训练数据本文档来自技高网...

【技术保护点】
1.一种模型构建方法,其特征在于,包括:/n获取线上数据;/n对所述线上数据进行众包标注,得到标注结果;所述标注结果包括:标注好的训练数据与标注情况信息;/n获取所述标注结果的标注质量;/n根据当前任务类型与所述标注结果的标注质量,选择相应的机器学习模型与相应的模型训练参数;/n利用所述标注好的训练数据,按照所述相应的模型训练参数,对所述相应的机器学习模型进行训练,得到训练好的预测模型。/n

【技术特征摘要】
1.一种模型构建方法,其特征在于,包括:
获取线上数据;
对所述线上数据进行众包标注,得到标注结果;所述标注结果包括:标注好的训练数据与标注情况信息;
获取所述标注结果的标注质量;
根据当前任务类型与所述标注结果的标注质量,选择相应的机器学习模型与相应的模型训练参数;
利用所述标注好的训练数据,按照所述相应的模型训练参数,对所述相应的机器学习模型进行训练,得到训练好的预测模型。


2.如权利要求1所述的方法,其特征在于,所述获取所述标注结果的标注质量包括:
根据所述标注结果,获取各个标注人员的个人标注准确率与所有标注人员的整体标注准确率;
当有标注人员的个人标注准确率,低于所述整体标注准确率且与所述整体标注准确率的偏差大于预设偏差阈值时,获取个人标注准确率低于第一准确率阈值的部分标注人员的人数;
根据所述部分标注人员的人数,确定所述标注结果的标注质量。


3.如权利要求1或2所述的方法,其特征在于,在所述获取所述标注结果的标注质量之后,所述方法还包括:
根据所述标注结果的标注质量,对标注选取人数与一致回收人数的比例进行调整。


4.如权利要求1或2所述的方法,其特征在于,所述根据当前任务类型与所述标注结果的标注质量,选择相应的机器学习模型与相应的模型训练参数包括:
根据所述标注结果的标注质量,确定所述线上数据的标注难度;
根据当前任务类型与所述线上数据的标注难度,选择相应的机器学习模型与相应的模型训练参数。


5.如权利要求1所述的方法,其特征在于,在所述利用所述标注好的训练数据,按照所述相应的模型训练参数,对所述相应的机器学习模型进行训练,得到训练好的预测模型之后,所述方法还包括:
获取新线上数据;
对所述新线上数据进行众包标注,得到新标注结果;
利用所述训练好的预测模型对所述新线上数据进行预测,得到预测...

【专利技术属性】
技术研发人员:韩旭红
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1