基于交叉验证的标签补全方法、终端、装置及存储介质制造方法及图纸

技术编号:22308913 阅读:33 留言:0更新日期:2019-10-16 08:59
本发明专利技术公开了一种基于交叉验证的标签补全方法,包括以下步骤:第一终端基于第一样本、所述第一样本对应的第一标签以及第二样本生成所述第二样本对应的待校对标签,而后所述第一终端基于所述第二样本、所述待校对标签以及交叉验证算法确定所述第二样本对应的目标标签。本发明专利技术还公开了一种装置、终端及存储介质。本发明专利技术解决了标签对本地判别模型的偏执,提升了机器模型的性能和标签补全的准确性,同时保证了各终端数据的安全性。

Label completion method, terminal, device and storage medium based on cross validation

【技术实现步骤摘要】
基于交叉验证的标签补全方法、终端、装置及存储介质
本专利技术涉及机器学习
,尤其涉及一种基于交叉验证的标签补全方法、终端、装置及存储介质。
技术介绍
基于监督学习的机器学习算法需要充足的有标签的样本来训练模型,才能达到理想的效果。在现实的应用场景中,部分(甚至大部分)训练样本的标签是缺失的,没有标签的样本将不能用于模型训练,我们通常只能放弃这些样本,这样在造成样本数据浪费的同时,也造成了用来训练机器学习模型的样本数据的不充足,从而降低了训练模型的泛化能力。目前,现有的技术方案是收集更多的有标签样本或对无标签样本进行标注。然而,人工的有标签样本的收集或样本标注往往需要专业的技术人员来完成,成本高昂。自动标注样本是降低标签成本的一个有效方法。现有的自动样本标注技术是利用迁移学习从拥有大量标签样本的数据集上训练一个判别模型,然后,用该判别模型来确定无标签样本的标签。该种方法的缺点有:从时间成本和人力成本上看,收集大量标签样本的数据集是昂贵的;现成的成本低的标签样本,能够用于迁移学习的大数据集通常只存在于专业度低的领域,比如动物的识别,在专业度高的领域,比如医疗、金融、异常检验等。在专业度高的领域,优质的样本数据往往分散于不同的企业机构中。可以通过分布式计算的方式利用各个企业机构拥有的数据或模型来进行标签补全。然而,企业机构通常将自己拥有的数据和模型视为商业秘密,这使得非加密的分布式计算方案在现实中是不可行的。上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
本专利技术的主要目的在于提供一种基于交叉验证的标签补全方法、系统、装置及存储介质,旨在解决现有标签补全中通过本地判别模型补上的标签对本地判别模型有较强的偏执和标签不准确的技术问题。为实现上述目的,本专利技术提供一种基于交叉验证的标签补全方法,所述的基于交叉验证的标签补全方法包括以下步骤:第一终端基于第一样本、所述第一样本对应的第一标签以及第二样本生成所述第二样本对应的待校对标签;所述第一终端基于所述第二样本、所述待校对标签以及交叉验证算法确定所述第二样本对应的目标标签。进一步地,在一实施方式中,所述第一终端基于第一样本、所述第一样本对应的第一标签以及第二样本生成所述第二样本对应的待校对标签的步骤包括:基于所述第一样本以及所述第一标签训练得到第一预测模型;基于所述第一预测模型以及所述第二样本生成所述待校对标签。进一步地,在一实施方式中,所述第一终端基于所述第二样本、所述待校对标签以及交叉验证算法确定所述第二样本对应的目标标签的步骤包括:基于所述第一样本、所述第一样本对应的第一标签、所述第二样本以及所述第二样本对应的待校对标签训练得到第二预测模型;基于预设加密算法对所述第二预测模型进行加密,并分别发送加密后的第二预测模型至通信系统中的第二终端;在接收到所述第二终端对应的加密预测模型时,基于所述第二样本以及所述加密预测模型生成预设数量的加密预测标签;基于所述加密预测标签确定所述第二样本对应的目标标签。进一步地,在一实施方式中,所述基于所述加密预测标签确定所述第二样本对应的目标标签的步骤包括:对所述加密预测标签进行随机混淆,并将随机混淆后的加密预测标签分别发送至与所述加密预测标签对应的终端进行解密,以得到解密后的预测标签;在接收到预设数量的解密后的预测标签时,基于各个解密后的预测标签确定所述第二样本对应的目标标签。进一步地,在一实施方式中,所述在接收到预设数量的解密后的预测标签时,基于各个解密后的预测标签确定所述第二样本对应的目标标签的步骤包括:累计所述解密后的预测标签中标签值等于第一预设值的第一数量,以及标签值等于第二预设值的第二数量;基于所述第一数量及所述第二数量确定所述第二样本对应的目标标签。进一步地,在一实施方式中,所述基于交叉验证的标签补全装置包括:预测模块,第一终端基于第一样本、所述第一样本对应的第一标签以及第二样本生成所述第二样本对应的待校对标签;处理模块,所述第一终端基于所述第二样本、所述待校对标签以及交叉验证算法确定所述第二样本对应的目标标签。此外,为实现上述目的,本专利技术还提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于交叉验证的标签补全程序,所述基于交叉验证的标签补全程序被所述处理器执行时实现上述任一项所述的基于交叉验证的标签补全方法的步骤。此外,为实现上述目的,本专利技术还提供一种存储介质,所述存储介质上存储有基于交叉验证的标签补全程序,所述基于交叉验证的标签补全程序被处理器执行时实现上述任一项所述的基于交叉验证的标签补全方法的步骤。本专利技术通过第一终端基于第一样本、所述第一样本对应的第一标签以及第二样本生成所述第二样本对应的待校对标签,而后所述第一终端基于所述第二样本、所述待校对标签以及交叉验证算法确定所述第二样本对应的目标标签,进而解决了标签对本地判别模型的偏执,提升了机器模型的性能和标签补全的准确性,同时保证了各终端数据的安全性。附图说明图1是本专利技术实施例方案涉及的硬件运行环境中终端的结构示意图;图2为本专利技术基于交叉验证的标签补全方法第一实施例的流程示意图;图3为本专利技术一实施例中标签补全流程示意图;图4为本专利技术基于交叉验证的标签补全方法第二实施例的流程示意图;图5为本专利技术一实施例中终端之间的加密模型迁移的示意图;图6为本专利技术一实施例中生成加密预测标签的示意图;图7为本专利技术一实施例中终端t通过其它终端对样本的加密预测标签进行解密的示意图;图8为本专利技术基于交叉验证的标签补全装置实施例的功能模块示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,图1是本专利技术实施例方案涉及的硬件运行环境中终端的结构示意图。如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,客户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。客户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选客户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。可选地,终端还可以包括摄像头、RF(RadioFrequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器等,在此不再赘述。本领域技术人员可以理解,图1中示出的系统结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、客户接口模块以及基于交叉验证的标签补全程序。在图1所示的系统中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;客户接口1003主要用于连接客户端(客户端),与客户端进行本文档来自技高网...

【技术保护点】
1.一种基于交叉验证的标签补全方法,其特征在于,应用于通信系统,所述通信系统包括多个终端,所述的基于交叉验证的标签补全方法包括以下步骤:第一终端基于第一样本、所述第一样本对应的第一标签以及第二样本生成所述第二样本对应的待校对标签;所述第一终端基于所述第二样本、所述待校对标签以及交叉验证算法确定所述第二样本对应的目标标签。

【技术特征摘要】
1.一种基于交叉验证的标签补全方法,其特征在于,应用于通信系统,所述通信系统包括多个终端,所述的基于交叉验证的标签补全方法包括以下步骤:第一终端基于第一样本、所述第一样本对应的第一标签以及第二样本生成所述第二样本对应的待校对标签;所述第一终端基于所述第二样本、所述待校对标签以及交叉验证算法确定所述第二样本对应的目标标签。2.如权利要求1所述的基于交叉验证的标签补全方法,其特征在于,所述第一终端基于第一样本、所述第一样本对应的第一标签以及第二样本生成所述第二样本对应的待校对标签的步骤包括:基于所述第一样本以及所述第一标签训练得到第一预测模型;基于所述第一预测模型以及所述第二样本生成所述待校对标签。3.如权利要求1所述的基于交叉验证的标签补全方法,其特征在于,所述第一终端基于所述第二样本、所述待校对标签以及交叉验证算法确定所述第二样本对应的目标标签的步骤包括:基于所述第一样本、所述第一样本对应的第一标签、所述第二样本以及所述第二样本对应的待校对标签训练得到第二预测模型;基于预设加密算法对所述第二预测模型进行加密,并分别发送加密后的第二预测模型至通信系统中的第二终端;在接收到所述第二终端对应的加密预测模型时,基于所述第二样本以及所述加密预测模型生成预设数量的加密预测标签;基于所述加密预测标签确定所述第二样本对应的目标标签。4.如权利要求3所述的基于交叉验证的标签补全方法,其特征在于,所述基于所述加密预测标签确定所述第二样本对应的目标标签的步骤包括:对所述加密预测标签进行随机混淆,并将随机混淆后的加密预测标签分别发送至与所述加密预测标签对应的终端进行解密,以得到解密后的预测标签;在接收到预设数量的解密后的预测标签时,基于各个解密后的预测标签确定所述第二样本对应的目标标签。5.如权利要求4所述的基于交叉验证的标签补全方法,其特征在于,所述在接收到预设数量的解密后的预测标签时,基于各个解密后的预测标签确定所述第二样本对应的目标标签的步骤包括:累计所述解密后的预测标签中标签值等于第一预设值的第一数量,以及标签值等于第二预设值的第二数量;基于所述第一数量及所述第二数量确定所述第二样本对应的目标标签。6.一种基于交叉验证的标签补全装置,其特征在于,所述基于交叉验证的标...

【专利技术属性】
技术研发人员:康焱刘洋陈天健杨强
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1