训练样本获取方法、相关装置及存储介质制造方法及图纸

技术编号:37719132 阅读:16 留言:0更新日期:2023-06-02 00:17
本申请涉及数据处理领域,提供一种训练样本获取方法、相关装置及存储介质。该方法包括:获取初始样本集;确定每个所述初始样本的样本类型;按照预设条件,从所述初始样本集中获取第一初始样本和第二初始样本;将所述第一初始样本和所述第二初始样本融合,得到第一融合样本;基于所述第一融合样本,以及所述第一初始样本和所述第二初始样本各自在所述初始样本集中的临近样本,得到目标训练样本。本申请得到的目标训练样本能够消除敏感特征,以及消除目标训练样本与临近样本之间敏感特征的关联,在训练预测模型时,有利于预测模型捕捉目标特征,降低训练样本的敏感特征及与临近样本之间敏感特征的关联对其预测结果造成的影响,进而提高预测准确度。提高预测准确度。提高预测准确度。

【技术实现步骤摘要】
训练样本获取方法、相关装置及存储介质


[0001]本申请实施例涉及数据处理领域,更具体地涉及训练样本获取方法、相关装置及存储介质。

技术介绍

[0002]在机器学习领域中,我们通常希望,机器学习模型在面对不同用户群体和个体都更加公平。比如,当两个不同的群体除了“群体”本身以外不存在差别时,机器学习模型应该对他们输出相似的结果,否则,该机器学习模型就存在“群体”偏差。
[0003]机器学习模型在对样本进行预测之前,都需要基于训练样本进行预先训练。对于训练样本而言,每个训练样本具有较多的样本特征,其中包括目标特征和敏感特征,目标特征是训练中希望机器学习模型学习到的特征,并基于目标特征对样本做出预测,而敏感特征则是训练中机器学习模型容易学习,但是却与训练目标的真实标签无关的特征,正是这些敏感特征容易造成机器学习模型对样本进行预测时出现“群体”偏差。
[0004]另外,机器学习模型在进行训练学习时,还会根据临近样本之间的结果来推测待学习样本的预测结果。虽然临近样本之间会具有一些共同特征,但是这些共同特征可能并非是决定预测结果的目标特征,因此临近样本之间的关联也会导致机器学习模型存在“群体”偏差。

技术实现思路

[0005]本申请实施例提供一种训练样本获取方法、相关装置及存储介质,可以根据预设条件获取第一初始样本和第二初始样本,并融合得到第一融合样本,并基于第一初始样本和第二初始样本的临近样本进行融合得到第二融合样本,其中第一融合样本能够消除敏感特征,使信用评价模型易于捕捉目标特征;而第二融合样本可以消除第一初始样本和第二初始样本的临近样本的敏感特征,第一初始样本和第二初始样本的临近样本之间敏感特征之间的关联也随之消除,那么当第一融合样本和第二融合样本融合时,得到的目标训练样本,不仅消除了敏感特征,而且也消除了第一初始样本和第二初始样本与临近样本之间的敏感特征之间的关联,从而利用得到的目标训练样本训练信用评价模型时,能够使其易于捕捉目标特征,降低敏感特征及临近样本之间的敏感特征之间的关联对其预测结果造成的影响,进而有利于提高预测准确度。
[0006]第一方面,本申请实施例提供一种训练样本获取方法,包括:
[0007]获取初始样本集,所述初始样本集包括多个初始样本,每个所述初始样本均包括样本标签和至少一个样本特征;
[0008]确定每个所述初始样本的样本类型,所述样本类型为偏见冲突样本或偏置对准样本;
[0009]按照预设条件,从所述初始样本集中获取第一初始样本和第二初始样本;
[0010]将所述第一初始样本和所述第二初始样本融合,得到第一融合样本;
[0011]基于所述第一融合样本,以及所述第一初始样本和所述第二初始样本各自在所述初始样本集中的临近样本,得到目标训练样本。
[0012]第二方面,本申请实施例提供一种训练样本获取装置,包括:
[0013]输入输出模块,用于获取初始样本集,所述初始样本集包括多个初始样本,每个所述初始样本均包括样本标签和至少一个样本特征;
[0014]处理模块,用于确定每个所述初始样本的样本类型,所述样本类型为偏见冲突样本或偏置对准样本;
[0015]按照预设条件,从所述初始样本集中获取第一初始样本和第二初始样本;
[0016]将所述第一初始样本和所述第二初始样本融合,得到第一融合样本;
[0017]基于所述第一融合样本,以及所述第一初始样本和所述第二初始样本各自在所述初始样本集中的临近样本,得到目标训练样本。
[0018]第三方面,本申请实施例提供一种训练样本获取系统,所述训练样本获取系统包括:
[0019]存储器,所述存储器用于接收初始样本集,所述初始样本集包括多个初始样本,每个所述初始样本均包括样本标签和至少一个样本特征;
[0020]处理器,所述处理器被配置为:
[0021]确定每个所述初始样本的样本类型,所述样本类型为偏见冲突样本或偏置对准样本;
[0022]按照预设条件,从所述初始样本集中获取第一初始样本和第二初始样本;
[0023]将所述第一初始样本和所述第二初始样本融合,得到第一融合样本;
[0024]基于所述第一融合样本,以及所述第一初始样本和所述第二初始样本各自在所述初始样本集中的临近样本,得到目标训练样本。
[0025]第四方面,本申请实施例提供一种处理设备,所述处理设备包括:
[0026]至少一个处理器、存储器和输入输出单元;
[0027]其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行第一方面中所述的方法。
[0028]第五方面,本申请实施例提供一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行第一方面中所述的方法。
[0029]相较于现有技术,在本申请实施例中,首先确定每个所述初始样本的样本类型(偏见冲突样本或偏置对准样本),然后按照预设条件选择样本标签相同的偏见冲突样本进行融合,得到的第一融合样本可以消除敏感特征,或者选择样本标签不同的偏置对准样本进行融合,得到的第一融合样本更利于预测模型捕捉目标特征;另外,再基于第一融合样本,以及第一融合样本所对应的两个初始样本的临近样本,进行融合得到目标训练样本,以消除临近样本之间的关联,因此得到的目标训练样本,能够消除敏感特征,而且在训练预测模型时,还便于预测模型捕捉目标特征,以及消除临近样本之间的关联对预测模型造成的偏差。
附图说明
[0030]通过参考附图阅读本申请实施例的详细描述,本申请实施例的目的、特征和优点
将变得易于理解。其中:
[0031]图1为本申请实施例提供的一种训练样本获取方法的使用场景图;
[0032]图2为本申请实施例提供的一种训练样本获取方法的步骤图;
[0033]图3为本申请实施例提供的一种样本之间的图神经网络的结构图;
[0034]图4为本申请实施例提供的一种训练样本获取装置的结构示意图;
[0035]图5为本申请实施例的一种处理设备的结构示意图;
[0036]图6为本申请实施例提供的一种终端设备相关的手机的部分结构示意图;
[0037]图7为本申请实施例提供的一种服务器的结构示意图。
[0038]在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
[0039]本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象(例如第一初始样本和第二初始样本分别表示为不同的初始样本,其他类似),而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练样本获取方法,包括:获取初始样本集,所述初始样本集包括多个初始样本,每个所述初始样本均包括样本标签和至少一个样本特征;确定每个所述初始样本的样本类型,所述样本类型为偏见冲突样本或偏置对准样本;按照预设条件,从所述初始样本集中获取第一初始样本和第二初始样本;将所述第一初始样本和所述第二初始样本融合,得到第一融合样本;基于所述第一融合样本,以及所述第一初始样本和所述第二初始样本各自在所述初始样本集中的临近样本,得到目标训练样本。2.如权利要求1所述的训练样本获取方法,其中,所述初始样本的样本类型基于该初始样本的样本标签和预测结果确定;所述预测结果由预设预测模型获取;若所述初始样本的预测结果与其样本标签相同,则该初始样本的样本类型为偏置对准样本;若所述初始样本的预测结果与其样本标签不同,则该初始样本的样本类型为偏见冲突样本。3.如权利要求1或2所述的训练样本获取方法,所述预设条件满足:两个样本的样本标签相同且样本类型不同;或者两个样本的样本标签不同且样本类型相同。4.如权利要求1所述的训练样本获取方法,所述将所述第一初始样本和所述第二初始样本融合得到第一融合样本,包括:分别获取所述第一初始样本和所述第二初始样本各自的样本权重;基于所述第一初始样本和所述第二初始样本各自的样本权重,分别对所述第一初始样本和所述第二初始样本的样本标签和样本特征进行加权;将所述第一初始样本加权后的样本标签和所述第二初始样本加权后的样本标签融合,作为所述第一融合样本的样本标签;将所述第一初始样本加权后的各个样本特征和所述第二初始样本加权后的各个样本特征分别融合,作为所述第一融合样本的各个样本特征;其中,相同类型的样本特征对应融合。5.如权利要求1所述的训练样本获取方法,所述基于所述第一融合样本,以及所述第一初始样本和所述第二初始样本各自在所述初始样本集中的临近样本得到目标训练样本,包括:将所述第一初始样本的各个临近样本,与所述第二初始样本的各个临近样本融合,得到第二融合样本;将所述第一融合样本和所述第二融合样本融合,得到目标训练样本。6.如权利要求1所述的训练样本获取方法,所述将所述第一初始样本的各个临近样本,与所述第二初始样本的各个临近样本融合,得到第二融合样本,包括:从所述第一初始样本的各个临近样本...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:北京瑞莱智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1