【技术实现步骤摘要】
训练样本获取方法、相关装置及存储介质
[0001]本申请实施例涉及数据处理领域,更具体地涉及训练样本获取方法、相关装置及存储介质。
技术介绍
[0002]在机器学习领域中,我们通常希望,机器学习模型在面对不同用户群体和个体都更加公平。比如,当两个不同的群体除了“群体”本身以外不存在差别时,机器学习模型应该对他们输出相似的结果,否则,该机器学习模型就存在“群体”偏差。
[0003]机器学习模型在对样本进行预测之前,都需要基于训练样本进行预先训练。对于训练样本而言,每个训练样本具有较多的样本特征,其中包括目标特征和敏感特征,目标特征是训练中希望机器学习模型学习到的特征,并基于目标特征对样本做出预测,而敏感特征则是训练中机器学习模型容易学习,但是却与训练目标的真实标签无关的特征,正是这些敏感特征容易造成机器学习模型对样本进行预测时出现“群体”偏差。
[0004]另外,机器学习模型在进行训练学习时,还会根据临近样本之间的结果来推测待学习样本的预测结果。虽然临近样本之间会具有一些共同特征,但是这些共同特征可能并非是决定 ...
【技术保护点】
【技术特征摘要】
1.一种训练样本获取方法,包括:获取初始样本集,所述初始样本集包括多个初始样本,每个所述初始样本均包括样本标签和至少一个样本特征;确定每个所述初始样本的样本类型,所述样本类型为偏见冲突样本或偏置对准样本;按照预设条件,从所述初始样本集中获取第一初始样本和第二初始样本;将所述第一初始样本和所述第二初始样本融合,得到第一融合样本;基于所述第一融合样本,以及所述第一初始样本和所述第二初始样本各自在所述初始样本集中的临近样本,得到目标训练样本。2.如权利要求1所述的训练样本获取方法,其中,所述初始样本的样本类型基于该初始样本的样本标签和预测结果确定;所述预测结果由预设预测模型获取;若所述初始样本的预测结果与其样本标签相同,则该初始样本的样本类型为偏置对准样本;若所述初始样本的预测结果与其样本标签不同,则该初始样本的样本类型为偏见冲突样本。3.如权利要求1或2所述的训练样本获取方法,所述预设条件满足:两个样本的样本标签相同且样本类型不同;或者两个样本的样本标签不同且样本类型相同。4.如权利要求1所述的训练样本获取方法,所述将所述第一初始样本和所述第二初始样本融合得到第一融合样本,包括:分别获取所述第一初始样本和所述第二初始样本各自的样本权重;基于所述第一初始样本和所述第二初始样本各自的样本权重,分别对所述第一初始样本和所述第二初始样本的样本标签和样本特征进行加权;将所述第一初始样本加权后的样本标签和所述第二初始样本加权后的样本标签融合,作为所述第一融合样本的样本标签;将所述第一初始样本加权后的各个样本特征和所述第二初始样本加权后的各个样本特征分别融合,作为所述第一融合样本的各个样本特征;其中,相同类型的样本特征对应融合。5.如权利要求1所述的训练样本获取方法,所述基于所述第一融合样本,以及所述第一初始样本和所述第二初始样本各自在所述初始样本集中的临近样本得到目标训练样本,包括:将所述第一初始样本的各个临近样本,与所述第二初始样本的各个临近样本融合,得到第二融合样本;将所述第一融合样本和所述第二融合样本融合,得到目标训练样本。6.如权利要求1所述的训练样本获取方法,所述将所述第一初始样本的各个临近样本,与所述第二初始样本的各个临近样本融合,得到第二融合样本,包括:从所述第一初始样本的各个临近样本...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:北京瑞莱智慧科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。