【技术实现步骤摘要】
一种数据分类方法、装置、电子设备及存储介质
本专利技术涉及计算机
,特别是涉及一种数据分类方法、装置、电子设备及存储介质。
技术介绍
随着计算机技术的快速发展,使用分类模型来对数据进行分类被越来越广泛地使用,其中,分类模型通常由已知样本训练得到。在模型训练过程中,经常会遇到以下情况:用于训练模型的样本中只标注出正样本,而未标注出其他样本的正负。例如,在金融领域中,经常会碰到只知道哪些用户是已经违约的,但是对于剩下的用户不清楚还有谁是可能违约的用户。针对以上情况,现有技术通常使用正样本和无标注样本学习(PositiveUnlabeledlearning,简称PU-learning)方法来训练分类模型。使用PU-learning训练模型的过程为:根据正样本集P与未标注样本集M构造贝叶斯分类模型,得到贝叶斯分类器,使用贝叶斯分类器对对未标注样本集M中的每个样本进行分析得到可靠负样本集,根据正样本集、可靠负样本集来确定分类模型。使用现有的PU-learning方法在确定分类模型时,由于是先构造贝叶斯分类模型,得到贝叶斯分类器,用贝叶斯分类器来确定可靠负样本集的,贝叶 ...
【技术保护点】
1.一种数据分类方法,其特征在于,所述方法包括:获取待分类数据的信息;将获取的所述待分类数据的信息,输入分类模型中,得到各个所述待分类数据为第一类数据的概率,其中,所述第一类数据为:与正样本对应的数据;根据得到的概率,对各所述待分类数据分类;其中,所述分类模型是按以下步骤训练得到的:S210:获取正样本集P、未标注样本集M,从正样本集P中获取部分样本,得到第一正样本子集S,将所述S与未标注样本集M相加得到混合样本集M+S,将所述P中减去所述S得到第二正样本子集P‑S,并将所述M+S中的各个样本标注负的样本标识,将所述P‑S中的各个样本标注正的样本标识;S220:根据所述M+ ...
【技术特征摘要】
1.一种数据分类方法,其特征在于,所述方法包括:获取待分类数据的信息;将获取的所述待分类数据的信息,输入分类模型中,得到各个所述待分类数据为第一类数据的概率,其中,所述第一类数据为:与正样本对应的数据;根据得到的概率,对各所述待分类数据分类;其中,所述分类模型是按以下步骤训练得到的:S210:获取正样本集P、未标注样本集M,从正样本集P中获取部分样本,得到第一正样本子集S,将所述S与未标注样本集M相加得到混合样本集M+S,将所述P中减去所述S得到第二正样本子集P-S,并将所述M+S中的各个样本标注负的样本标识,将所述P-S中的各个样本标注正的样本标识;S220:根据所述M+S中各个样本的样本标识、所述M+S中各个样本的信息、所述P-S中各个样本的样本标识、所述P-S中各个样本的信息,训练第一预设模型,得到第一模型;S230:用所述第一模型预测所述M+S中各个样本为正样本的概率,并根据所述M+S中各个样本为正样本的概率,为所述M+S中各个样本重新标注样本标识;S240:根据所述M+S中各个样本重新标注的样本标识、所述M+S中被重新标注样本标识的样本的信息、所述P-S中各个样本的样本标识、所述P-S中各个样本的信息,重新训练所述第一预设模型,得到第二模型;S250:判断得到的所述第二模型相对于所述第一模型是否有提升;S260:如果没有提升,则将得到的所述第二模型确定为所述可靠负样本分析模型;S270:如果有提升,则将所述第一模型重置为所述第二模型,再执行步骤S230~S250;S280:用所述可靠负样本分析模型对所述M中的各个样本进行分析,确定出可靠负样本,并根据所述可靠负样本、所述P中的各个样本确定分类模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述M+S中各个样本为正样本的概率,为所述M+S中各个样本重新标注样本标识,包括:确定第一概率阈值与第二概率阈值,其中,所述第一概率阈值小于所述第二概率阈值;从所述M+S的各个样本中选择为正样本的概率小于所述第一概率阈值的样本,并将所选择的样本重新标注负的样本标识;从所述M+S的各个样本中选择为正样本的概率大于所述第二概率阈值的样本,并将所选择的样本重新标注正的样本标识。3.根据权利要求2所述的方法,其特征在于,所述确定第一概率阈值与第二概率阈值,包括:用所述第一模型预测所述P-S中的各个样本为正样本的概率;对所述第一模型预测出的各个概率按从小到大的顺序进行排序;将排序好的各个所述概率中的第一预设分位点对应的概率作为第一概率阈值,将排序好的各个所述概率中的第二预设分位点对应的概率作为第二概率阈值,其中,所述第一预设分位点小于所述第二预设分位点。4.根据权利要求1所述的方法,其特征在于,所述判断得到的所述第二模型相对于所述第一模型是否有提升,包括:用所述第一模型和所述第二模型分别对所述M中的各个样本进行预测,得到所述M中的各个样本用第一模型预测为正样本的第一正概率,以及所述M中的各个样本用第二模型预测为正样本的第二正概率;用所述第一模型和所述第二模型分别对所述P中的各个样本进行预测,得到所述P中的各个样本用第一模型预测为负样本的第一负概率,以及所述P中的各个样本用所述第二模型预测为负样本的第二负概率;根据各个所述第一正概率、各个所述第二正概率、各个所述第一负概率、各个所述第二负概率,判断得到的所述第二模型相对于所述第一模型是否有提升。5.根据权利要求4所述的方法,其特征在于,所述判断得到的所述第二模型相对于所述第一模型是否有提升,包括:将各个所述第一正概率、各个所述第二正概率、各个所述第一负概率、各个所述第二负概率,代入第一预设公式,得到第一判定值;所述第一预设公式为:delta=各个第二正概率的平均值-各个第一正概率的平均值+2×(各个第二负概率的平均值-各个第一负概率的平均值)×各个第一正概率的平均值;其中,所述delta为所述第一判定值;判断所述第一判定值是否小于零;如果小于零,则判定所述第二模型相对于所述第一模型有提升;如果不小于零,则判定所述第二模型相对于所述第一模型没有提升。6.根据权利要求1至5任一项所述的方法,其特征在于,所述用所述可靠负样本分析模型对所述M中的各个样本进行分析,确定出可靠负样本,包括:确定第三概率阈值;用所述可靠负样本分析模型对所述M中的各个样本进行分析,得到所述M中各个样本为正样本的概率,并将得到的各个概率中小于所述第三概率阈值的概率所对应的样本确定为可靠负样本。7.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述可靠负样本、所述P中的各个样本确定分类模型,包括以下步骤:S281:将各个所述可靠负样本标注负的样本标识,将所述P中的各个样本标注正的样本标识;S282:根据各个所述可靠负样本的样本标识、各个所述可靠负样本的信息、所述P中各个样本的样本标识、所述P中各个样本的信息,训练第二预设模型,得到第三模型;S283:用所述第三模型预测所述M中各个样本为正样本的概率,并根据所述M中各个样本为正样本的概率,为所述M中各个样本重新标注样本标识;S284:根据所述M中各个样本重新标注的样本标识、所述M中被重新标注样本标识的样本的信息、所述P中各个样本的样本标识、所述P中各个样本的信息,重新训练所述第二预设模型,得到第四模型;S285:判断得到的所述第四模型相对于所述第三模型是否有提升;S286:如果所述第四模型相对于所述第三模型没有提升,则将得到的所述第四模型确定为所述分类模型;S287:如果所述第四模型相对于所述第三模型有提升,则将所述第三模型重置为所述第四模型,再执行步骤S283~S285。8.根据权利要求7所述的方法,其特征在于,所述根据所述M中各个样本为正样本的概率,为所述M中各个样本重新标注样本标识,包括:确定第四概率阈值与第五概率阈值,其中,所述第四概率阈值小于所述第五概率阈值;从所述M的各个样本中选择为正样本的概率小于所述第四概率阈值的样本,并将所选择的样本重新标注负的样本标识;从所述M的各个样本中选择为正样本的概率大于所述第五概率阈值的样本,并将所选择的样本重新标注正的样本标识。9.根据权利要求8所述的方法,其特征在于,所述确定第四概率阈值与第五概率阈值,包括:用所述第四模型预测所述P中的各个样本为正样本的概率;对所述第四模型预测出的各个概率按从小到大的顺序进行排序;将排序好的各个所述概率中的第四预设分位点对应的概率作为第四概率阈值,将排序好的各个所述概率中的第五预设分位点对应的概率作为第五概率阈值,其中,所述第四预设分位点小于所述第五预设分位点。10.一种数据分类装置,其特征在于,所述装置包括:数据获取单元,用于获取待分类数据的信息;概率计算单元,用于将获取的所述待分类数据的信息,输入分类模型中,得到各个所述待分类数据为第一类数据的概率,其中,所述第一类数据为:与正样本对应的数据;数据分类单元,用于根据得到的概率,对各所述待分类数据分类;样本获取单元,用于获取正样本集P、未标注样本集M,从正样本集P中获取部分样本,得到第一正样本子集S,将所述S与未标注样本集M相加得...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。