【技术实现步骤摘要】
数据标签的修正方法、装置和存储介质
本专利技术涉及机器学习领域,尤其涉及一种数据标签的修正方法、装置和存储介质。
技术介绍
在有监督的学习任务当中,机器学习或深度学习系统的训练需要使用大量标注有相应数据标签的数据。一般来说,使用越多的且标注质量越高的数据来训练模型,训练得到的模型越能够反映真实的情况,对未知数据预测的结果越可靠。为了提高数据的标注质量,需要找到与数据相匹配的标签。在现有技术中,为了提高数据的标注质量,采用的技术手段常见有人工标注、交叉熵筛选、信息检索和数据丢弃等。其中,人工标注通过人工对数据进行标注;交叉熵筛选通过将原始语料分成多个小集合,计算多个所述小集合的交叉熵并认为熵值最小的集合的数据标注可靠;信息检索依赖于确定的测试集,并检索相关的信息作为训练集;数据丢弃则是丢弃相似度而匹配结果不同的数据。在实施本专利技术实施例的过程中,专利技术人发现,由于人工标注依赖于工作人员的知识与精力、交叉熵筛选丢失了部分数据信息、信息检索依赖于确定的测试集且检索数据质量难以保证,而数据丢弃存在重要数据丢失的风险,导致现有数据的数据标签可靠性较低,得到的机器学习模型 ...
【技术保护点】
1.一种数据标签的修正方法,其特征在于,包括步骤:载入待修正数据集;其中,所述待修正数据集包括训练集和测试集,所述训练集和所述测试集的数据均标注有预设的数据标签;基于当前的训练集对机器学习模型进行训练,得到匹配模型;将当前的测试集的数据作为输入数据输入当前的匹配模型,获取所述当前的匹配模型输出的匹配结果,以更新每一所述输入数据的数据标签;其中,所述匹配结果中针对每一所述输入数据,记录有每一标签的置信度;当已获取的匹配结果的数量未达到预设值时,基于所述待修正数据集构建新的训练集和新的测试集;当所述已获取的匹配结果的数量达到所述预设值时,结合所述已获取的匹配结果和所述预设的数据 ...
【技术特征摘要】
1.一种数据标签的修正方法,其特征在于,包括步骤:载入待修正数据集;其中,所述待修正数据集包括训练集和测试集,所述训练集和所述测试集的数据均标注有预设的数据标签;基于当前的训练集对机器学习模型进行训练,得到匹配模型;将当前的测试集的数据作为输入数据输入当前的匹配模型,获取所述当前的匹配模型输出的匹配结果,以更新每一所述输入数据的数据标签;其中,所述匹配结果中针对每一所述输入数据,记录有每一标签的置信度;当已获取的匹配结果的数量未达到预设值时,基于所述待修正数据集构建新的训练集和新的测试集;当所述已获取的匹配结果的数量达到所述预设值时,结合所述已获取的匹配结果和所述预设的数据标签,对所述待修正数据集中的每一数据,计算每一所述标签的修正置信度,以修正所述待修正数据集中每一数据的数据标签。2.如权利要求1所述的修正方法,其特征在于,所述当前的匹配模型输出的匹配结果中还针对每一所述输入数据,记录有每一所述标签的置信度排名。3.如权利要求2所述的修正方法,其特征在于,所述结合所述已获取的匹配结果和所述预设的数据标签,对所述待修正数据集中的每一数据,计算每一所述标签的修正置信度,以修正所述待修正数据集中每一数据的数据标签,包括:基于所述已获取的匹配结果,针对所述待修正数据集的每一数据,获取每一所述标签的置信度和置信度排名,并计算每一所述标签的置信度和置信度排名的加权计算值,结合所述预设的数据标签,得到每一所述标签的修正置信度;针对所述待修正数据集的每一数据,以所述修正置信度最高的标签作为该数据的新的数据标签。4.如权利要求3所述的修正方法,其特征在于,针对所述待修正数据集的任一数据,所述修正置信度、所述标签的置信度、所述标签的置信度排名和所述预设的数据标签之间满足以下关系:S(k)=α*f(k)+(1-α)*g(k)+β*h(k)式中,α和β均为常数,k为任一标签,S(k)为标签k的修正置信度,f(k)为标签k的置信度的加权平均值,g(k)为标签k的置信度排名的倒数的加权平均值;若该数据预设的数据标签为标签k,有h(k)=1;若数据预设的数据标签非标签k,有h(k)=0。5.如权利要求1所述的修正方法,其特征在于,所述基于所述待修正数据集构建新的训练集和新的测试集,包括步骤:将所述新的数据标签和所述预设的数据标签相一致的所述数据,作为新的训练集中的数据。6.如权利要求1所述的修正方法,其特征在于,所述...
【专利技术属性】
技术研发人员:徐波,
申请(专利权)人:广州多益网络股份有限公司,广东利为网络科技有限公司,多益网络有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。