基于机器学习的样本数据处理方法和装置制造方法及图纸

技术编号:42975008 阅读:28 留言:0更新日期:2024-10-15 13:14
本发明专利技术提供一种基于机器学习的样本数据处理方法和装置,所述方法包括:获取待处理的原始数据,并构建第一数据库,将所述第一数据库中的数据输入预先训练的数据处理模型,以得到所述数据处理模型输出的目标样本类别和各目标样本类别对应的数据;对各目标样本类别的数据数量进行统计;其中,所述数据处理模型是基于预先构建的深度学习网络,利用第二数据库中的图像样本和对应的类别标签进行训练得到的,所述第二数据库是利用预先构建的样本选择模型从原始数据样本中筛选出的图像样本构建的。解决了现有技术中存在的数据集中存在较多的无效标注的问题,提高了模型训练效率。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种基于机器学习的样本数据处理方法和装置


技术介绍

1、在进行医疗图像等数据处理时,通常会用到人工智能识别系统,利用人工智能识别系统提高医疗图像的识别效率和识别准确性。在搭建人工智能识别系统时,需要收集大量的目标数据,并对收集到的数据经领域专家或相关标注人员进行精准标注,构建庞大的数据库。对于自然场景下数据的标注,可以分发给数据标注人员,由大量的标注人员进行数据标注。由于数据量庞大,人力标注成本较高,且对于大规模的待标注数据,易在标注时产生标注错误。在医疗图像场景下,此类数据标注需要大批富有经验,高年资的专家学者对数据的具体类别进行精准判定。但对于人才紧缺的医疗行业,无法在有限的标注资源下,展开大规模的数据标注。并且在大规模的数据库中,不同样本间可能含有相似的信息,故信息冗余现象可能存在。

2、在已有技术中,用于医疗图像识别的人工智能识别系统通常是基于监督学习的统计学习识别模型,在构建过程中需要进行特征构建,数据的预处理,统计学习模型的训练等过程。在此过程中,由深度神经网络直接进行特征抽取和自动分类,无差别的对本文档来自技高网...

【技术保护点】

1.一种基于机器学习的样本数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于机器学习的样本数据处理方法,其特征在于,基于预先构建的深度学习网络,利用第二数据库中的图像样本和对应的类别标签进行训练,得到所述数据处理模型,具体包括:

3.根据权利要求2所述的基于机器学习的样本数据处理方法,其特征在于,将各所述子集中的数据分别输入预先构建的样本选择模型,以得到所述样本选择模型输出的图像样本,具体包括:

4.根据权利要求3所述的基于机器学习的样本数据处理方法,其特征在于,在所述样本选择模型的构建过程中,对所述样本选择模型进行参数采样。...

【技术特征摘要】

1.一种基于机器学习的样本数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于机器学习的样本数据处理方法,其特征在于,基于预先构建的深度学习网络,利用第二数据库中的图像样本和对应的类别标签进行训练,得到所述数据处理模型,具体包括:

3.根据权利要求2所述的基于机器学习的样本数据处理方法,其特征在于,将各所述子集中的数据分别输入预先构建的样本选择模型,以得到所述样本选择模型输出的图像样本,具体包括:

4.根据权利要求3所述的基于机器学习的样本数据处理方法,其特征在于,在所述样本选择模型的构建过程中,对所述样本选择模型进行参数采样。

5.根据权利要求3所述的基于机器学习的样本数据处理方法,其特征在于,在所述样本选择模型的构建过程中,...

【专利技术属性】
技术研发人员:李柏蕤连荷清陈磊
申请(专利权)人:北京小蝇科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1