数据筛选方法、装置、服务器及存储介质制造方法及图纸

技术编号:20820829 阅读:57 留言:0更新日期:2019-04-10 06:11
本公开是关于一种数据筛选方法、装置、服务器及存储介质,属于互联网领域。该方法包括:采用至少一个分类模型对多个原始数据进行分类,得到每个原始数据的分类结果;基于每个原始数据的分类结果对该多个原始数据进行筛选,得到多个第一数据;根据该多个第一数据的类别标签,对该多个第一数据进行筛选,得到至少一个第二数据。本公开通过预设条件的预测概率筛选出第一数据,再根据类别标签筛选出第二数据,降低了人工标注带来的成本,避免了因人力资源有限所导致的对原始数据的利用率的限制,增大了海量的原始数据的利用率。

【技术实现步骤摘要】
数据筛选方法、装置、服务器及存储介质
本公开涉及互联网领域,尤其涉及一种数据筛选方法、装置、服务器及存储介质。
技术介绍
相关技术中,深度学习在自然语言处理、文本翻译等领域得到广泛应用,其中,深度学习模型的准确度依赖于训练数据的规模,为获取训练数据,需要对来自于互联网的原始数据进行筛选。以图像分类为例,在对深度模型进行训练时,首先需要通过对原始数据进行人工标注,以获取足够多的标注数据,再从标注数据中筛选出训练数据,由于需要多个标签的多组训练数据,其中每个标签的训练数据量都需要达到“千”量级,才能够实现模型训练。然而,在上述过程中,为得到“千”量级的训练数据,对每个训练数据而言,需要准备10-20个的标注数据,使得对数据标注投入的人力成本很大,并且由于人力资源有限,无法对尽可能多的数据进行人工标注,使得对海量的来自于互联网的原始数据利用不充分。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种数据筛选方法、装置、服务器及存储介质。根据本公开实施例的第一方面,提供一种数据筛选方法,该方法包括:采用至少一个分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,该至少一个分类模型用本文档来自技高网...

【技术保护点】
1.一种数据筛选方法,其特征在于,所述方法包括:采用至少一个分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,所述至少一个分类模型用于对输入的数据进行分类,所述分类结果包括类别标签和预测概率,所述预测概率用于指示每个原始数据属于每个类别标签的可能性;基于所述每个原始数据的分类结果对所述多个原始数据进行筛选,得到多个第一数据,所述多个第一数据为预测概率符合预设条件的原始数据;根据所述多个第一数据的类别标签,对所述多个第一数据进行筛选,得到至少一个第二数据。

【技术特征摘要】
1.一种数据筛选方法,其特征在于,所述方法包括:采用至少一个分类模型对多个原始数据进行分类,得到每个原始数据的分类结果,所述至少一个分类模型用于对输入的数据进行分类,所述分类结果包括类别标签和预测概率,所述预测概率用于指示每个原始数据属于每个类别标签的可能性;基于所述每个原始数据的分类结果对所述多个原始数据进行筛选,得到多个第一数据,所述多个第一数据为预测概率符合预设条件的原始数据;根据所述多个第一数据的类别标签,对所述多个第一数据进行筛选,得到至少一个第二数据。2.根据权利要求1所述的数据筛选方法,其特征在于,所述根据所述多个第一数据的类别标签,对所述多个第一数据进行筛选,得到至少一个第二数据包括:根据每个第一数据和每个第一数据的至少一个类别标签,获取每个第一数据的信息熵;按照信息熵的数值从小到大的顺序,提取所述多个第一数据中属于同一个类别标签的第一数据,得到各个类别标签对应的第一数据集;将所述各个类别标签对应的第一数据集中前第一目标数量个第一数据获取为所述至少一个第二数据。3.根据权利要求1所述的数据筛选方法,其特征在于,所述根据所述多个第一数据的类别标签,对所述多个第一数据进行筛选,得到至少一个第二数据包括:根据每个第一数据和每个第一数据的至少一个类别标签,获取每个第一数据的信息熵;提取所述多个第一数据中属于同一个类别标签的第一数据,得到各个类别标签对应的第一数据集;按照信息熵的数值从小到大的顺序,将所述各个类别标签对应的第一数据集中前第一目标数量个第一数据获取为所述至少一个第二数据。4.根据权利要求2或3所述的数据筛选方法,其特征在于,所述根据每个第一数据和每个第一数据的至少一个类别标签,获取每个第一数据的信息熵包括:对任一个第一数据,将所述第一数据的至少一个类别标签的集合获取为预测向量,所述预测向量用于指示每个分类模型对所述第一数据进行预测的类别标签;将所述预测向量中各个类别标签的出现概率的集合获取为概率向量;将所述概率向量的信息熵获取为所述第一数据的信息熵。5.根据权利要求2或3所述的数据筛选方法,其特征在于,所述根据每个第一数据和每个第一数据的至少一个类别标签,获取每个第一数据的信息熵包括:...

【专利技术属性】
技术研发人员:张志伟郑仲奇闫瑞
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1