数据处理方法、数据处理装置、存储设备及网络设备制造方法及图纸

技术编号:16399612 阅读:55 留言:0更新日期:2017-10-17 19:51
本发明专利技术公开一种数据处理方法、装置、存储设备及网络设备,其中的方法可包括:获取验证系统中待处理的目标样本数据;向进入所述验证系统的至少一个目标用户输出所述目标样本数据,以使所述至少一个目标用户对所述目标样本数据进行标注;采集所述至少一个目标用户对所述目标样本数据进行标注所产生的至少一个标注数据;采用机器学习算法对所述目标样本数据的至少一个标注数据进行学习处理,获得所述目标样本数据的标注结果。本发明专利技术能够降低样本数据的标注成本,扩充互联网中样本数据的数量。

Data processing method, data processing device, storage device and network equipment

The invention discloses a data processing method, apparatus, storage devices and network equipment, the method comprises the following steps: acquiring the target sample data to be processed to verify the system; to enter the verification system of at least one of the target user output of the target sample data, so that the at least one target user mark the target sample data acquisition; the at least one user on the target sample data at least label generated by a label data; using machine learning algorithms on the target sample data of at least one of the labeled data to learn, get the annotation results of the target sample data. The invention can reduce the annotation cost of sample data and enlarge the number of sample data in the internet.

【技术实现步骤摘要】
数据处理方法、数据处理装置、存储设备及网络设备
本专利技术涉及互联网
,具体涉及基于机器学习的数据处理
,尤其涉及一种数据处理方法、一种数据处理装置、一种存储设备及一种网络设备。
技术介绍
带标注结果的样本数据如标注了人脸位置的图像数据,或标注了人脸表情的图像数据,或标注了人物年龄的语音数据等是用于机器进行训练学习的对象,是机器学习的基础。随着机器学习技术的发展,基于机器学习的各类互联网系统对样本数据的需求日益增大;例如:随着深度神经网络的层级数量的增加,深度神经网络需要的样本数据的数量可能达到数亿;再如:社交推荐系统为了获得较为精准有效的社交推荐,其可能需要的样本数据的数量甚至可达数千亿。然而,与大需求相矛盾的互联网现状则是普遍缺乏样本数据,造成此矛盾问题的主要原因,是目前样本数据的标注过程由专门的标注人员人工完成,成本较高且使得互联网中的样本数据稀缺匮乏。
技术实现思路
本专利技术实施例提供一种数据处理方法、数据处理装置、存储设备及网络设备,能够降低样本数据的标注成本,扩充互联网中样本数据的数量。一方面,本专利技术实施例提供一种数据处理方法,可包括:获取验证系统中待处理的目标样本数据;向进入所述验证系统的至少一个目标用户输出所述目标样本数据,以使所述至少一个目标用户对所述目标样本数据进行标注;采集所述至少一个目标用户对所述目标样本数据进行标注所产生的至少一个标注数据;采用机器学习算法对所述目标样本数据的至少一个标注数据进行学习处理,获得所述目标样本数据的标注结果。优选地,所述验证系统包括标注模式和验证模式,且所述验证系统包含样本库和素材库;所述样本库包括至少一条样本数据,所述样本数据包括以下任一种:图像、语音和文本;所述素材库包括至少一个素材数据,所述素材数据包括以下任一种:图像、语音和文本;所述标注模式用于对所述样本库中的各样本数据进行标注;所述验证模式用于采用所述素材库中的各素材数据对进入验证系统的用户进行身份验证。优选地,所述获取验证系统中待处理的目标样本数据之前,还包括:当检测到任一用户进入验证系统时,判断进入验证系统的用户是否为目标用户;若进入验证系统的用户为目标用户,则启动验证系统的标注模式,并在所述标注模式下获取验证系统中待处理的目标样本数据;若进入验证系统的用户为普通用户,则启动验证系统的验证模式,并在所述验证模式下从所述素材库中选取一个素材数据对所述进入验证系统的用户进行身份验证。优选地,所述当检测到任一用户进入验证系统时,判断进入验证系统的用户是否为目标用户,包括:当检测到任一用户进入验证系统时,获取所述进入验证系统的用户的历史标注信息,所述历史标注信息记录了所述进入验证系统的用户在验证系统的标注模式下对所述样本库中的样本数据进行标注的频次;若所述频次小于预设第一阀值,则确定所述进入验证系统的用户为目标用户;若所述频次大于或等于第一预设阀值,则确定所述进入验证系统的用户为普通用户。优选地,所述当检测到任一用户进入验证系统时,判断进入验证系统的用户是否为目标用户,包括:当检测到任一用户进入验证系统时,获取所述进入验证系统的用户的标识;若所述标识为预设的备选用户标识,则确定所述进入验证系统的用户为目标用户;若所述标识并非预设的备选用户标识,则确定所述进入验证系统的用户为普通用户。优选地,所述当检测到任一用户进入验证系统时,判断进入验证系统的用户是否为目标用户,包括:当检测到任一用户进入验证系统时,获取所述进入验证系统的用户的历史验证信息,所述历史验证信息记录所述进入验证系统的用户在验证系统的验证模式下进行身份验证的成功率;若所述成功率大于或等于第二预设阀值,则确定所述进入验证系统的用户为目标用户;若所述成功率小于第二预设阀值,则确定所述进入验证系统的用户为普通用户。优选地,所述向进入所述验证系统的至少一个目标用户输出所述目标样本数据,以使所述至少一个目标用户对所述目标样本数据进行标注,包括:为所述目标样本数据设置标注方式,所述标注方式包括以下任一种:选择方式和输入方式;若所述目标样本数据的标注方式为选择方式,向所述至少一个目标用户输出所述目标样本数据,并将所述目标样本数据对应的至少一个待选标注数据输出至所述至少一个目标用户进行选择;若所述目标样本数据的标注方式为输入方式,向所述至少一个目标用户输出所述目标样本数据,并显示输入框以使所述至少一个目标用户在所述输入框输入所述目标样本数据对应的标注数据。优选地,所述采集所述至少一个目标用户对所述目标样本数据进行标注所产生的至少一个标注数据之后,还包括:向所述至少一个目标用户输出验证失败提示信息,并从所述标注模式切换至所述验证模式;在所述验证模式下从所述素材库中选取一个素材数据对所述至少一个目标用户进行身份验证。优选地,所述采用机器学习算法对所述目标样本数据的至少一个标注数据进行学习处理,获得所述目标样本数据的标注结果之后,还包括:将所述目标样本数据及其标注结果作为新的素材数据添加至所述素材库中。另一方面,本专利技术实施例提供一种数据处理装置,可包括:获取单元,用于获取验证系统中待处理的目标样本数据;输出单元,用于向进入所述验证系统的至少一个目标用户输出所述目标样本数据,以使所述至少一个目标用户对所述目标样本数据进行标注;采集单元,用于采集所述至少一个目标用户对所述目标样本数据进行标注所产生的至少一个标注数据;学习单元,用于采用机器学习算法对所述目标样本数据的至少一个标注数据进行学习处理,获得所述目标样本数据的标注结果。优选地,所述验证系统包括标注模式和验证模式,且所述验证系统包含样本库和素材库;所述样本库包括至少一条样本数据,所述样本数据包括以下任一种:图像、语音和文本;所述素材库包括至少一个素材数据,所述素材数据包括以下任一种:图像、语音和文本;所述标注模式用于对所述样本库中的各样本数据进行标注;所述验证模式用于采用所述素材库中的各素材数据对进入验证系统的用户进行身份验证。优选地,该数据处理装置还包括:判断单元,用于当检测到任一用户进入验证系统时,判断进入验证系统的用户是否为目标用户;处理单元,用于若进入验证系统的用户为目标用户,则启动验证系统的标注模式,并在所述标注模式下通知所述获取单元获取验证系统中待处理的目标样本数据;或者用于若进入验证系统的用户为普通用户,则启动验证系统的验证模式,并在所述验证模式下从所述素材库中选取一个素材数据对所述进入验证系统的用户进行身份验证。优选地,在一种实施方式中,所述判断单元包括:第一信息获取单元,用于当检测到任一用户进入验证系统时,获取所述进入验证系统的用户的历史标注信息,所述历史标注信息记录了所述进入验证系统的用户在验证系统的标注模式下对所述样本库中的样本数据进行标注的频次;第一确定单元,用于若所述频次小于预设第一阀值,则确定所述进入验证系统的用户为目标用户;或用于若所述频次大于或等于第一预设阀值,则确定所述进入验证系统的用户为普通用户。优选地,在另一种实施方式中,所述判断单元包括:标识获取单元,用于当检测到任一用户进入验证系统时,获取所述进入验证系统的用户的标识;第二确定单元,用于若所述标识为预设的备选用户标识,则确定所述进入验证系统的用户为目标用户;或用于若所述标识并非预设的备选用户标识本文档来自技高网...
数据处理方法、数据处理装置、存储设备及网络设备

【技术保护点】
一种数据处理方法,其特征在于,包括:获取验证系统中待处理的目标样本数据;向进入所述验证系统的至少一个目标用户输出所述目标样本数据,以使所述至少一个目标用户对所述目标样本数据进行标注;采集所述至少一个目标用户对所述目标样本数据进行标注所产生的至少一个标注数据;采用机器学习算法对所述目标样本数据的至少一个标注数据进行学习处理,获得所述目标样本数据的标注结果。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取验证系统中待处理的目标样本数据;向进入所述验证系统的至少一个目标用户输出所述目标样本数据,以使所述至少一个目标用户对所述目标样本数据进行标注;采集所述至少一个目标用户对所述目标样本数据进行标注所产生的至少一个标注数据;采用机器学习算法对所述目标样本数据的至少一个标注数据进行学习处理,获得所述目标样本数据的标注结果。2.如权利要求1所述的数据处理方法,其特征在于,所述验证系统包括标注模式和验证模式,且所述验证系统包含样本库和素材库;所述样本库包括至少一条样本数据,所述样本数据包括以下任一种:图像、语音和文本;所述素材库包括至少一个素材数据,所述素材数据包括以下任一种:图像、语音和文本;所述标注模式用于对所述样本库中的各样本数据进行标注;所述验证模式用于采用所述素材库中的各素材数据对进入验证系统的用户进行身份验证。3.如权利要求2所述的数据处理方法,其特征在于,所述获取验证系统中待处理的目标样本数据之前,还包括:当检测到任一用户进入验证系统时,判断进入验证系统的用户是否为目标用户;若进入验证系统的用户为目标用户,则启动验证系统的标注模式,并在所述标注模式下获取验证系统中待处理的目标样本数据;若进入验证系统的用户为普通用户,则启动验证系统的验证模式,并在所述验证模式下从所述素材库中选取一个素材数据对所述进入验证系统的用户进行身份验证。4.如权利要求3所述的数据处理方法,其特征在于,所述当检测到任一用户进入验证系统时,判断进入验证系统的用户是否为目标用户,包括:当检测到任一用户进入验证系统时,获取所述进入验证系统的用户的历史标注信息,所述历史标注信息记录了所述进入验证系统的用户在验证系统的标注模式下对所述样本库中的样本数据进行标注的频次;若所述频次小于预设第一阀值,则确定所述进入验证系统的用户为目标用户;若所述频次大于或等于第一预设阀值,则确定所述进入验证系统的用户为普通用户。5.如权利要求3所述的数据处理方法,其特征在于,所述当检测到任一用户进入验证系统时,判断进入验证系统的用户是否为目标用户,包括:当检测到任一用户进入验证系统时,获取所述进入验证系统的用户的标识;若所述标识为预设的备选用户标识,则确定所述进入验证系统的用户为目标用户;若所述标识并非预设的备选用户标识,则确定所述进入验证系统的用户为普通用户。6.如权利要求3所述的数据处理方法,其特征在于,所述当检测到任一用户进入验证系统时,判断进入验证系统的用户是否为目标用户,包括:当检测到任一用户进入验证系统时,获取所述进入验证系统的用户的历史验证信息,所述历史验证信息记录所述进入验证系统的用户在验证系统的验证模式下进行身份验证的成功率;若所述成功率大于或等于第二预设阀值,则确定所述进入验证系统的用户为目标用户;若所述成功率小于第二预设阀值,则确定所述进入验证系统的用户为普通用户。7.如权利要求2-6任一项所述的数据处理方法,其特征在于,所述向进入所述验证系统的至少一个目标用户输出所述目标样本数据,以使所述至少一个目标用户对所述目标样本数据进行标注,包括:为所述目标样本数据设置标注方式,所述标注方式包括以下任一种:选择方式和输入方式;若所述目标样本数据的标注方式为选择方式,向所述至少一个目标用户输出所述目标样本数据,并将所述目标样本数据对应的至少一个待选标注数据输出至所述至少一个目标用户进行选择;若所述目标样本数据的标注方式为输入方式,向所述至少一个目标用户输出所述目标样本数据,并显示输入框以使所述至少一个目标用户在所述输入框输入所述目标样本数据对应的标注数据。8.如权利要求7所述的数据处理方法,其特征在于,所述采集所述至少一个目标用户对所述目标样本数据进行标注所产生的至少一个标注数据之后,还包括:向所述至少一个目标用户输出验证失败提示信息,并从所述标注模式切换至所述验证模式;在所述验证模式下从所述素材库中选取一个素材数据对所述至少一个目标用户进行身份验证。9.如权利要求7所述的数据处理方法,其特征在于,所述采用机器学习算法对所述目标样本数据的至少一个标注数据进行学习处理,获得所述目标样本数据的标注结果之后,还包括:将所述目标样本数据及其标注结果作为新的素材数据...

【专利技术属性】
技术研发人员:何卓略
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1