数据标注方法、装置、设备及计算机存储介质制造方法及图纸

技术编号:23604865 阅读:29 留言:0更新日期:2020-03-28 05:54
本申请提供一种数据标注方法、装置、设备及计算机存储介质,涉及数据标注技术领域。本申请实施例通过采用伺服模型,从待标注样本数据中提取目标样本数据,展示目标样本数据,并采集用户对目标样本数据进行标注后的样本数据,然后根据标注后的样本数据,采用预设增量学习规则对伺服模型进行优化,避免了模型优化过程与对待标注样本数据进行预测提取目标样本数据的过程,在时间角度上互斥的问题,大大缩短了数据标注过程和模型优化过程共同占用的时间,提高了时间利用率。

Data labeling methods, devices, equipment and computer storage media

【技术实现步骤摘要】
数据标注方法、装置、设备及计算机存储介质
本申请涉及数据标注
,具体而言,涉及一种数据标注方法、装置、设备及计算机存储介质。
技术介绍
深度学习技术被广泛应用于人脸识别、视频行为分析、智能客服、文本生成、机器翻译、信息抽取等与图像处理和自然语言处理相关的领域中,为人们的生产和生活带来了极大的便利。深度学习主要依赖于通过学习网络对大量有效标注的数据进行学习建模而实现,如新闻分类任务依赖于大量的带有标签的新闻数据,风险主体识别任务依赖于大量带有实体标注的数据等。目前,构建深度学习模型时,获取标注数据的方式通常为:各大型公司或组织往往大量的资源雇佣标注者团队,以获取到大规模的标注数据。为了减少标注成本,现有技术中根据预测模型和样本价值函数挖掘出待标注样本中最有价值的样本数据让标注者进行标注,以最小的标注代价产生最高的数据价值,从而减少标注成本;另外,还需要用标注后的样本数据对预测模型继续进行优化训练、提升预测模型的性能。但是,上述技术中,采用预测模型和样本价值函数挖掘有价值样本数据的过程和利用标注后的样本数据对预测模型进行优化的本文档来自技高网...

【技术保护点】
1.一种数据标注方法,其特征在于,包括:/n采用伺服模型,从待标注样本数据中提取目标样本数据;/n展示所述目标样本数据,并采集用户对所述目标样本数据进行标注后的样本数据;/n根据所述标注后的样本数据,采用预设增量学习规则对所述伺服模型进行优化。/n

【技术特征摘要】
1.一种数据标注方法,其特征在于,包括:
采用伺服模型,从待标注样本数据中提取目标样本数据;
展示所述目标样本数据,并采集用户对所述目标样本数据进行标注后的样本数据;
根据所述标注后的样本数据,采用预设增量学习规则对所述伺服模型进行优化。


2.根据权利要求1所述的方法,其特征在于,所述根据所述标注后的样本数据,采用预设增量学习规则对所述伺服模型进行优化,包括:
根据所述标注后的样本数据,确定所述标注后的样本数据的数据特性;
根据所述标注后的样本数据的数据特性,采用预设增量学习规则对所述伺服模型进行优化。


3.根据权利要求1所述的方法,其特征在于,所述根据所述标注后的样本数据,采用预设增量学习规则对所述伺服模型进行优化,包括:
根据所述标注后的样本数据,采用反向传播算法,对所述伺服模型进行参数更新。


4.根据权利要求1所述的方法,其特征在于,所述采用伺服模型,从待标注样本数据中提取目标样本数据,包括:
采用所述伺服模型,对所述待标注样本数据进行预测,获取所述待标注样本数据的预测标注信息;
根据所述待标注样本数据的预测标注信息,从所述待标注样本数据中提取所述目标样本数据。


5.根据权利要求4所述的方法,其特征在于,所述根据所述待标注样本数据的预测标注信息,从所述待标注样本数据中提取所述目标样本数据,包括:
根据所述待标注样本数据的预测标注信息,采用预设的样本价值函数,对所述待标注样本数据进行价值排...

【专利技术属性】
技术研发人员:张金贺徐安华
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1