数据标注方法、装置、设备及计算机存储介质制造方法及图纸

技术编号：23604865 阅读：26 留言：0更新日期：2020-03-28 05:54

本申请提供一种数据标注方法、装置、设备及计算机存储介质，涉及数据标注技术领域。本申请实施例通过采用伺服模型，从待标注样本数据中提取目标样本数据，展示目标样本数据，并采集用户对目标样本数据进行标注后的样本数据，然后根据标注后的样本数据，采用预设增量学习规则对伺服模型进行优化，避免了模型优化过程与对待标注样本数据进行预测提取目标样本数据的过程，在时间角度上互斥的问题，大大缩短了数据标注过程和模型优化过程共同占用的时间，提高了时间利用率。

Data labeling methods, devices, equipment and computer storage media

全部详细技术资料下载

【技术实现步骤摘要】
数据标注方法、装置、设备及计算机存储介质
本申请涉及数据标注
，具体而言，涉及一种数据标注方法、装置、设备及计算机存储介质。
技术介绍
深度学习技术被广泛应用于人脸识别、视频行为分析、智能客服、文本生成、机器翻译、信息抽取等与图像处理和自然语言处理相关的领域中，为人们的生产和生活带来了极大的便利。深度学习主要依赖于通过学习网络对大量有效标注的数据进行学习建模而实现，如新闻分类任务依赖于大量的带有标签的新闻数据，风险主体识别任务依赖于大量带有实体标注的数据等。目前，构建深度学习模型时，获取标注数据的方式通常为：各大型公司或组织往往大量的资源雇佣标注者团队，以获取到大规模的标注数据。为了减少标注成本，现有技术中根据预测模型和样本价值函数挖掘出待标注样本中最有价值的样本数据让标注者进行标注，以最小的标注代价产生最高的数据价值，从而减少标注成本；另外，还需要用标注后的样本数据对预测模型继续进行优化训练、提升预测模型的性能。但是，上述技术中，采用预测模型和样本价值函数挖掘有价值样本数据的过程和利用标注后的样本数据对预测模型进行优化的过程，在时间角度上是互斥的，即，预测模型在优化期间无法实现对有价值样本数据的挖掘，导致现有的数据标注方法的时间利用率低下。
技术实现思路
本申请的目的在于，提供一种数据标注方法、装置、设备及计算机存储介质，可以解决现有技术中，采用预测模型和样本价值函数挖掘有价值样本数据的过程和利用标注后的样本数据对预测模型进行优化的过程，在时间角度上互斥而导致的时间利用率低...

【技术保护点】
1.一种数据标注方法，其特征在于，包括：/n采用伺服模型，从待标注样本数据中提取目标样本数据；/n展示所述目标样本数据，并采集用户对所述目标样本数据进行标注后的样本数据；/n根据所述标注后的样本数据，采用预设增量学习规则对所述伺服模型进行优化。/n

【技术特征摘要】
1.一种数据标注方法，其特征在于，包括：
采用伺服模型，从待标注样本数据中提取目标样本数据；
展示所述目标样本数据，并采集用户对所述目标样本数据进行标注后的样本数据；
根据所述标注后的样本数据，采用预设增量学习规则对所述伺服模型进行优化。

2.根据权利要求1所述的方法，其特征在于，所述根据所述标注后的样本数据，采用预设增量学习规则对所述伺服模型进行优化，包括：
根据所述标注后的样本数据，确定所述标注后的样本数据的数据特性；
根据所述标注后的样本数据的数据特性，采用预设增量学习规则对所述伺服模型进行优化。

3.根据权利要求1所述的方法，其特征在于，所述根据所述标注后的样本数据，采用预设增量学习规则对所述伺服模型进行优化，包括：
根据所述标注后的样本数据，采用反向传播算法，对所述伺服模型进行参数更新。

4.根据权利要求1所述的方法，其特征在于，所述采用伺服模型，从待标注样本数据中提取目标样本数据，包括：
采用所述伺服模型，对所述待标注样本数据进行预测，获取所述待标注样本数据的预测标注信息；
根据所述待标注样本数据的预测标注信息，从所述待标注样本数据中提取所述目标样本数据。

5.根据权利要求4所述的方法，其特征在于，所述根据所述待标注样本数据的预测标注信息，从所述待标注样本数据中提取所述目标样本数据，包括：
根据所述待标注样本数据的预测标注信息，采用预设的样本价值函数，对所述待标注样本数据进行价值排...

【专利技术属性】
技术研发人员：张金贺，徐安华，
申请(专利权)人：北京明略软件系统有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人