数据标注方法、装置、设备及计算机存储介质制造方法及图纸

技术编号:23604865 阅读:20 留言:0更新日期:2020-03-28 05:54
本申请提供一种数据标注方法、装置、设备及计算机存储介质,涉及数据标注技术领域。本申请实施例通过采用伺服模型,从待标注样本数据中提取目标样本数据,展示目标样本数据,并采集用户对目标样本数据进行标注后的样本数据,然后根据标注后的样本数据,采用预设增量学习规则对伺服模型进行优化,避免了模型优化过程与对待标注样本数据进行预测提取目标样本数据的过程,在时间角度上互斥的问题,大大缩短了数据标注过程和模型优化过程共同占用的时间,提高了时间利用率。

Data labeling methods, devices, equipment and computer storage media

【技术实现步骤摘要】
数据标注方法、装置、设备及计算机存储介质
本申请涉及数据标注
,具体而言,涉及一种数据标注方法、装置、设备及计算机存储介质。
技术介绍
深度学习技术被广泛应用于人脸识别、视频行为分析、智能客服、文本生成、机器翻译、信息抽取等与图像处理和自然语言处理相关的领域中,为人们的生产和生活带来了极大的便利。深度学习主要依赖于通过学习网络对大量有效标注的数据进行学习建模而实现,如新闻分类任务依赖于大量的带有标签的新闻数据,风险主体识别任务依赖于大量带有实体标注的数据等。目前,构建深度学习模型时,获取标注数据的方式通常为:各大型公司或组织往往大量的资源雇佣标注者团队,以获取到大规模的标注数据。为了减少标注成本,现有技术中根据预测模型和样本价值函数挖掘出待标注样本中最有价值的样本数据让标注者进行标注,以最小的标注代价产生最高的数据价值,从而减少标注成本;另外,还需要用标注后的样本数据对预测模型继续进行优化训练、提升预测模型的性能。但是,上述技术中,采用预测模型和样本价值函数挖掘有价值样本数据的过程和利用标注后的样本数据对预测模型进行优化的过程,在时间角度上是互斥的,即,预测模型在优化期间无法实现对有价值样本数据的挖掘,导致现有的数据标注方法的时间利用率低下。
技术实现思路
本申请的目的在于,提供一种数据标注方法、装置、设备及计算机存储介质,可以解决现有技术中,采用预测模型和样本价值函数挖掘有价值样本数据的过程和利用标注后的样本数据对预测模型进行优化的过程,在时间角度上互斥而导致的时间利用率低下的问题。第一方面,本申请实施例提供一种数据标注方法,该方法包括:采用伺服模型,从待标注样本数据中提取目标样本数据;展示目标样本数据,并采集用户对目标样本数据进行标注后的样本数据;根据标注后的样本数据,采用预设增量学习规则对伺服模型进行优化。可选地,上述根据标注后的样本数据,采用预设增量学习规则对伺服模型进行优化,包括:根据标注后的样本数据,确定标注后的样本数据的数据特性;根据标注后的样本数据的数据特性,采用预设增量学习规则对伺服模型进行优化。可选地,上述根据标注后的样本数据,采用预设增量学习规则对伺服模型进行优化,包括:根据标注后的样本数据,采用反向传播算法,对伺服模型进行参数更新。可选地,上述采用伺服模型,从待标注样本数据中提取目标样本数据,包括:采用伺服模型,对待标注样本数据进行预测,获取待标注样本数据的预测标注信息;根据待标注样本数据的预测标注信息,从待标注样本数据中提取目标样本数据。可选地,上述根据待标注样本数据的预测标注信息,从待标注样本数据中提取目标样本数据,包括:根据待标注样本数据的预测标注信息,采用预设的样本价值函数,对待标注样本数据进行价值排序;根据排序结果,从待标注样本数据中确定目标样本数据。可选地,上述采用伺服模型,从待标注样本数据中提取目标样本数据之前,该方法还包括:接收用户输入的标注请求;相应地,上述采用伺服模型,从待标注样本数据中提取目标样本数据,包括:根据标注请求,采用伺服模型,从待标注样本数据中提取目标样本数据。第二方面,本申请实施例提供一种数据标注装置,该装置包括:提取模块,用于采用伺服模型,从待标注样本数据中提取目标样本数据;标注模块,用于展示目标样本数据,并采集用户对目标样本数据进行标注后的样本数据;优化模块,用于根据标注后的样本数据,采用预设增量学习规则对伺服模型进行优化。可选地,优化模块包括:数据特性子模块,用于根据标注后的样本数据,确定标注后的样本数据的数据特性;优化子模块,用于根据标注后的样本数据的数据特性,采用预设增量学习规则对伺服模型进行优化。可选地,优化子模块具体用于根据标注后的样本数据,采用反向传播算法,对伺服模型进行参数更新。可选地,提取模块包括:预测子模块,用于采用伺服模型,对待标注样本数据进行预测,获取待标注样本数据的预测标注信息;提取子模块,用于根据待标注样本数据的预测标注信息,从待标注样本数据中提取目标样本数据。可选地,提取子模块具体用于,根据待标注样本数据的预测标注信息,采用预设的样本价值函数,对待标注样本数据进行价值排序;根据排序结果,从待标注样本数据中确定目标样本数据。可选地,该装置还包括:接收模块,用于在提取模块采用伺服模型,从待标注样本数据中提取目标样本数据之前,接收用户输入的标注请求;相应地,提取模块具体用于,根据标注请求,采用伺服模型,从待标注样本数据中提取目标样本数据。第三方面,本申请实施例提供一种数据标注设备,包括:处理器和存储器,存储器中存储有可在处理器运行的计算机程序,处理器执行计算机程序时实现如第一方面所述的方法。第四方面,本申请实施例提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如第一方面所述的方法。本申请实施例提供的数据标注方法、装置、设备及计算机存储介质,通过采用伺服模型,从待标注样本数据中提取目标样本数据,展示目标样本数据,并采集用户对目标样本数据进行标注后的样本数据,然后根据标注后的样本数据,采用预设增量学习规则对伺服模型进行优化,避免了模型优化过程与对待标注样本数据进行预测提取目标样本数据的过程,在时间角度上互斥的问题,大大缩短了数据标注过程和模型优化过程共同占用的时间,提高了时间利用率。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本申请实施例提供的数据标注方法的流程示意图;图2示出了本申请实施例提供的数据标注方法的另一流程示意图;图3示出了本申请实施例提供的数据标注方法的又一流程示意图;图4示出了本申请实施例提供的数据标注方法的又一流程示意图;图5示出了本申请实施例提供的基于主动伺服模型的实时标注系统的结构示意图;图6示出了本申请实施例提供的伺服模型的结构示意图;图7示出了本申请实施例提供的数据标注装置的结构示意图;图8示出了本申请实施例提供的数据标注装置的另一结构示意图;图9示出了本申请实施例提供的数据标注装置的又一结构示意图;图10示出了本申请实施例提供的数据标注装置的又一结构示意图;图11示出了本申请实施例提供的数据标注设备的结构示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配本文档来自技高网...

【技术保护点】
1.一种数据标注方法,其特征在于,包括:/n采用伺服模型,从待标注样本数据中提取目标样本数据;/n展示所述目标样本数据,并采集用户对所述目标样本数据进行标注后的样本数据;/n根据所述标注后的样本数据,采用预设增量学习规则对所述伺服模型进行优化。/n

【技术特征摘要】
1.一种数据标注方法,其特征在于,包括:
采用伺服模型,从待标注样本数据中提取目标样本数据;
展示所述目标样本数据,并采集用户对所述目标样本数据进行标注后的样本数据;
根据所述标注后的样本数据,采用预设增量学习规则对所述伺服模型进行优化。


2.根据权利要求1所述的方法,其特征在于,所述根据所述标注后的样本数据,采用预设增量学习规则对所述伺服模型进行优化,包括:
根据所述标注后的样本数据,确定所述标注后的样本数据的数据特性;
根据所述标注后的样本数据的数据特性,采用预设增量学习规则对所述伺服模型进行优化。


3.根据权利要求1所述的方法,其特征在于,所述根据所述标注后的样本数据,采用预设增量学习规则对所述伺服模型进行优化,包括:
根据所述标注后的样本数据,采用反向传播算法,对所述伺服模型进行参数更新。


4.根据权利要求1所述的方法,其特征在于,所述采用伺服模型,从待标注样本数据中提取目标样本数据,包括:
采用所述伺服模型,对所述待标注样本数据进行预测,获取所述待标注样本数据的预测标注信息;
根据所述待标注样本数据的预测标注信息,从所述待标注样本数据中提取所述目标样本数据。


5.根据权利要求4所述的方法,其特征在于,所述根据所述待标注样本数据的预测标注信息,从所述待标注样本数据中提取所述目标样本数据,包括:
根据所述待标注样本数据的预测标注信息,采用预设的样本价值函数,对所述待标注样本数据进行价值排...

【专利技术属性】
技术研发人员:张金贺徐安华
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1