数据标注方法、系统、计算机设备和存储介质技术方案

技术编号:23238935 阅读:33 留言:0更新日期:2020-02-04 18:22
本申请涉及一种数据标注方法、系统、计算机设备和存储介质。所述方法包括:获取第一标注数据,所述第一标注数据包括多个用户对同一待标注数据的多个标注数据;对获取到的所述第一标注数据进行聚类去噪,得到第二标注数据;采用当前条件随机场模型对所述第二标注数据进行预测,得到预测标注数据;根据所述预测标注数据对所述第一标注数据进行校验,得到正确标注数据,所述正确标注数据为与所述预测标注数据一致的所述第一标注数据。采用本方法能够提高数据标注的准确性和效率。

Data annotation method, system, computer equipment and storage medium

【技术实现步骤摘要】
数据标注方法、系统、计算机设备和存储介质
本申请涉及数据处理
,特别是涉及一种数据标注方法、系统、计算机设备和存储介质。
技术介绍
如今人工智能技术已经广泛应用在智能控制、机器人学、自动化技术、语言和图像理解、娱乐、医学等领域,代替人工从事部分繁琐的事务。人工智能算法需要学习海量的标注数据,才能够进行自主识别和做出决策,这就需要对原始数据进行数据标注。数据标注是指对文本、图片、语音等原始数据进行描述或者标记的过程,数据标注的质量很大程度上会影响人工智能的智能化水平。现有的数据标注过程中,需要手动将待标注数据任务拆分成多个子任务并分发给多个标注者,各个标注者分别对自己负责的子任务进行标注,所有子任务的标注工作完成后,将各标注者标注后的数据汇总保存。标注工作繁琐枯燥,数据标注的效率差,而且工作标注数据的质量受标注人员的主观因素影响较大,标注数据的准确度低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高数据标注准确度的数据标注方法、系统、计算机设备和存储介质。一种数据标注方法,所述方法包括:本文档来自技高网...

【技术保护点】
1.一种数据标注方法,其特征在于,所述方法包括:/n获取第一标注数据,所述第一标注数据包括多个用户对同一待标注数据的多个标注数据;/n对获取到的所述第一标注数据进行聚类去噪,得到第二标注数据;/n采用当前条件随机场模型对所述第二标注数据进行预测,得到预测标注数据;/n根据所述预测标注数据对所述第一标注数据进行校验,得到正确标注数据,所述正确标注数据为与所述预测标注数据一致的所述第一标注数据。/n

【技术特征摘要】
1.一种数据标注方法,其特征在于,所述方法包括:
获取第一标注数据,所述第一标注数据包括多个用户对同一待标注数据的多个标注数据;
对获取到的所述第一标注数据进行聚类去噪,得到第二标注数据;
采用当前条件随机场模型对所述第二标注数据进行预测,得到预测标注数据;
根据所述预测标注数据对所述第一标注数据进行校验,得到正确标注数据,所述正确标注数据为与所述预测标注数据一致的所述第一标注数据。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述正确标注数据,构建正确标注数据集;
采用所述正确标注数据集对所述当前条件随机场模型进行训练,得到第一条件随机场模型;
将所述第一条件随机场模型设为所述当前条件随机场模型。


3.根据权利要求2所述的方法,其特征在于,所述采用所述正确标注数据集对所述当前条件随机场模型进行训练,得到第一条件随机场模型,包括:
对所述正确标注数据集进行预处理,得到输入序列和输出序列;
根据所述当前条件随机场模型、所述输入序列和所述输出序列,得到所述第一条件随机场模型。


4.根据权利要求1所述的方法,其特征在于,所述对获取到的所述第一标注数据进行聚类去噪,得到第二标注数据,包括:
对所述第一标注数据中的变量分布进行假设,得到第一分布参数或第一分布模型;
采用所述第一标注数据对所述第一分布参数或所述第一分布模型进行拟合或训练,得到第二分布参数或第二分布模型;
根据所述第一标注数据与所述第二分布参数或所述第二分布模型,得到第二标注数据。


5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

【专利技术属性】
技术研发人员:王丹丹
申请(专利权)人:苏宁云计算有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1