待标注数据的拾取方法、装置、电子设备和存储介质制造方法及图纸

技术编号：37786060 阅读：21 留言：0更新日期：2023-06-09 09:16

本发明专利技术公开一种待标注数据的拾取方法、装置、电子设备和存储介质，涉及数据标注领域。所述方法包括：获取用户所参与的标注任务；基于所述标注任务，为所述用户提供用于固定数据的输入格式；在所述用户正在浏览的页面上，突显所述标注任务下的已采集数据，以得到数据捕获区域；通过用户行为确定所述用户在所述数据捕获区域中捕获的网页区域和内容；基于所述输入格式，将所述网页区域和内容传输给数据标注系统。本发明专利技术可以精准完成数据获取和格式校验并同步提交到标注系统，大幅提升标注效率。大幅提升标注效率。大幅提升标注效率。

全部详细技术资料下载

【技术实现步骤摘要】
待标注数据的拾取方法、装置、电子设备和存储介质

[0001]本专利技术属于数据标注领域，涉及一种待标注数据的拾取方法、装置、电子设备和存储介质。

技术介绍

[0002]随着深度学习技术的快速发展，人工智能的应用融入各行各业，其中计算机视觉技术和自然语言处理技术有很大的应用场景，例如汽车自动驾驶、人脸识别、以图搜图、目标检测、智能问答等。当前计算机视觉和自然语言处理是深度学习领域最热门的两个研究领域，该领域中神经网络的训练需要大量标注数据，随着技术的不断发展，高质量的标注数据有着长期的需求。因此，高效地获取大量高质量标注数据对深度学习模型的落地有十足的推动作用，然而面对不同的应用场景，往往需要不同的标注数据，而这些数据通常也不是现成的，是需要用户手动标注的，现有众多标注系统和方法可以完成数据标注过程，但现有技术中，均未考虑到用户获取未标注数据的过程十分繁琐，往往需要经过爬虫采集再清洗后才可以使用，且有些场景的数据在互联网上并不是广泛分布的，少见的数据会使爬虫批量采集的效率很低，同时增加用户筛选有效数据的时间，造成整个数据标注流...

【技术保护点】

【技术特征摘要】
1.一种待标注数据的拾取方法，其特征在于，包括：获取用户所参与的标注任务；基于所述标注任务，为所述用户提供用于固定数据的输入格式；在所述用户正在浏览的页面上，突显所述标注任务下的已采集数据，以得到数据捕获区域；通过用户行为确定所述用户在所述数据捕获区域中捕获的网页区域和内容；基于所述输入格式，将所述网页区域和内容传输给数据标注系统。2.根据权利要求1所述的待标注数据的拾取方法，其特征在于，所述获取用户所参与的标注任务之前，还包括：验证用户的身份。3.根据权利要求1所述的待标注数据的拾取方法，其特征在于，所述基于所述标注任务，为所述用户提供用于固定数据的输入格式，包括：获取所述标注任务的任务类型；所述任务类型包括：文本分类、命名实体识别、文本生成、图像分类或跨模态文本生成；在所述任务类型为文本分类的情况下，所述输入格式为一条文本；在所述任务类型为命名实体识别的情况下，所述输入格式为一条文本；在所述任务类型为文本生成的情况下，所述输入格式为两条文本；在所述任务类型为图像分类的情况下，所述输入格式为一张图像；在所述任务类型为跨模态文本生成的情况下，所述输入格式为两条文本和一张图像；或，接收所述用户发来的针对所述标注任务的输入格式设定；基于所述输入格式设定，生成用于固定数据的输入格式；其中，所述输入格式包括：至少一个文本和/或至少一个图像。4.根据权利要求1所述的待标注数据的拾取方法，其特征在于，所述已采集数据包括：文本数据；所述在所述用户正在浏览的页面上，突显所述标注任务下的已采集数据，包括：对所述正在浏览的页面的html源码进行元素抽取；其中，所述元素的标签包括：<a>、<span>和<p>；在所述元素为叶子结点，且所述元素的内容包括至少一个已采集数据的情况下，在所述正在浏览的页面上，对该元素对应的位置进行突显操作。5.根据权利要求1所述的待标注数据的拾取方法，其特征在于，所述已采集数据包括：图像数据；在所述已采集数据为图像数据的情况下，所述在所述用户正在浏览的...

【专利技术属性】
技术研发人员：柳厅文，谢明轩，王玉斌，谭斌，刘庆云，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人