待标注数据的拾取方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37786060 阅读:12 留言:0更新日期:2023-06-09 09:16
本发明专利技术公开一种待标注数据的拾取方法、装置、电子设备和存储介质,涉及数据标注领域。所述方法包括:获取用户所参与的标注任务;基于所述标注任务,为所述用户提供用于固定数据的输入格式;在所述用户正在浏览的页面上,突显所述标注任务下的已采集数据,以得到数据捕获区域;通过用户行为确定所述用户在所述数据捕获区域中捕获的网页区域和内容;基于所述输入格式,将所述网页区域和内容传输给数据标注系统。本发明专利技术可以精准完成数据获取和格式校验并同步提交到标注系统,大幅提升标注效率。大幅提升标注效率。大幅提升标注效率。

【技术实现步骤摘要】
待标注数据的拾取方法、装置、电子设备和存储介质


[0001]本专利技术属于数据标注领域,涉及一种待标注数据的拾取方法、装置、电子设备和存储介质。

技术介绍

[0002]随着深度学习技术的快速发展,人工智能的应用融入各行各业,其中计算机视觉技术和自然语言处理技术有很大的应用场景,例如汽车自动驾驶、人脸识别、以图搜图、目标检测、智能问答等。当前计算机视觉和自然语言处理是深度学习领域最热门的两个研究领域,该领域中神经网络的训练需要大量标注数据,随着技术的不断发展,高质量的标注数据有着长期的需求。因此,高效地获取大量高质量标注数据对深度学习模型的落地有十足的推动作用,然而面对不同的应用场景,往往需要不同的标注数据,而这些数据通常也不是现成的,是需要用户手动标注的,现有众多标注系统和方法可以完成数据标注过程,但现有技术中,均未考虑到用户获取未标注数据的过程十分繁琐,往往需要经过爬虫采集再清洗后才可以使用,且有些场景的数据在互联网上并不是广泛分布的,少见的数据会使爬虫批量采集的效率很低,同时增加用户筛选有效数据的时间,造成整个数据标注流程花费过多的时间成本。以专利技术专利“数据标注系统”(授权号CN113407980B)为例,当前的数据标注方法均未考虑到未标注数据的获取问题,而数据获取通常需要爬虫采集互联网相关数据并筛选清洗后才能使用,这样的方法往往无法高效获取到互联网没有广泛分布、不易通过分析结构化网页采集的数据,从数据采集到开始标注要花费大量时间。

技术实现思路

[0003]针对上述问题,为了高效完成数据采集和标注生成高质量标注数据,本专利技术提出一种待标注数据的拾取方法、装置、电子设备和存储介质。本专利技术适用的数据类型包括文本和图像,面对爬虫不易采集的稀疏分布数据,可以精准完成数据获取和格式校验并同步提交到标注系统,大幅提升标注效率。
[0004]为实现上述目的,本专利技术采用如下技术方案:
[0005]一种待标注数据的拾取方法,包括:
[0006]获取用户所参与的标注任务;
[0007]基于所述标注任务,为所述用户提供用于固定数据的输入格式;
[0008]在所述用户正在浏览的页面上,突显所述标注任务下的已采集数据,以得到数据捕获区域;
[0009]通过用户行为确定所述用户在所述数据捕获区域中捕获的网页区域和内容;
[0010]基于所述输入格式,将所述网页区域和内容传输给数据标注系统。
[0011]进一步地,所述获取用户所参与的标注任务之前,还包括:
[0012]验证用户的身份。
[0013]进一步地,所述基于所述标注任务,为所述用户提供用于固定数据的输入格式,包
括:
[0014]获取所述标注任务的任务类型;所述任务类型包括:文本分类、命名实体识别、文本生成、图像分类或跨模态文本生成;
[0015]在所述任务类型为文本分类的情况下,所述输入格式为一条文本;
[0016]在所述任务类型为命名实体识别的情况下,所述输入格式为一条文本;
[0017]在所述任务类型为文本生成的情况下,所述输入格式为两条文本;
[0018]在所述任务类型为图像分类的情况下,所述输入格式为一张图像;
[0019]在所述任务类型为跨模态文本生成的情况下,所述输入格式为两条文本和一张图像;
[0020]或,
[0021]接收所述用户发来的针对所述标注任务的输入格式设定;
[0022]基于所述输入格式设定,生成用于固定数据的输入格式;其中,所述输入格式包括:至少一个文本和/或至少一个图像。
[0023]进一步地,所述已采集数据包括:文本数据;
[0024]所述在所述用户正在浏览的页面上,突显所述标注任务下的已采集数据,包括:
[0025]对所述正在浏览的页面的html源码进行元素抽取;其中,所述元素的标签包括:<a>、<span>和<p>;
[0026]在所述元素为叶子结点,且所述元素的内容包括至少一个已采集数据的情况下,在所述正在浏览的页面上,对该元素对应的位置进行突显操作。
[0027]进一步地,所述已采集数据包括:图像数据;
[0028]在所述已采集数据为图像数据的情况下,所述在所述用户正在浏览的页面上,突显所述标注任务下的已采集数据,包括:
[0029]获取所述用户正在浏览的页面中所有图像url的md5编码;
[0030]在所述已采集数据的md5编码与至少一个图像url的md5编码相同时,则在所述正在浏览的页面上,对该图像对应的位置进行突显操作。
[0031]进一步地,所述通过用户行为确定所述用户在所述数据捕获区域中捕获的网页区域和内容,包括:
[0032]在所述用户使用鼠标划取一段网页区域或内容之后,监测用户是否执行特定动作;其中,所述执行特定动作包括:按下快捷键或点击菜单页;
[0033]在用户执行特定动作的情况下,捕获划取的网页区域或内容。
[0034]进一步地,所述通过用户行为确定所述用户在所述数据捕获区域中捕获的网页区域和内容,包括:
[0035]获取所述用户正在浏览的页面的HTML源码;
[0036]基于用户点击的网页内容,利用所述HTML源码分析光标所在区域的元素在网页DOM中的xpath;
[0037]在所述用户正在浏览的页面中,获取具有相同xpath的位置,并对相应的元素节点内容加高亮,以向用户展示捕获的网页区域和内容。
[0038]一种待标注数据的拾取装置,包括:
[0039]任务选择模块,用于获取用户所参与的标注任务;基于所述标注任务,为所述用户
提供用于固定数据的输入格式;
[0040]数据去重模块,用于在所述用户正在浏览的页面上,突显所述标注任务下的已采集数据,以得到数据捕获区域;
[0041]行为监测模块,用于通过用户行为确定所述用户在所述数据捕获区域中捕获的网页区域和内容;
[0042]数据传输模块,用于基于所述输入格式,将所述网页区域和内容传输给数据标注系统。
[0043]一种电子设备,所述电子设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现上述任一项所述的待标注数据的拾取方法。
[0044]一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述任一项所述的待标注数据的拾取方法。
[0045]与现有技术相比,利用本专利技术提供的插件完成数据采集,具有以下优点:
[0046]1.本插件根据用户行为从互联网采集指定数据,针对结构化网页批量存在的数据和少量数据均可精准采集,快捷高效。
[0047]2.本插件在用户浏览网页时,标记网页中已采集内容,可提醒用户避免重复采集,提升数据采集的有效率。
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种待标注数据的拾取方法,其特征在于,包括:获取用户所参与的标注任务;基于所述标注任务,为所述用户提供用于固定数据的输入格式;在所述用户正在浏览的页面上,突显所述标注任务下的已采集数据,以得到数据捕获区域;通过用户行为确定所述用户在所述数据捕获区域中捕获的网页区域和内容;基于所述输入格式,将所述网页区域和内容传输给数据标注系统。2.根据权利要求1所述的待标注数据的拾取方法,其特征在于,所述获取用户所参与的标注任务之前,还包括:验证用户的身份。3.根据权利要求1所述的待标注数据的拾取方法,其特征在于,所述基于所述标注任务,为所述用户提供用于固定数据的输入格式,包括:获取所述标注任务的任务类型;所述任务类型包括:文本分类、命名实体识别、文本生成、图像分类或跨模态文本生成;在所述任务类型为文本分类的情况下,所述输入格式为一条文本;在所述任务类型为命名实体识别的情况下,所述输入格式为一条文本;在所述任务类型为文本生成的情况下,所述输入格式为两条文本;在所述任务类型为图像分类的情况下,所述输入格式为一张图像;在所述任务类型为跨模态文本生成的情况下,所述输入格式为两条文本和一张图像;或,接收所述用户发来的针对所述标注任务的输入格式设定;基于所述输入格式设定,生成用于固定数据的输入格式;其中,所述输入格式包括:至少一个文本和/或至少一个图像。4.根据权利要求1所述的待标注数据的拾取方法,其特征在于,所述已采集数据包括:文本数据;所述在所述用户正在浏览的页面上,突显所述标注任务下的已采集数据,包括:对所述正在浏览的页面的html源码进行元素抽取;其中,所述元素的标签包括:<a>、<span>和<p>;在所述元素为叶子结点,且所述元素的内容包括至少一个已采集数据的情况下,在所述正在浏览的页面上,对该元素对应的位置进行突显操作。5.根据权利要求1所述的待标注数据的拾取方法,其特征在于,所述已采集数据包括:图像数据;在所述已采集数据为图像数据的情况下,所述在所述用户正在浏览的...

【专利技术属性】
技术研发人员:柳厅文谢明轩王玉斌谭斌刘庆云
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1