一种专业领域智能化众包标注方法和系统技术方案

技术编号:34752680 阅读:16 留言:0更新日期:2022-08-31 18:48
本申请提供了一种专业领域智能化众包标注方法和系统。本申请通过目标数据建立标注页面的交互界面,根据专业领域匹配匹配规则对目标数据进行标注,并根据标注验收信息调整标注数据再发至项目发起端,标注数据可用于进行下游服务或研究,也可用于训练自然语言预标注模型为后续同类型标注项目提供预标注依据。本申请的专业领域智能化众包标注方法支持涵盖图像、文字等全维度的数据格式,针对专业领域数据标注任务进行客制化和性能优化,增强专利领域数据标注的专业关联度和准确性。域数据标注的专业关联度和准确性。域数据标注的专业关联度和准确性。

【技术实现步骤摘要】
一种专业领域智能化众包标注方法和系统


[0001]本申请属于数据标注
,更具体的,涉及一种专业领域智能化众包标注方法和系统。

技术介绍

[0002]随着大数据时代来临、人工智能兴起,众多单位作为数据持有者或者数据应用中的一环,往往需要一个数据标注平台和大量人力资源为其提供数据标注服务,尤其是针对一些科研型机构更是需要专业领域的人才和团队提供更专业的高质量标注数据。
[0003]然而,目前市场上应用的数据标注平台,其文本标注方式主要为通识的中文语法标注,未对专业领域做任何的优化,导致普遍存在标注质量低、标注数据专业性不强的缺点,无法提供专业化的工具和流程去保证高质量专业化的标注,不能满足这些专业机构的标注需求。

技术实现思路

[0004]有鉴于此,本申请提供了一种专业领域智能化众包标注方法和系统,解决现有技术中针对专业领域的数据标注方法专业关联程度弱、准确性差的技术问题。
[0005]本申请的具体技术方案如下:本申请提供一种专业领域智能化众包标注方法,包括如下步骤:接收项目发起端的目标数据,根据目标数据创建标注标签生成标注项目,根据标注项目信息建立页面的交互界面;获取目标数据的专业领域,根据专业领域的信息匹配规则对目标数据进行标注,将完成的标注结果发至项目发起端;接收来自项目发起端的验收反馈,若通过验收则发送标注数据至项目发起端,若未通过验收则将反馈错误信息至标注人员,标注人员重新生成标注数据再发至项目发起端。
[0006]进一步的,根据目标数据创建标注标签生成标注项目具体为:获取目标数据的领域设置参数,生成目标数据的相关领域标签;获取来自项目发起端的领域标签设置,根据相关领域标签与领域标签设置的匹配度生成专业领域标签;生成包含专业领域标签、标注文本和批注列表的标注项目版块。
[0007]进一步的,根据标注项目信息建立标注页面的交互界面具体为:当专业领域标签处于激活状态时,对选中的标注文本进行提取生成标注文本内容并对标注文本内容进行预设的标记颜色展示;当识别到鼠标悬停在标注文本内容上时展示专业领域标签名称;当标注题目被选中时,在接收到专业领域标签的关闭信号后取消相应的标注文本内容的标记颜色。
[0008]进一步的,根据标注项目信息建立标注页面的交互界面具体为:当开启批量标注设置时,采集标注文本内容数据中的关键字段,根据关键字段在目标数据中搜索所有相同的字段信息并同时设置为标注文本内容。
[0009]进一步的,还包括:采集标注文本内容中的数据类型,根据数据类型获取相关领域标注模型;根据标注文本内容中的关键字段信息和阈值设定信息获取历史标注数据对相关领域标注模型进行学习训练并以此为模型对目标数据进行预标注。
[0010]进一步的,还包括:根据标注文本内容建立标注文本内容文件保存至业务数据库,用于获取标注业务数据,以及对标注中间数据进行缓存和回溯;将标注数据转化为预设数据格式保存至标注内容数据库,用于获取标注训练数据,以及供项目发起端下载。
[0011]进一步的,还包括:根据目标数据的标注结果获取历史标注题目信息和验收信息,根据标注结果、标注题目与验收信息的逻辑关系建立审核模型;对生成的标注结果采用审核模型进行标注准确性审核;若通过审核则发送标注结果至项目发起端,若未通过审核则将差异数据进行反馈,根据差异数据调整信息匹配规则生成新的标注结果。
[0012]进一步的,未通过验收则将反馈错误信息至标注人员具体为:对待验收的标注文本内容进行选定,创建正确的专业领域标签对其进行标注;同步正确的专业领域标签信息和相应的标注题目至批注列表中;接收来自项目发起端的批注列表信息并反馈至标注人员。
[0013]进一步的,还包括:获取来自项目发起端的标签规则集,规则的数据结构包括规则文本和标注数据结构;将规则集中的规则按照规则文本长度排序,针对每个标注题目新建一个错误标注集合;在遍历每个规则的过程中,在标注文本中找到当前规则文本的所有位置并确定落在此文本段落中的当前标注三元组集合;将正确标注和遗漏标注与题目错误标注中的标注一一对比,筛选出题目错误标注集合并输出所有题目错误标注集合不为空的标注题目。
[0014]本申请还提供一种专业领域智能化众包标注系统,包括业务交互模块,标注内容数据API模块以及验收判断模块;业务交互模块:用于收项目发起端的目标数据,根据目标数据创建标注标签生成标注项目,根据标注项目信息建立标注页面的交互界面;标注内容数据API模块:用于获取目标数据的专业领域,根据专业领域的信息匹配规则对目标数据进行标注,将完成的标注结果发至项目发起端;验收判断模块:用于接收来自项目发起端的验收反馈,若通过验收则发送标注数据至项目发起端,若未通过验收则将反馈错误信息至标注人员,标注人员重新生成标注数
据再发至项目发起端。
[0015]综上所述,本申请提供了一种专业领域智能化众包标注方法和系统。本申请通过目标数据建立标注页面的交互界面,根据专业领域匹配匹配规则对目标数据进行标注,并根据标注验收信息调整标注数据再发至项目发起端,标注数据可用于进行下游服务或研究,也可用于训练自然语言预标注模型为后续同类型标注项目提供预标注依据。本申请的专业领域智能化众包标注方法支持涵盖图像、文字等全维度的数据格式,针对专业领域数据标注任务进行客制化和性能优化,增强专利领域数据标注的专业关联度和准确性。
附图说明
[0016]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0017]图1为本申请一种专业领域智能化众包标注方法的流程图;图2为本申请一种专业领域智能化众包标注系统的框图。
具体实施方式
[0018]为使得本申请的目的、特征、优点能够更加的明显和易懂,对本申请实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本申请一部分实施例,而非全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0019]请参照图1,图1为本申请一种专业领域智能化众包标注方法的流程图。
[0020]本申请实施例提供一种专业领域智能化众包标注方法,包括如下步骤:S102:接收项目发起端的目标数据,根据目标数据创建标注标签生成标注项目,根据标注项目信息建立标注页面的交互界面;S104:获取目标数据的专业领域,根据专业领域的信息匹配规则对目标数据进行标注,将完成的标注结果发至项目发起端;S108:接收来自项目发起端的验收反馈,若通过验收则发送标注数据至项目发起端,若未通过验收则将反馈错误信息至标注人员,标注人员重新生成标注数据再发至项目发起端。
[0021]需要说明的是,目标数据涵盖图像、文字等全维度的数据格式。标注标签可由项目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种专业领域智能化众包标注方法,其特征在于,包括如下步骤:接收项目发起端的目标数据,根据目标数据创建标注标签生成标注项目,根据标注项目信息建立标注页面的交互界面;获取目标数据的专业领域,根据专业领域的信息匹配规则对目标数据进行标注,将完成的标注结果发至项目发起端;接收来自项目发起端的验收反馈,若通过验收则发送标注数据至项目发起端,若未通过验收则将反馈错误信息至标注人员,标注人员重新生成标注数据再发至项目发起端。2.根据权利要求1所述的专业领域智能化众包标注方法,其特征在于,根据目标数据创建标注标签生成标注项目具体为:获取目标数据的领域设置参数,生成目标数据的相关领域标签;获取来自项目发起端的领域标签设置,根据相关领域标签与领域标签设置的匹配度生成专业领域标签;生成包含专业领域标签、标注文本和批注列表的标注项目版块。3.根据权利要求1所述的专业领域智能化众包标注方法,其特征在于,根据标注项目信息建立标注页面的交互界面具体为:当专业领域标签处于激活状态时,对选中的标注文本进行提取生成标注文本内容并对标注文本内容进行预设的标记颜色展示;当识别到鼠标悬停在标注文本内容上时展示专业领域标签名称;当标注题目被选中时,在接收到专业领域标签的关闭信号后取消相应的标注文本内容的标记颜色。4.根据权利要求1所述的专业领域智能化众包标注方法,其特征在于,根据标注项目信息建立标注页面的交互界面具体为:当开启批量标注设置时,采集标注文本内容数据中的关键字段,根据关键字段在目标数据中搜索所有相同的字段信息并同时设置为标注文本内容。5.根据权利要求1所述的专业领域智能化众包标注方法,其特征在于,还包括:采集标注文本内容中的数据类型,根据数据类型获取相关领域标注模型;根据标注文本内容中的关键字段信息和阈值设定信息获取历史标注数据对相关领域标注模型进行学习训练并以此为模型对目标数据进行预标注。6.根据权利要求1所述的专业领域智能化众包标注方法,其特征在于,还包括:根据标注文本内容建立标注文本内容文件保存至业务数据库,用于获取标注业务数据,以及对标注...

【专利技术属性】
技术研发人员:赵彦博徐盛
申请(专利权)人:翼健上海信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1