当前位置: 首页 > 专利查询>郑州大学专利>正文

用户自定义多模态分布式半自动标注系统技术方案

技术编号:32646127 阅读:41 留言:0更新日期:2022-03-12 18:28
本发明专利技术公开了一种用户自定义多模态分布式半自动标注系统,所述系统包括有管理模块、用户自定义模块、持久化存储模块、WEB交互模块和算法工厂模块;所述管理模块用于对标注任务和系统权限进行管理;所述用户自定义模块用于提供自定义功能的接口;所述持久化存储模块用于系统数据的存储;所述WEB交互模块用于提供可视化界面,完成标注任务;所述算法工厂模块用于为WEB交互模块提供算法支持。本发明专利技术系统中所有标注任务均采用多轮标注进程,且为确保标注质量,多轮标注过程中可分别由不同的人员进行标注,标注完成后由系统可生成标注对比报告,从而可以更好地控制标注质量,同时还可在任务管理界面中实时显示任务进度,进而便于用户进行进度控制。户进行进度控制。户进行进度控制。

【技术实现步骤摘要】
用户自定义多模态分布式半自动标注系统


[0001]本专利技术涉及数据标注
,具体为用户自定义多模态分布式半自动标注系统。

技术介绍

[0002]近些年随着互联网技术的发展,人工智能已深入我们生活中的方方面面——教育、交通、医疗等。其中,深度学习是现有人工智能最重要的组成部分。深度学习需要大量已被预先标注的结构化的数据来支撑模型的优化。虽然现在数据呈爆发式增长,但是其中绝大部分的数据属于半结构化或者非结构化的数据,只有将半结构化或非结构化的数据转化为计算机可以处理的结构化数据,才能够对其进行一系列的科研应用。其中,通过文本标注得到的熟语料是进行命名实体识别、关系自动抽取等相关研究的基础。然而,目前已有的标注完成的高质量语料库十分缺乏,能用于研究的语料库更是屈指可数,已极大的限制了这类研究的发展。而本标注任务是一项极其繁重枯燥的工作,传统的人工标注耗时耗力、成本巨大且质量难以控制,令众多研究者望而却步,导致资源建设进展缓慢。

技术实现思路

[0003]本专利技术的目的在于提供用户自定义多模态分布式半自动标注系统,以解决上述背景本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用户自定义多模态分布式半自动标注系统,其特征在于,所述系统包括有管理模块、用户自定义模块、持久化存储模块、WEB交互模块和算法工厂模块;所述管理模块用于对标注任务和系统权限进行管理;所述用户自定义模块用于提供自定义功能的接口;所述持久化存储模块用于系统数据的存储;所述WEB交互模块用于提供可视化界面,完成标注任务;所述算法工厂模块用于为WEB交互模块提供算法支持。2.根据权利要求1所述的用户自定义多模态分布式半自动标注系统,其特征在于,所述管理模块包括有任务管理单元和用户管理单元;所述任务管理单元用于根据标注任务类型,对所述标注任务进行管理;所述用户管理单元用于设置系统的权限管理。3.根据权利要求2所述的用户自定义多模态分布式半自动标注系统,其特征在于,所述任务管理单元用于根据标注任务类型,对所述标注任务进行管理,具体如下:根据所述标注任务类型,将待标注任务以不同文件格式上传系统;根据所述待标注任务,设置所述待标注任务对应的任务名称、标注类型、所使用的源数据、所属分组和预处理算法;对所述待标注任务进行任务分配,并进行标注。4.根据权利要求1所述的用户自定义多模态分布式半自动标注系统,其特征在于,所述用户自定义模块用于提供自定义功能的接口,具体为:自定义相应的待标注实体和实体之间的关系项;根据待标注任务需求,自定义基于规则或深度学习的命名实体识别算法所需的词典或深度学习模型。5.根据权利要求1所述的用户自定义多模态分布式半自动标注系统,其特征在于,所述WEB交互模块包括有标注单元、数据分析单元、管理单元和辅助标注单元;所述标注单元用于根据标注任务类型,对待标注任务进行标注;所述数据分析单元用于对标注数据进行分析,并根据分析结果,获取标注对比报告;所述管理单元用于对词典文件和训练后的模型文件进行管理;所述辅助标注单元用于提供一击多中、数据导出和直接上传第一轮标注文件。6.根据权利要求5所述的用户自定义多模态分布式半自动标注系统,其特征在于,所述标注对比报告包括有标注文件中各实体项的准确率、召回率和F值,具体如下:标注对比报告包括有标注文...

【专利技术属性】
技术研发人员:张坤丽胡斌昝红英代东明桂明宇宋玉赵旭
申请(专利权)人:郑州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1