一种多用户并发处理的数据标注方法技术

技术编号：24169224 阅读：41 留言：0更新日期：2020-05-16 02:24

本发明专利技术公开了一种多用户并发处理的数据标注方法，该方法包括以下步骤：S1提供多种类标注规则的数据标注方案；S1.1基于不同的规则模型生成知识自动化抽取、图像理解、工业词典中文分词数据标注方案；S2根据数据标注流程将获取的多种数据源进行数据标注；S2.1获取标注源数据；S2.2用户数据标注交互；S3进行多用户标注数据的存储；S3.1根据数据源类型向Kafka消息队列相应topic推送，后台定时访问标注数据topic列表，将获取到的数据进行存储；S3.2多用户标注数据统一处理后存储。本发明专利技术的有益效果：本申请基于公司自主研发的数据标注应用平台，面向企业和个人提供了快速、高效、结果精准的工业数据标注和数据存储服务。

A data annotation method for multi-user concurrent processing

全部详细技术资料下载

【技术实现步骤摘要】
一种多用户并发处理的数据标注方法
本专利技术涉及数据标注领域，支持多用户同时进行数据标注并进行标注数据的存储，具体来说，涉及一种多用户并发处理的数据标注方法。
技术介绍
随着人工智能（ArtificialIntelligence）领域的迅速发展，它将人类智能相似的方式做出反应的智能机器，人工智能领域会使用到很多深度学习算法,当前大部分的深度学习还集中在监督式的学习,所以对于很多人工智能领域诸如人脸识别、用户行为分析、智能驾驶等都需要通过数据标注和采集工作来提供海量的训练数据集。北京航天云路公司紧随AI潮流,目前已经形成了一个较完整的人工智能布局,而数据的标注与采集是这一大布局中不可缺少的基础一环，为了解决数据标注与采集领域的数据质量和降低成本两大难点,本公司构建了一个人工数据标注平台,包括标注模块、管理模块以及数据集生成和下载三个模块，利用了大众能力和资源,降低了数据生产成本。
技术实现思路
针对相关技术中的上述技术问题，本专利技术提出一种多用户并发处理的数据标注方法，通过本申请自研的数据标注平台向企业和个人提供稳定、高效、可靠的多用户同时标注的解决方案和实现方法。为实现上述技术目的，本专利技术的技术方案是这样实现的：该方法包括以下步骤：S1提供多种类标注规则的数据标注方案；S1.1基于不同的规则模型生成知识自动化抽取、图像理解、工业词典中文分词数据标注方案；S2根据数据标注流程将获取的多种数据源进行数据标注；S2.1获取标注源数据；S2.2

【技术保护点】
1.一种多用户并发处理的数据标注方法，该方法包括以下步骤：/nS1 提供多种类标注规则的数据标注方案；/nS1.1 基于不同的规则模型生成知识自动化抽取、图像理解、工业词典中文分词数据标注方案；/nS2 根据数据标注流程将获取的多种数据源进行数据标注；/nS2.1 获取标注源数据；/nS2.2 用户数据标注交互；/nS3 进行多用户标注数据的存储；/nS3.1 根据数据源类型向Kafka消息队列相应topic推送，后台定时访问标注数据topic列表，将获取到的数据进行存储；/nS3.2 多用户标注数据统一处理后存储。/n

【技术特征摘要】
1.一种多用户并发处理的数据标注方法，该方法包括以下步骤：
S1提供多种类标注规则的数据标注方案；
S1.1基于不同的规则模型生成知识自动化抽取、图像理解、工业词典中文分词数据标注方案；
S2根据数据标注流程将获取的多种数据源进行数据标注；
S2.1获取标注源数据；
S2.2用户数据标注交互；
S3进行多用户标注数据的存储；
S3.1根据数据源类型向Kafka消息队列相应topic推送，后台定时访问标注数据topic列表，将获取到的数据进行存储；
S3.2多用户标注数据统一处理后存储。

2.根据权利要求1所述的多用户并发处理的数据标注方法，其特征在于，所述S1.1包含以下步骤：
S1.1.1知识自动化抽取是采用联合抽取的方式运用规则模型实现现实体抽取和关系抽取；
S1.1.2图像理解是基于深度学习领域Encoder-Decoder模型获取图片中自动生成的描述性文字；
S1.1.3工业词典中文分词运用开源自然语言处理包HanLp实现工业名词的分词，将获得的工业名词标注区分后判断是否属于工业领域。

3.根据权利要求1所述的多用户并发处理的数据标注方法，其特征在于，所述S2.1包含以下步骤：
S2.1.1获取百度百科文本数据、工业新闻采集数据、工业产品采集数据、专利采集数据、采购商品图片描述数据、工业分词词典数据等标注数据；
S2.1.2采集ElasticSearch集群的存储数据，文本数据、商品图片描述数据及源于Mysql数据库的存储数据；
S2.1.3完成数据标注任务发布后，运用ES-Kafka中间件或Mysql-Kafka中间件的调用将不同数据来源的标注源数据加载到Kafka消息队列中；
S2.1.4用户根据自己的标注任务直接访问Kafka消息队列获取标注源数据。

4.根据权利要求1所述的多用户并发处理的数据标注方法，其特征在于，所述S2.2包含以下步骤：
S2.2.1运用Jsp+JavaScript+Jquery+Bootstrap+svg+Ajax的前端技术框架搭建一套界面简洁明确、用户交互便利、结果反馈直观的用户数据标注交互系统，进行实体关系抽取的数据标注；
S2.2.2在获取的工业文本数据中提炼出实体、关系及实体的中文三元组数据，建立该数据标注的子模块，运用SVG在页面的绘制生成实体和实体与实体之间的关系标注；
用户运用简单的鼠标拖拽选择中文文本标注为BIOES标注实体，通过鼠标右键单击实体可取消当前实体的标注；
用户运用鼠标左键单击实体1标签后再左键单击实体2标签，此时页面会生成实体1和实体2之间的连线，同时标明实体1与实体2间的关系；
S2.2.3根据每一张图片进行工业领域属性判断，运用文本描述图片表达的内容并对其他信息进行补充，生成人工对图片的描述信息；
S2.2.4获取来自HanLp工业词典中文分词进行人工判断，标注该中文分词是否属于工业领域。

5.根据权利要求4所述的多用户并发处理的数据标注方法，其特征在于，所述S2.2.2实体可分别标注为工业实体（industry）、类型(category)、特性(character)、应用领域(apply)、作用(function)，在生成的页面...

【专利技术属性】
技术研发人员：徐汕，张晶亮，梁炬，谢水庚，郝志强，滕源，姜桥，
申请(专利权)人：北京航天云路有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人