一种多用户并发处理的数据标注方法技术

技术编号:24169224 阅读:41 留言:0更新日期:2020-05-16 02:24
本发明专利技术公开了一种多用户并发处理的数据标注方法,该方法包括以下步骤:S1提供多种类标注规则的数据标注方案;S1.1基于不同的规则模型生成知识自动化抽取、图像理解、工业词典中文分词数据标注方案;S2根据数据标注流程将获取的多种数据源进行数据标注;S2.1获取标注源数据;S2.2用户数据标注交互;S3进行多用户标注数据的存储;S3.1根据数据源类型向Kafka消息队列相应topic推送,后台定时访问标注数据topic列表,将获取到的数据进行存储;S3.2多用户标注数据统一处理后存储。本发明专利技术的有益效果:本申请基于公司自主研发的数据标注应用平台,面向企业和个人提供了快速、高效、结果精准的工业数据标注和数据存储服务。

A data annotation method for multi-user concurrent processing

【技术实现步骤摘要】
一种多用户并发处理的数据标注方法
本专利技术涉及数据标注领域,支持多用户同时进行数据标注并进行标注数据的存储,具体来说,涉及一种多用户并发处理的数据标注方法。
技术介绍
随着人工智能(ArtificialIntelligence)领域的迅速发展,它将人类智能相似的方式做出反应的智能机器,人工智能领域会使用到很多深度学习算法,当前大部分的深度学习还集中在监督式的学习,所以对于很多人工智能领域诸如人脸识别、用户行为分析、智能驾驶等都需要通过数据标注和采集工作来提供海量的训练数据集。北京航天云路公司紧随AI潮流,目前已经形成了一个较完整的人工智能布局,而数据的标注与采集是这一大布局中不可缺少的基础一环,为了解决数据标注与采集领域的数据质量和降低成本两大难点,本公司构建了一个人工数据标注平台,包括标注模块、管理模块以及数据集生成和下载三个模块,利用了大众能力和资源,降低了数据生产成本。
技术实现思路
针对相关技术中的上述技术问题,本专利技术提出一种多用户并发处理的数据标注方法,通过本申请自研的数据标注平台向企业和个人提供稳定、高效、可靠的多用户同时标注的解决方案和实现方法。为实现上述技术目的,本专利技术的技术方案是这样实现的:该方法包括以下步骤:S1提供多种类标注规则的数据标注方案;S1.1基于不同的规则模型生成知识自动化抽取、图像理解、工业词典中文分词数据标注方案;S2根据数据标注流程将获取的多种数据源进行数据标注;S2.1获取标注源数据;S2.2用户数据标注交互;S3进行多用户标注数据的存储;S3.1根据标注的数据源类型向Kafka消息队列相应topic推送,后台定时访问标注数据topic列表,将获取到的数据进行存储;S3.2多用户标注数据统一处理后存储。进一步地,所述S1.1包含以下步骤:S1.1.1知识自动化抽取是采用联合抽取的方式运用规则模型实现现实体抽取和关系抽取;S1.1.2图像理解是基于深度学习领域Encoder-Decoder模型获取图片中自动生成的描述性文字;S1.1.3工业词典中文分词运用开源自然语言处理包HanLp实现工业名词的分词,将获得的工业名词标注区分后判断是否属于工业领域。进一步地,所述S2.1包含以下步骤:S2.1.1获取百度百科文本数据、工业新闻采集数据、工业产品采集数据、专利采集数据、采购商品图片描述数据、工业分词词典数据等标注数据;S2.1.2采集ElasticSearch集群的存储数据,文本数据、商品图片描述数据及源于Mysql数据库的存储数据;S2.1.3完成数据标注任务发布后,运用ES-Kafka中间件或Mysql-Kafka中间件的调用将不同数据来源的标注源数据加载到Kafka消息队列中;S2.1.4用户根据自己的标注任务直接访问Kafka消息队列获取标注源数据。进一步地,所述S2.2包含以下步骤:S2.2.1运用Jsp+JavaScript+Jquery+Bootstrap+svg+Ajax的前端技术框架搭建一套界面简洁明确、用户交互便利、结果反馈直观的用户数据标注交互系统,进行实体关系抽取的数据标注;S2.2.2在获取的工业文本数据中提炼出实体、关系及实体的中文三元组数据,建立该数据标注的子模块,运用SVG在页面的绘制生成实体和实体与实体之间的关系标注;用户运用简单的鼠标拖拽选择中文文本标注为BIOES标注实体,通过鼠标右键单击实体可取消当前实体的标注;用户运用鼠标左键单击实体1标签后再左键单击实体2标签,此时页面会生成实体1和实体2之间的连线,同时标明实体1与实体2间的关系。S2.2.3根据每一张图片进行工业领域属性判断,运用文本描述图片表达的内容并对其他信息进行补充,生成人工对图片的描述信息;S2.2.4获取来自HanLp工业词典中文分词进行人工判断,标注该中文分词是否属于工业领域。进一步地,所述S2.2.2实体可分别标注为工业实体(industry)、类型(category)、特性(character)、应用领域(apply)、作用(function),在生成的页面上运用CSS选择器匹配不同实体类型的id对于不同类型的工业实体以不同颜色标记实体标签。进一步地,所述S2.2.2实体之间的关系可标注为别称(alias)、特性(character)、作用(function)、组成(composition)、类别(category)、应用(apply)。进一步地,所述S2.2.3用户获取页面图像描述源数据如:图片名、图片url、图片描述等,判断图片是否属于工业领域,同时,录入对图片的核心描述。进一步地,S3.1.1用户完成标记后提交标记数据到后台由Kafka消息队列获取,根据标注任务的标注规则和标注数据来源确定标注数据放在消息队列的某一Topic下,同时,会通知Kafka-Mysql中间件对Kafka中的该topic标注数据进行消费并存储到mysql中;在新的标注数据topic生成时,Kafka-Mysql中间件将该topic生成一个集合,中间件会在一段时间内,多线程不断轮询topic集合中的标注数据集topic,当某一topic获取数据时运用Service层中的处理方法将获取的标注数据处理后写入Mysql数据库进行存储;S3.1.2针对多用户标注数据进行关联,相对同一源数据支持多用户同时标注,并在标注数据相关表中进行存储,存储的标注用户标识为统一字段。进一步地,所述S3.1.2包含以下内容:所述实体关系标注数据是运用四张表进行完成关联标注,标注信息表(master_annot表)运用唯一确定的resource_id字段与实体关系标注源数据信息表(master表)关联,在进行人工审核标注数据,将标注数据信息表进一步关联文本数据表(text)从而获取标注文本,其他标注数据表通过master_annot_id字段与标注信息表进行关联;图像描述标注数据是运用图片标注数据表(picture_annot表)进行存储,该图片标注数据表pic_id字段与图片源数据表(picture表)进行关联;工业实体标注数据运用industry_dictionary_annot表进行存储,该图片标注数据表通过entity_id字段与工业实体源数据表industry_dictionary表进行关联。进一步地,所述S3.2包含以下步骤:S3.2.1实体关系标注数据运用master_annot表、entity表、entity_relationship表、entity_index表分别插入存储;S3.2.2图像描述的标注数据存储在picture_annot表,对于图片的补充描述会在Service层统一转换为{text1:“”,text2:“”...,text5:“”}的json字符串格式存储于该表的Info字段;S3.2.3.工业实体标注数据存储在industry_dictionary_annot表,该表存储工业实体的label字段。...

【技术保护点】
1.一种多用户并发处理的数据标注方法,该方法包括以下步骤:/nS1 提供多种类标注规则的数据标注方案;/nS1.1 基于不同的规则模型生成知识自动化抽取、图像理解、工业词典中文分词数据标注方案;/nS2 根据数据标注流程将获取的多种数据源进行数据标注;/nS2.1 获取标注源数据;/nS2.2 用户数据标注交互;/nS3 进行多用户标注数据的存储;/nS3.1 根据数据源类型向Kafka消息队列相应topic推送,后台定时访问标注数据topic列表,将获取到的数据进行存储;/nS3.2 多用户标注数据统一处理后存储。/n

【技术特征摘要】
1.一种多用户并发处理的数据标注方法,该方法包括以下步骤:
S1提供多种类标注规则的数据标注方案;
S1.1基于不同的规则模型生成知识自动化抽取、图像理解、工业词典中文分词数据标注方案;
S2根据数据标注流程将获取的多种数据源进行数据标注;
S2.1获取标注源数据;
S2.2用户数据标注交互;
S3进行多用户标注数据的存储;
S3.1根据数据源类型向Kafka消息队列相应topic推送,后台定时访问标注数据topic列表,将获取到的数据进行存储;
S3.2多用户标注数据统一处理后存储。


2.根据权利要求1所述的多用户并发处理的数据标注方法,其特征在于,所述S1.1包含以下步骤:
S1.1.1知识自动化抽取是采用联合抽取的方式运用规则模型实现现实体抽取和关系抽取;
S1.1.2图像理解是基于深度学习领域Encoder-Decoder模型获取图片中自动生成的描述性文字;
S1.1.3工业词典中文分词运用开源自然语言处理包HanLp实现工业名词的分词,将获得的工业名词标注区分后判断是否属于工业领域。


3.根据权利要求1所述的多用户并发处理的数据标注方法,其特征在于,所述S2.1包含以下步骤:
S2.1.1获取百度百科文本数据、工业新闻采集数据、工业产品采集数据、专利采集数据、采购商品图片描述数据、工业分词词典数据等标注数据;
S2.1.2采集ElasticSearch集群的存储数据,文本数据、商品图片描述数据及源于Mysql数据库的存储数据;
S2.1.3完成数据标注任务发布后,运用ES-Kafka中间件或Mysql-Kafka中间件的调用将不同数据来源的标注源数据加载到Kafka消息队列中;
S2.1.4用户根据自己的标注任务直接访问Kafka消息队列获取标注源数据。


4.根据权利要求1所述的多用户并发处理的数据标注方法,其特征在于,所述S2.2包含以下步骤:
S2.2.1运用Jsp+JavaScript+Jquery+Bootstrap+svg+Ajax的前端技术框架搭建一套界面简洁明确、用户交互便利、结果反馈直观的用户数据标注交互系统,进行实体关系抽取的数据标注;
S2.2.2在获取的工业文本数据中提炼出实体、关系及实体的中文三元组数据,建立该数据标注的子模块,运用SVG在页面的绘制生成实体和实体与实体之间的关系标注;
用户运用简单的鼠标拖拽选择中文文本标注为BIOES标注实体,通过鼠标右键单击实体可取消当前实体的标注;
用户运用鼠标左键单击实体1标签后再左键单击实体2标签,此时页面会生成实体1和实体2之间的连线,同时标明实体1与实体2间的关系;
S2.2.3根据每一张图片进行工业领域属性判断,运用文本描述图片表达的内容并对其他信息进行补充,生成人工对图片的描述信息;
S2.2.4获取来自HanLp工业词典中文分词进行人工判断,标注该中文分词是否属于工业领域。


5.根据权利要求4所述的多用户并发处理的数据标注方法,其特征在于,所述S2.2.2实体可分别标注为工业实体(industry)、类型(category)、特性(character)、应用领域(apply)、作用(function),在生成的页面...

【专利技术属性】
技术研发人员:徐汕张晶亮梁炬谢水庚郝志强滕源姜桥
申请(专利权)人:北京航天云路有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1