数据标注的方法、装置、设备及存储介质制造方法及图纸

技术编号:34174501 阅读:31 留言:0更新日期:2022-07-17 11:35
本申请涉及人工智能技术领域,本申请公开了一种数据标注的方法、装置、设备及存储介质,通过将待标注文件对应的操作类捕捉数据、视觉类捕捉数据和语音类捕捉数据进行向量化,得到操作类标注文件、视觉类标注文件和语音类标注文件;利用数据标注模型对操作类标注文件、视觉类标注文件和语音类标注文件之间的进行语义相似度挖掘,并缩减各标注文件之间欧氏距离,得到初级标注文件;根据初级标注文件中字符跳转关系集合进行分类,得到具有有效字符跳转关系集合的最终标注文件,通过利用数据标注模型,从而提高数据标注的最终标注文件在下游分类任务的准确率。分类任务的准确率。分类任务的准确率。

Method, device, equipment and storage medium of data annotation

【技术实现步骤摘要】
数据标注的方法、装置、设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种数据标注的方法、装置、计算机设备及存储介质。

技术介绍

[0002]数据标注是有监督学习的前提,高质量的标注是有监督模型效果的保障,目前使用的标注系统和任务强绑定的,这使得大量的标注在具体任务上可以达到一定的效果,而更换新的任务时,原标注的数据则会出现大量偏差。在智能医疗领域,数据需要通过医师进行标注,从而完成特定的标注系统设计,如现有技术医学中的命名实体识别(MER),通过让医师标注者过度重视数据标注,忽略了医师在临床判断中具体所关注的数据,从而导致数据标注的结果和诊断思路具有差异,造成模型所学习到的诊断思路的分类判断准确度较低,进而导致所标注数据,在下游任务中的准确率较低。

技术实现思路

[0003]本申请提供一种数据标注的方法、装置、计算机设备及存储介质,解决了现有技术中所标注的数据标注,在下游的分类任务中的准确率不足的问题。
[0004]第一方面,本申请实施例提供了一种数据标注的方法,包括:
[0005]根据待标注文件将所述待标注文件对应的操作类捕捉数据、视觉类捕捉数据和语音类捕捉数据转化为向量化的操作类标注文件、视觉类标注文件和语音类标注文件;
[0006]通过数据标注模型挖掘所述操作类标注文件、所述视觉类标注文件和所述语音类标注文件之间的语义相似度,缩短所述操作类标注文件、所述视觉类标注文件和所述语音类标注文件之间的欧式距离,得到初级标注文件;
[0007]将所述初级标注文件中字符跳转关系集合进行分类,得到具有有效字符跳转关系集合的最终标注文件。
[0008]第二方面,本申请实施例还提供了一种数据标注的装置,包括:
[0009]向量化模块,根据待标注文件将所述待标注文件对应的操作类捕捉数据、视觉类捕捉数据和语音类捕捉数据转化为向量化的操作类标注文件、视觉类标注文件和语音类标注文件;
[0010]语义标注模块,通过数据标注模型挖掘所述操作类标注文件、所述视觉类标注文件和所述语音类标注文件之间的语义相似度,缩短所述操作类标注文件、所述视觉类标注文件和所述语音类标注文件之间的欧式距离,得到初级标注文件;
[0011]关联标记模块,将所述初级标注文件中字符跳转关系集合进行分类,得到具有有效字符跳转关系集合的最终标注文件。
[0012]第三方面,本申请实施例还提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据标注的方法的步骤。
[0013]第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据标注的方法的步骤。
[0014]本申请提供的数据标注的方法、装置、计算机设备及存储介质,其中,一种数据标注的方法,通过将待标注文件对应的操作类捕捉数据、视觉类捕捉数据和语音类捕捉数据进行向量化,得到操作类标注文件、视觉类标注文件和语音类标注文件;利用数据标注模型对操作类标注文件、视觉类标注文件和语音类标注文件之间的进行语义相似度挖掘,并缩减各标注文件之间欧氏距离,得到初级标注文件;根据初级标注文件中字符跳转关系集合进行分类,得到具有有效字符跳转关系集合的最终标注文件,通过利用数据标注模型,从而提高数据标注的最终标注文件在下游分类任务的准确率。
附图说明
[0015]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0016]图1是本申请一实施例提供的一种数据标注的方法的应用环境示意图;
[0017]图2是本申请一实施例提供的一种数据标注的方法的实现流程图;
[0018]图3是本申请一实施例提供的一种数据标注的方法中步骤S20的流程图;
[0019]图4是本申请一实施例提供的数据标注的装置的结构示意图;
[0020]图5是本申请一实施例提供的计算机设备的示意图。
具体实施方式
[0021]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0022]本申请实施例提供的数据标注的方法,可应用在如图1示出的应用环境中。如图1所示,客户端(计算机设备)通过网络与服务器进行通信。其中,客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0023]本实施例提供的数据标注的方法可以由服务端执行,例如,通过客户端将待标注信息发送至服务端,服务端基于该待标注信息,执行本实施例提供的数据标注的方法,进而得到数据标注处理后的最终标注文件,最后将该最终标注文件发送至客户端。
[0024]在图1之外的一些场景中,还可以是由客户端执行该数据标注的方法,直接根据客户端的待标注信息,通过执行本实施例提供的数据标注的方法,得到数据标注处理后的最终标注文件,然后将该最终标注文件发送至服务端进行存储。
[0025]本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0026]人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0027]图2示出了本申请一实施例提供的数据标注的方法的实现流程图。如图2所示,提供一种数据标注的方法,其技术方案主要包括以下步骤S10

S30:
[0028]步骤S10,根据待标注文件将所述待标注文件对应的操作类捕捉数据、视觉类捕捉数据和语音类捕捉数据转化为向量化的操作类标注文件、视觉类标注文件和语音类标注文件。
[0029]在步骤S10中,通过捕捉用户在待标注文件进行阅读或浏览时的行为,进保证用户处于正常阅读或浏览时的环境下,更准确的获取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据标注的方法,其特征在于,包括:根据待标注文件将所述待标注文件对应的操作类捕捉数据、视觉类捕捉数据和语音类捕捉数据转化为向量化的操作类标注文件、视觉类标注文件和语音类标注文件;通过数据标注模型挖掘所述操作类标注文件、所述视觉类标注文件和所述语音类标注文件之间的语义相似度,缩短所述操作类标注文件、所述视觉类标注文件和所述语音类标注文件之间的欧式距离,得到初级标注文件;将所述初级标注文件中字符跳转关系集合进行分类,得到具有有效字符跳转关系集合的最终标注文件。2.如权利要求1所述数据标注的方法,其特征在于,所述根据待标注文件将所述待标注文件对应的操作类捕捉数据、视觉类捕捉数据和语音类捕捉数据转化为向量化的操作类标注文件、视觉类标注文件和语音类标注文件,包括:将所述操作类捕捉数据转化为包括字符向量、操作类字符权重数据和操作类字符跳转关系的所述操作类标注文件;将所述视觉类捕捉数据转化为包括所述字符向量、视觉类字符权重数据和视觉类字符跳转关系的所述视觉类标注文件;将所述语音类捕捉数据转化为包括所述字符向量、语音类字符权重数据和语音类字符跳转关系的所述语音类标注文件。3.如权利要求2所述数据标注的方法,其特征在于,所述通过数据标注模型挖掘所述操作类标注文件、所述视觉类标注文件和所述语音类标注文件之间的语义相似度,缩短所述操作类标注文件、所述视觉类标注文件和所述语音类标注文件之间的欧式距离,得到初级标注文件,包括:根据所述字符向量匹配对应的所述操作类字符权重数据、所述视觉类字符权重数据和所述语音类字符权重数据,并利用所述所述数据标注模型挖掘所述操作类标注文件、所述视觉类标注文件和所述语音类标注文件之间的语义相似度;计算所述操作类标注文件、所述视觉类标注文件和所述语音类标注文件之间的欧式距离值;若所述欧式距离值大于预设欧式距离阈值,通过欧氏距离缩短策略缩短所述操作类标注文件、所述视觉类标注文件和所述语音类标注文件之间的欧式距离;若所述欧式距离值小于等于预设欧式距离阈值,输出所述初级标注文件。4.如权利要求2所述数据标注的方法,其特征在于,所述将所述初级标注文件中字符跳转关系集合进行分类,得到具有有效字符跳转关系集合的最终标注文件,包括:根据所述字符向量匹配对应的所述操作类字符跳转关系、所述视觉类字符跳转关系和所述语音类字符跳转关系,在所述语义相似度的挖掘处理后整合为所述字符跳转关系集合;通过所述数据标注模型将初级标注文件的所述字符跳转关系集合中的字符跳转关系进行分类,筛选出有效字符跳转关系作为...

【专利技术属性】
技术研发人员:胡意仪阮晓雯陈远旭
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1