【技术实现步骤摘要】
数据标注的方法、装置、设备及存储介质
[0001]本申请涉及人工智能
,尤其涉及一种数据标注的方法、装置、计算机设备及存储介质。
技术介绍
[0002]数据标注是有监督学习的前提,高质量的标注是有监督模型效果的保障,目前使用的标注系统和任务强绑定的,这使得大量的标注在具体任务上可以达到一定的效果,而更换新的任务时,原标注的数据则会出现大量偏差。在智能医疗领域,数据需要通过医师进行标注,从而完成特定的标注系统设计,如现有技术医学中的命名实体识别(MER),通过让医师标注者过度重视数据标注,忽略了医师在临床判断中具体所关注的数据,从而导致数据标注的结果和诊断思路具有差异,造成模型所学习到的诊断思路的分类判断准确度较低,进而导致所标注数据,在下游任务中的准确率较低。
技术实现思路
[0003]本申请提供一种数据标注的方法、装置、计算机设备及存储介质,解决了现有技术中所标注的数据标注,在下游的分类任务中的准确率不足的问题。
[0004]第一方面,本申请实施例提供了一种数据标注的方法,包括:
[0 ...
【技术保护点】
【技术特征摘要】
1.一种数据标注的方法,其特征在于,包括:根据待标注文件将所述待标注文件对应的操作类捕捉数据、视觉类捕捉数据和语音类捕捉数据转化为向量化的操作类标注文件、视觉类标注文件和语音类标注文件;通过数据标注模型挖掘所述操作类标注文件、所述视觉类标注文件和所述语音类标注文件之间的语义相似度,缩短所述操作类标注文件、所述视觉类标注文件和所述语音类标注文件之间的欧式距离,得到初级标注文件;将所述初级标注文件中字符跳转关系集合进行分类,得到具有有效字符跳转关系集合的最终标注文件。2.如权利要求1所述数据标注的方法,其特征在于,所述根据待标注文件将所述待标注文件对应的操作类捕捉数据、视觉类捕捉数据和语音类捕捉数据转化为向量化的操作类标注文件、视觉类标注文件和语音类标注文件,包括:将所述操作类捕捉数据转化为包括字符向量、操作类字符权重数据和操作类字符跳转关系的所述操作类标注文件;将所述视觉类捕捉数据转化为包括所述字符向量、视觉类字符权重数据和视觉类字符跳转关系的所述视觉类标注文件;将所述语音类捕捉数据转化为包括所述字符向量、语音类字符权重数据和语音类字符跳转关系的所述语音类标注文件。3.如权利要求2所述数据标注的方法,其特征在于,所述通过数据标注模型挖掘所述操作类标注文件、所述视觉类标注文件和所述语音类标注文件之间的语义相似度,缩短所述操作类标注文件、所述视觉类标注文件和所述语音类标注文件之间的欧式距离,得到初级标注文件,包括:根据所述字符向量匹配对应的所述操作类字符权重数据、所述视觉类字符权重数据和所述语音类字符权重数据,并利用所述所述数据标注模型挖掘所述操作类标注文件、所述视觉类标注文件和所述语音类标注文件之间的语义相似度;计算所述操作类标注文件、所述视觉类标注文件和所述语音类标注文件之间的欧式距离值;若所述欧式距离值大于预设欧式距离阈值,通过欧氏距离缩短策略缩短所述操作类标注文件、所述视觉类标注文件和所述语音类标注文件之间的欧式距离;若所述欧式距离值小于等于预设欧式距离阈值,输出所述初级标注文件。4.如权利要求2所述数据标注的方法,其特征在于,所述将所述初级标注文件中字符跳转关系集合进行分类,得到具有有效字符跳转关系集合的最终标注文件,包括:根据所述字符向量匹配对应的所述操作类字符跳转关系、所述视觉类字符跳转关系和所述语音类字符跳转关系,在所述语义相似度的挖掘处理后整合为所述字符跳转关系集合;通过所述数据标注模型将初级标注文件的所述字符跳转关系集合中的字符跳转关系进行分类,筛选出有效字符跳转关系作为...
【专利技术属性】
技术研发人员:胡意仪,阮晓雯,陈远旭,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。