一种标注数据的扩充方法、装置及电子设备制造方法及图纸

技术编号:37138902 阅读:29 留言:0更新日期:2023-04-06 21:41
本发明专利技术实施例提供了一种标注数据的扩充方法、装置及电子设备,涉及知识图谱技术领域。该方法包括:获取待扩充的各个基础标注数据,并确定预设的属于各类元素的各个替换数据;针对每个基础标注数据,确定该基础标注数据所包括的各组替换内容;针对每组替换内容,在各个替换数据中确定多组与该组替换内容相匹配的目标内容;针对每组目标内容,利用该组目标内容中的各个目标数据,替换与该组目标内容对应的替换内容所在的基础标注数据中,属于该组替换内容且与该目标数据相匹配的基础数据,得到目标标注数据。与现有技术相比,应用本发明专利技术实施例提供的方案,可以实现利用较少的人工标注的标注数据,对标注数据进行扩充,以得到大量的标注数据。的标注数据。的标注数据。

【技术实现步骤摘要】
一种标注数据的扩充方法、装置及电子设备


[0001]本专利技术涉及知识图谱
,特别是涉及一种标注数据的扩充方法、装置及电子设备。

技术介绍

[0002]知识图谱是一种包括节点和边的知识网络。其中,节点代表实体,边代表所连接的实体之间的关系,并且,实体和关系往往还可以具有多个属性。
[0003]相关技术中,在构建非结构化数据的知识图谱时,通常可以利用基于有监督的深度学习算法的知识抽取模型,从该非结构化数据中抽取实体元素、属性元素和表征两个实体元素之间关系的关系元素,进而,利用所抽取到的元素构建知识图谱。其中,上述各类元素的抽取过程可以称为知识抽取。
[0004]在上述相关技术中,需要准备大量的标注数据用于训练知识抽取模型,每个标注数据包括数据内容和标注内容。其中,数据内容包括:实体元素、属性元素和表示两个实体之间关系的文本数据中的至少一类数据;标注内容包括:实体元素所属的实体子类型、属性元素所属的属性子类型和关系元素所属的关系子类型,其中,标注内容中的关系元素所属的关系子类型是指:数据内容中表示两个实体之间关系的文本数据所对本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种标注数据的扩充方法,其特征在于,所述方法包括:获取待扩充的各个基础标注数据,并确定预设的属于各类元素的各个替换数据;其中,每个替换数据标注有所属的元素类型和该元素类型下的子类型;针对每个基础标注数据,确定该基础标注数据所包括的各组替换内容;其中,每组替换内容包括:该基础标注数据中待替换的实体元素、属性元素和关系元素所属的关系子类型中的至少一个基础数据,且各组替换内容不完全相同;针对每组替换内容,在所述各个替换数据中确定多组与该组替换内容相匹配的目标内容;其中,每组目标内容包括分别与该组替换内容中的各个基础数据相匹配的各个目标数据,每个目标数据与相匹配的基础数据属于同一类元素,各组目标内容不完全相同,并且,每组目标内容与该组替换内容完全不同;针对每组目标内容,利用该组目标内容中的各个目标数据,替换与该组目标内容对应的替换内容所在的基础标注数据中,属于该组替换内容且与该目标数据相匹配的基础数据,得到目标标注数据。2.根据权利要求1所述的方法,其特征在于,针对每组替换内容,所确定的多组与该组替换内容相匹配的目标内容包括:多组第一类内容和/或多组第二类内容;其中,每组第一类内容包括的每个目标数据与相匹配的基础数据属于同一类元素下的同一子类型,每组第二类内容包括的每个目标数据与相匹配的基础数据属于同一类元素下的不同子类型。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:从所述各个基础标注数据和/或所得到的各个目标标注数据中,获取多组待合并标注数据;其中,每组待合并标注数据包括具有相同的实体元素的多个标注数据,各组待合并表征数据不完全相同;基于每组待合并标注数据中,各个标注数据所具有的相同的实体元素,将该组待合并标注数据中的各个标注数据进行组合,得到新的目标标注数据。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:从所述各个基础标注数据和/或所得到的各个目标标注数据中,选取多个待处理标注数据;利用预设的数据增强方法,生成每个待处理标注数据对应的至少一个增强标注数据,作为新的目标标注数据;其中,所述数据增强方法包括:回译、随机插入和随机删除中的至少一种。5.根据权利要求1

4任一项所述的方法,其特征在于,所述确定预设的属于各类元素的各个替换数据的步骤,包括:获取预设的目标知识图谱中出现的属于各类元素的各个候选数据,并计算每个候选数据在所述各个基础标注数据中的出现次数;针对所述各个基础标注数据中的每个待替换数据,计算该待替换数据与所对应的各个指定数据的相似度;其中,每个待替换数据对应的各个指定数据为所述各个候选数据中,与该待替换数据属于同一类元素下的同一子类型的数据;基于所计算得到的各个出现次数和各个相似度,确定与各个待替换数据对应的各个候选数据,并为所确定的各个候选数据标注该候选数据所属的元素类型和该元素类型下的子
类型,得到各个替换数据。6.根据权利要求5所述的方法,其特征在于,所述基于所计算得到的各个出现次数和各个相似度,确定与各个待替换数据对应的各个候选数据的步骤,包括:针对每个待替换数据,按照预设的排列方式,排列与该待替换数据对应的各个指定数据;其中,所述预设的排列方式包括:若相似度不同则按照相似度由小到大的顺序排列且若相似度相同则按照出现次数由小到大的顺序排列;针对每个待替换数据,从排列完成的各个指定数据中,获取排列在指定位置之前的各个指定数据,作为与各个待替换数据对应的各个候选数据。7.根据权利要求5所述的方法,其特征在于,在所述针对每个基础标注数据,确定该基础标注数据所包括的各组替换内容的步骤之前,所述方法还包括:基于所述目标知识图谱的元数据,生成目标标注数据模板;其中,所述目标标注数据模板所表征的实体元素、属性元素和关系元素之间的结构特征,与所述各个...

【专利技术属性】
技术研发人员:龙铭刚
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1