The invention discloses a method and device for optimizing training samples, which relates to the field of computer technology. One specific implementation of the method includes: acquiring more than two annotation sets of the same annotation object; merging and/or intersecting the two or more annotation sets according to preset rules to obtain a preferred annotation set; filling the preferred annotation set into the annotation object and obtaining training samples. The implementation method reduces the probability of experiential errors caused by manual labeling, and can obtain more accurate training samples, thus achieving the technical effect of improving the accuracy of model verification.
【技术实现步骤摘要】
一种优化训练样本的方法和装置
本专利技术涉及计算机
,尤其涉及一种优化训练样本的方法、装置、电子设备和计算机可读介质。
技术介绍
随着人工智能技术的发展,用于自然语言处理的各种模型应运而生,验证这些模型的正确性需要使用训练样本,所以训练样本的质量直接关系到被验证的模型的质量。现有技术是通过人工根据经验对样本进行标注以得到训练样本。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:直接通过人工标注得到的训练样本人为因素无法准确控制,易造成经验性错误,从而影响对模型的验证。
技术实现思路
有鉴于此,本专利技术实施例提供一种优化训练样本的方法和装置,能够优化人工标注,减少经验性错误,获得更准确的训练样本,从而提高模型验证的准确性。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种优化训练样本的方法,包括:获取同一标注对象的两个以上的标注集;根据预设规则对所述两个以上标注集进行合并和/或相交,得到优选标注集;将所述优选标注集填充至所述标注对象,得到训练样本。可选地,所述标注集中包括至少一个标注,每个所述标注包括:标注的内容、标注的标签以及标注的索引。可选地,将所述优选标注集填充至所述标注对象之前,所述方法还包括:按照所述优选标注的索引对所述优选标注集中的每个优选标注进行排序;在执行将所述优选标注集填充至所述标注对象的步骤时,包括:将排序后的所述优选标注集填充至所述标注对象。可选地,将排序后的所述优选标注集填充至所述标注对象包括:根据所述优选标注的索引,按照从后向前的顺序将每个优选标注填充至所述标注对象;若所述优选标注集中存在嵌套标注,先填 ...
【技术保护点】
1.一种优化训练样本的方法,其特征在于,包括:获取同一标注对象的两个以上的标注集;根据预设规则对所述两个以上标注集进行合并和/或相交,得到优选标注集;将所述优选标注集填充至所述标注对象,得到训练样本。
【技术特征摘要】
1.一种优化训练样本的方法,其特征在于,包括:获取同一标注对象的两个以上的标注集;根据预设规则对所述两个以上标注集进行合并和/或相交,得到优选标注集;将所述优选标注集填充至所述标注对象,得到训练样本。2.根据权利要求1所述的方法,其特征在于,所述标注集中包括至少一个标注,每个所述标注包括:标注的内容、标注的标签以及标注的索引。3.根据权利要求2所述的方法,其特征在于,将所述优选标注集填充至所述标注对象之前,所述方法还包括:按照所述优选标注的索引对所述优选标注集中的每个优选标注进行排序;在执行将所述优选标注集填充至所述标注对象的步骤时,包括:将排序后的所述优选标注集填充至所述标注对象。4.根据权利要求3所述的方法,其特征在于,将排序后的所述优选标注集填充至所述标注对象包括:根据所述优选标注的索引,按照从后向前的顺序将每个优选标注填充至所述标注对象;若所述优选标注集中存在嵌套标注,先填充外层标注,再填充内层标注。5.一种优化训练样本的装置,其特征在于,包括:标注模块,用于获取同一标注对象的两个以上的标注集;优选模块,用于根据预设规则对所述两个以上标注...
【专利技术属性】
技术研发人员:郭玉锐,周雪梅,朱月飞,张达,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。