一种优化训练样本的方法和装置制造方法及图纸

技术编号:21344259 阅读:21 留言:0更新日期:2019-06-13 22:45
本发明专利技术公开了一种优化训练样本的方法和装置,涉及计算机技术领域。该方法的一个具体实施方式包括:获取同一标注对象的两个以上的标注集;根据预设规则对所述两个以上标注集进行合并和/或相交,得到优选标注集;将所述优选标注集填充至所述标注对象,得到训练样本。该实施方式降低了人工标注易造成经验性错误的概率,能够获得更准确的训练样本,进而达到提高模型验证准确性的技术效果。

A Method and Device for Optimizing Training Samples

The invention discloses a method and device for optimizing training samples, which relates to the field of computer technology. One specific implementation of the method includes: acquiring more than two annotation sets of the same annotation object; merging and/or intersecting the two or more annotation sets according to preset rules to obtain a preferred annotation set; filling the preferred annotation set into the annotation object and obtaining training samples. The implementation method reduces the probability of experiential errors caused by manual labeling, and can obtain more accurate training samples, thus achieving the technical effect of improving the accuracy of model verification.

【技术实现步骤摘要】
一种优化训练样本的方法和装置
本专利技术涉及计算机
,尤其涉及一种优化训练样本的方法、装置、电子设备和计算机可读介质。
技术介绍
随着人工智能技术的发展,用于自然语言处理的各种模型应运而生,验证这些模型的正确性需要使用训练样本,所以训练样本的质量直接关系到被验证的模型的质量。现有技术是通过人工根据经验对样本进行标注以得到训练样本。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:直接通过人工标注得到的训练样本人为因素无法准确控制,易造成经验性错误,从而影响对模型的验证。
技术实现思路
有鉴于此,本专利技术实施例提供一种优化训练样本的方法和装置,能够优化人工标注,减少经验性错误,获得更准确的训练样本,从而提高模型验证的准确性。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种优化训练样本的方法,包括:获取同一标注对象的两个以上的标注集;根据预设规则对所述两个以上标注集进行合并和/或相交,得到优选标注集;将所述优选标注集填充至所述标注对象,得到训练样本。可选地,所述标注集中包括至少一个标注,每个所述标注包括:标注的内容、标注的标签以及标注的索引。可选地,将所述优选标注集填充至所述标注对象之前,所述方法还包括:按照所述优选标注的索引对所述优选标注集中的每个优选标注进行排序;在执行将所述优选标注集填充至所述标注对象的步骤时,包括:将排序后的所述优选标注集填充至所述标注对象。可选地,将排序后的所述优选标注集填充至所述标注对象包括:根据所述优选标注的索引,按照从后向前的顺序将每个优选标注填充至所述标注对象;若所述优选标注集中存在嵌套标注,先填充外层标注,再填充内层标注。为实现上述目的,根据本专利技术实施例的另一个方面,提供了一种优化训练样本的装置,包括:标注模块,用于获取同一标注对象的两个以上的标注集;优选模块,用于根据预设规则对所述两个以上标注集进行合并和/或相交,得到优选标注集;填充模块,用于将所述优选标注集填充至所述标注对象,得到训练样本。可选地,所述标注集中包括至少一个标注,每个所述标注包括:标注的内容、标注的标签以及标注的索引。可选地,所述装置还包括:排序模块,用于按照所述优选标注的索引对所述优选标注集中的每个优选标注进行排序;所述填充模块还用于将排序后的所述优选标注集填充至所述标注对象。可选地,所述填充模块还用于:根据所述优选标注的索引,按照从后向前的顺序将每个优选标注填充至所述标注对象;若所述优选标注集中存在嵌套标注,先填充外层标注,再填充内层标注。为实现上述目的,根据本专利技术实施例的再一个方面,提供了一种优化训练样本的电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现一种优化训练样本的方法中任一所述的方法。为实现上述目的,根据本专利技术实施例的再一个方面,提供了一种优化训练样本的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现一种优化训练样本的方法中任一所述的方法。上述专利技术中的一个实施例具有如下优点或有益效果:因为采用以相交和/或合并对标注集进行优化并填充的技术手段,所以克服了人工标注易造成经验性错误,影响模型验证的技术问题,进而达到提高模型验证准确性的技术效果。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是根据本专利技术实施例的一种优化训练样本的方法的主要步骤的示意图;图2是根据本专利技术实施例的一种优化训练样本的装置的主要部分的示意图;图3是本专利技术实施例可以应用于其中的示例性系统架构图;图4是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本专利技术实施例的一种优化训练样本的方法的主要步骤的示意图,如图1所示:步骤S101表示获取同一标注对象的两个以上的标注集;此步骤的作用是根据采样定理,通过增加处理样本的数量,提高输出结果的可靠性。其中,所述标注集中包括至少一个标注,每个所述标注包括:标注的内容、标注的标签以及标注的索引。本专利技术实施例所适用的标注对象可以是文本,也可以是其他可以通过人工感知并标注的其他形式的载体,比如图谱等,以文本类标注对象为例,对文本类标注对象可以是人工通过阅读等形式,根据语义与预设的词典等对其进行标注,其中,可以在文本中通过抽取实体词,嵌套标注的方式,划分类别,标注的结果需要保留原文,即在上下文中保存标注。以下述文本作为标注对象:苹果公司将于北京时间9月13日凌晨1点举行新品发布会,这一次的发布会地点是史蒂夫·乔布斯剧院。根据目前的消息,这次发布会上苹果将会发布iPhone8、iPhoneX等产品。届时,中关村在线手机频道将会带来发布会全程现场直播,欢迎关注。以表1中的类别标签为例进行标注,比如:产品、品牌、人名、地名、组织,分别对应英文标签。其中标注的格式采用XML(可扩展标记语言)格式。表1名称标签产品<PRO></PRO>品牌<BRA></BRA>人名<PER></PER>地名<LOC></LOC>组织<ORG></ORG>经过多人标注,获得以下两个标注的结果:标注结果A:<ORG><BRA>苹果</BRA>公司</ORG>将于<LOC>北京</LOC>时间9月13日凌晨1点举行新品发布会,这一次的发布会地点是<LOC><PER>史蒂夫·乔布斯</PER>剧院</LOC>。根据目前的消息,这次发布会上<BRA>苹果</BRA>将会发布<PRO><BRA>iPhone</BRA>8</PRO>、<PRO><BRA>iPhone</BRA>X</PRO>等产品。届时,<ORG><LOC>中关村</LOC>在线</ORG>手机频道将会带来发布会全程现场直播,欢迎关注。标注结果B:<ORG>苹果公司</ORG>将于<LOC>北京</LOC>时间9月13日凌晨1点举行新品发布会,这一次的发布会地点是<LOC><PER>史蒂夫·乔布斯</PER>剧院</LOC>。根据目前的消息,这次发布会上苹果将会发布<PRO>iPhone8</PRO>、<PRO>iPhoneX</PRO>等产品。届时,<ORG&g本文档来自技高网...

【技术保护点】
1.一种优化训练样本的方法,其特征在于,包括:获取同一标注对象的两个以上的标注集;根据预设规则对所述两个以上标注集进行合并和/或相交,得到优选标注集;将所述优选标注集填充至所述标注对象,得到训练样本。

【技术特征摘要】
1.一种优化训练样本的方法,其特征在于,包括:获取同一标注对象的两个以上的标注集;根据预设规则对所述两个以上标注集进行合并和/或相交,得到优选标注集;将所述优选标注集填充至所述标注对象,得到训练样本。2.根据权利要求1所述的方法,其特征在于,所述标注集中包括至少一个标注,每个所述标注包括:标注的内容、标注的标签以及标注的索引。3.根据权利要求2所述的方法,其特征在于,将所述优选标注集填充至所述标注对象之前,所述方法还包括:按照所述优选标注的索引对所述优选标注集中的每个优选标注进行排序;在执行将所述优选标注集填充至所述标注对象的步骤时,包括:将排序后的所述优选标注集填充至所述标注对象。4.根据权利要求3所述的方法,其特征在于,将排序后的所述优选标注集填充至所述标注对象包括:根据所述优选标注的索引,按照从后向前的顺序将每个优选标注填充至所述标注对象;若所述优选标注集中存在嵌套标注,先填充外层标注,再填充内层标注。5.一种优化训练样本的装置,其特征在于,包括:标注模块,用于获取同一标注对象的两个以上的标注集;优选模块,用于根据预设规则对所述两个以上标注...

【专利技术属性】
技术研发人员:郭玉锐周雪梅朱月飞张达
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1