一种训练样本生成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:39189012 阅读:14 留言:0更新日期:2023-10-27 08:36
本申请实施例提供一种训练样本生成方法、装置、计算机设备及存储介质,能够获取携带原始标签信息的待处理文本,并对携带原始标签信息的待处理文本进行分词处理,得到携带子原始标签信息的子待处理文本;对子待处理文本进行文本类型识别,得到子待处理文本对应的目标文本类型;获取目标文本类型对应的文本增强策略,并按照文本增强策略,对子待处理文本进行文本增强处理,得到增强后子待处理文本;根据子待处理文本对应的子原始标签信息,对增强后子待处理文本进行标注,得到增强后子待处理文本对应的目标标签信息;根据目标标签信息和增强后子待处理文本,生成训练样本;本申请实施例能够提高带有标签信息的训练样本的生成效率。率。率。

【技术实现步骤摘要】
一种训练样本生成方法、装置、计算机设备及存储介质


[0001]本申请涉及人工智能
,具体涉及一种训练样本生成方法、装置、计算机设备及存储介质,该存储介质为计算机可读存储介质。

技术介绍

[0002]在智能终端服务中,可以采用文本处理模型,例如,命名实体识别模型(NER)对用户数据进行处理,以把握用户的意图。影响文本处理模型性能的要素之一就是训练数据的数量。
[0003]现阶段对文本处理模型进行训练所采用的训练数据一般是带标签的训练数据。但是,这些带标签的训练数据是采用人工进行标注,标注过程比较耗时,如果需要大量带标签的训练数据,那将是十分耗时的。
[0004]基于上述,现有技术存在带标签的训练数据生成耗时的问题。

技术实现思路

[0005]本申请实施例提供一种训练样本生成方法、装置、计算机设备及存储介质,该存储介质为计算机可读存储介质,能够提高带有标签信息的训练样本的生成效率。
[0006]一种训练样本生成方法,包括:
[0007]获取携带原始标签信息的待处理文本,并对携带原始标签信息的待处理文本进行分词处理,得到携带子原始标签信息的子待处理文本;
[0008]对子待处理文本进行文本类型识别,得到子待处理文本对应的目标文本类型;
[0009]获取目标文本类型对应的文本增强策略,并按照文本增强策略,对子待处理文本进行文本增强处理,得到增强后子待处理文本;
[0010]根据子待处理文本对应的子原始标签信息,对增强后子待处理文本进行标注,得到增强后子待处理文本对应的目标标签信息;
[0011]根据目标标签信息和增强后子待处理文本,生成训练样本。
[0012]相应地,本申请实施例提供一种训练样本生成装置,包括:
[0013]第一获取单元,可以用于获取携带原始标签信息的待处理文本,并对携带原始标签信息的待处理文本进行分词处理,得到携带子原始标签信息的子待处理文本;
[0014]识别单元,可以用于对子待处理文本进行文本类型识别,得到子待处理文本对应的目标文本类型;
[0015]第二获取单元,可以用于获取目标文本类型对应的文本增强策略,并按照文本增强策略,对子待处理文本进行文本增强处理,得到增强后子待处理文本;
[0016]标注单元,可以用于根据子待处理文本对应的子原始标签信息,对增强后子待处理文本进行标注,得到增强后子待处理文本对应的目标标签信息;
[0017]生成单元,可以用于根据目标标签信息和增强后子待处理文本,生成训练样本。
[0018]在一些实施例中,文本增强策略包括第一文本增强策略,目标文本类型包括第一
目标文本类型,增强后子待处理文本包括第一增强后子待处理文本;第二获取单元,具体可以用于按照第一目标文本类型对应的第一文本增强策略,获取候选增强子文本集合,候选增强子文本集合包括至少一个子文本类型对应的候选增强子文本;从至少一个子文本类型对应的候选增强子文本中,筛选出与第一目标文本类型对应的子待处理文本匹配的第一目标增强子文本;根据第一目标增强子文本,对第一目标文本类型对应的子待处理文本进行文本增强处理,得到第一增强后子待处理文本。
[0019]在一些实施例中,第二获取单元,具体可以用于对第一目标文本类型对应的子待处理文本进行子文本类型识别,得到子待处理文本对应的目标子文本类型;根据目标子文本类型,从至少一个子文本类型对应的候选增强子文本中,筛选出与目标子文本类型的子待处理文本所对应的第一目标增强子文本。
[0020]在一些实施例中,第二获取单元,具体可以用于根据第一目标增强子文本,对第一目标文本类型对应的子待处理文本进行文本增强,得到候选子待处理文本;根据子待处理文本,从候选子待处理文本中筛选出第一增强后子待处理文本。
[0021]在一些实施例中,第二获取单元,具体可以用于计算子待处理文本和子待处理文本对应的候选子待处理文本之间的目标相似度;根据目标相似度,从候选子待处理文本中筛选出第一增强后子待处理文本。
[0022]在一些实施例中,文本增强策略包括第二文本增强策略,目标文本类型包括第二目标文本类型,增强后子待处理文本包括第二增强后子待处理文本;第二获取单元,具体还可以用于按照第二目标文本类型对应的第二文本增强策略,获取参考增强子文本集合,参考增强子文本集合包括至少一个参考增强子文本;根据第二目标文本类型对应的子待处理文本和参考增强子文本,确定第二目标增强子文本;根据第二目标增强子文本,对第二目标文本类型对应的子待处理文本进行文本增强处理,得到第二增强后子待处理文本。
[0023]在一些实施例中,识别单元,具体可以用于获取预设文本集合,预设文本集合包括至少一个文本类型对应的预设文本;计算子待处理文本与预设文本之间的候选相似度;根据候选相似度,从预设文本对应的文本类型中,筛选出子待处理文本对应的目标文本类型。
[0024]此外,本申请实施例还提供一种计算机设备,包括存储器和处理器;存储器存储有计算机程序,处理器用于运行存储器内的计算机程序,以执行本申请实施例提供的任一种训练样本生成方法。
[0025]此外,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序适于处理器进行加载,以执行本申请实施例提供的任一种训练样本生成方法。
[0026]本申请实施例能够获取携带原始标签信息的待处理文本,并对携带原始标签信息的待处理文本进行分词处理,得到携带子原始标签信息的子待处理文本;对子待处理文本进行文本类型识别,得到子待处理文本对应的目标文本类型;获取目标文本类型对应的文本增强策略,并按照文本增强策略,对子待处理文本进行文本增强处理,得到增强后子待处理文本;根据子待处理文本对应的子原始标签信息,对增强后子待处理文本进行标注,得到增强后子待处理文本对应的目标标签信息;根据目标标签信息和增强后子待处理文本,生成训练样本;由于本申请实施例能够根据子待处理文本所对应的目标文本类型的文本增强策略,对子待处理文本进行文本增强处理,如此可以快速得到大量的增强后子待处理文本,
且本申请实施例可以利用子待处理文本对应的子原始标签信息对增强后子待处理文本进行标注,从而可以提高带有标签信息的训练样本的生成效率。
附图说明
[0027]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0028]图1是本申请实施例提供的训练样本生成方法的场景示意图;
[0029]图2是本申请实施例提供的训练样本生成方法的流程示意图;
[0030]图3是本申请实施例提供的命名实体子待处理文本和非命名实体子待处理文本的示意图;
[0031]图4是本申请实施例提供的按照文本增强策略,对子待处理文本进行文本增强处理,得到增强后子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练样本生成方法,其特征在于,包括:获取携带原始标签信息的待处理文本,并对所述携带原始标签信息的待处理文本进行分词处理,得到携带子原始标签信息的子待处理文本;对所述子待处理文本进行文本类型识别,得到子待处理文本对应的目标文本类型;获取目标文本类型对应的文本增强策略,并按照所述文本增强策略,对所述子待处理文本进行文本增强处理,得到增强后子待处理文本;根据所述子待处理文本对应的子原始标签信息,对所述增强后子待处理文本进行标注,得到增强后子待处理文本对应的目标标签信息;根据所述目标标签信息和所述增强后子待处理文本,生成训练样本。2.根据权利要求1所述的训练样本生成方法,其特征在于,所述文本增强策略包括第一文本增强策略,所述目标文本类型包括第一目标文本类型,所述增强后子待处理文本包括第一增强后子待处理文本;所述按照所述文本增强策略,对所述子待处理文本进行文本增强处理,得到增强后子待处理文本,包括:按照所述第一目标文本类型对应的所述第一文本增强策略,获取候选增强子文本集合,所述候选增强子文本集合包括至少一个子文本类型对应的候选增强子文本;从所述至少一个子文本类型对应的候选增强子文本中,筛选出与所述第一目标文本类型对应的所述子待处理文本匹配的第一目标增强子文本;根据所述第一目标增强子文本,对所述第一目标文本类型对应的子待处理文本进行文本增强处理,得到第一增强后子待处理文本。3.根据权利要求2所述的训练样本生成方法,其特征在于,所述从所述至少一个子文本类型对应的候选增强子文本中,筛选出与所述第一目标文本类型对应的所述子待处理文本匹配的第一目标增强子文本,包括:对所述第一目标文本类型对应的所述子待处理文本进行子文本类型识别,得到所述子待处理文本对应的目标子文本类型;根据所述目标子文本类型,从至少一个子文本类型对应的候选增强子文本中,筛选出与所述目标子文本类型的子待处理文本所对应的第一目标增强子文本。4.根据权利要求2所述的训练样本生成方法,其特征在于,所述根据所述第一目标增强子文本,对所述第一目标文本类型对应的子待处理文本进行文本增强处理,得到第一增强后子待处理文本,包括:根据所述第一目标增强子文本,对所述第一目标文本类型对应的子待处理文本进行文本增强,得到候选子待处理文本;根据所述子待处理文本,从所述候选子待处理文本中筛选出第一增强后子待处理文本。5.根据权利要求4所述的训练样本生成方法,其特征在于,所述根据所述子待处理文本,从所述候选子待处理文本中筛选出第一增强后子待处...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:深圳TCL新技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1