文本段识别模型的训练、文本段识别方法、设备及介质技术

技术编号:34890963 阅读:53 留言:0更新日期:2022-09-10 13:49
本申请提供一种文本段识别模型的训练、文本段识别方法、设备及介质,涉及人工智能领域。模型训练方法包括:接收来自客户端的多个样本文本及其标注信息,一个样本文本的标注信息包括:该样本文本中的至少一个标注文本段及其所属的标注类别;根据多个样本文本中的标注文本段与其所属的标注类别之间的从属关系、以及多个样本文本中属于相同标注类别的不同标注文本段之间的同伴关系,生成训练样本数据集;利用训练样本数据集对待训练的文本段识别模型进行训练。由于模型训练过程中同时利用了从属关系和同伴关系,能够更好学习样本文本中标注文本段的语义特征,即使在样本文本的数量较少的情况下,也能训练得到具有较高识别性能的文本段识别模型。本段识别模型。本段识别模型。

【技术实现步骤摘要】
文本段识别模型的训练、文本段识别方法、设备及介质


[0001]本申请涉及人工智能
,尤其涉及一种文本段识别模型的训练、文本段识别方法、设备及介质。

技术介绍

[0002]文本段识别(Span Identification)是一类自然语言处理任务,其目的是在输入文本中找出属于某一类别的文本段。其中,文本段类别根据具体的文本段识别任务而相应制定。
[0003]针对具体的文本段识别任务,可以预先训练得到文本段识别模型,进而利用文本段识别模型来执行该文本段识别任务。通常,文本段识别模型的训练方式如下:获取大量的预先标注的样本文本,样本文本中标注有文本段以及文本段所属的类别。利用样本文本中各文本段与其所属类别之间的从属关系对待训练模型进行训练,使得训练后的模型具有文本段识别能力。
[0004]上述训练方式需要大量的经过标注的样本文本。然而,在一些场景下,可能无法获得大量的经过标注的样本文本,从而无法训练得到具有较高识别性能的文本段识别模型。

技术实现思路

[0005]本申请实施例提供一种文本段识别模型的训练、文本段识别方法、设备及介质,即使在已标注的样本文本的数量较少的情况下,也能训练得到具有较高识别性能的文本段识别模型。
[0006]第一方面,本申请实施例提供一种文本段识别模型的训练方法,包括:
[0007]接收来自客户端的多个样本文本以及各样本文本的标注信息,一个样本文本的标注信息包括:该样本文本中的至少一个标注文本段以及各标注文本段所属的标注类别;
[0008]根据所述多个样本文本中的标注文本段与其所属的标注类别之间的从属关系、以及所述多个样本文本中属于相同标注类别的不同标注文本段之间的同伴关系,生成训练样本数据集;
[0009]利用所述训练样本数据集对待训练的文本段识别模型进行训练,得到训练后的文本段识别模型。
[0010]一种可能的实现方式中,根据所述多个样本文本中的标注文本段与其所属的标注类别之间的从属关系、以及所述多个样本文本中属于相同标注类别的不同标注文本段之间的同伴关系,生成训练样本数据集,包括:
[0011]根据所述多个样本文本中属于相同标注类别的不同标注文本段之间的同伴关系,生成多组第一训练样本;
[0012]根据所述多个样本文本中的标注文本段与其所属的标注类别之间的从属关系,生成多组第二训练样本;
[0013]根据所述多组第一训练样本和所述多组第二训练样本,生成所述训练样本数据
集。
[0014]一种可能的实现方式中,根据所述多个样本文本中属于相同标注类别的不同标注文本段之间的同伴关系,生成多组第一训练样本,包括:
[0015]将所述多个样本文本中的各标注文本段划分为至少一个文本段集合,每个文本段集合中的标注文本段所属的标注类别相同,不同文本段集合中的标注文本段所属的标注类别不同;
[0016]根据所述至少一个文本段集合,生成多个同伴关系数据对;每个同伴关系数据对中包括第一标注文本段和第二标注文本段,所述第一标注文本段和所述第二标注文本段为同一文本段集合中的两个不同的标注文本段;
[0017]根据每个同伴关系数据对生成至少一组第一训练样本,以得到所述多组第一训练样本。
[0018]一种可能的实现方式中,根据每个同伴关系数据对生成至少一组第一训练样本,包括:
[0019]根据所述同伴关系数据对中的所述第一标注文本段生成第一查询文本,所述第一查询文本包括所述第一标注文本段,所述第一查询文本用于查询与所述第一标注文本段具有同伴关系的文本段;
[0020]根据所述同伴关系数据对中的所述第二标注文本段,在所述多个样本文本中确定至少一个第一样本文本,所述第一样本文本包括所述第二标注文本段;
[0021]根据所述第一查询文本、所述至少一个第一样本文本、以及所述第二标注文本段,生成所述至少一组第一训练样本。
[0022]一种可能的实现方式中,根据所述至少一个文本段集合,生成多个同伴关系数据对,包括:
[0023]分别对每个文本段集合中的任意两个不同的标注文本段进行排列组合,得到该文本段集合对应的多个候选数据对;
[0024]对至少部分文本段集合对应的所述多个候选数据对进行采样处理,以得到所述多个同伴关系数据对;所述同伴关系数据对的数量小于所述候选数据对的数量。
[0025]一种可能的实现方式中,针对所述至少一个文本段集合中的任意一个第一文本段集合,对所述第一文本段集合对应的所述多个候选数据对进行采样处理,包括:
[0026]确定所述第一文本段集合对应的采样数量;
[0027]根据所述采样数量对所述第一文本段集合对应的所述多个候选数据对进行采样处理;
[0028]其中,所述采样数量与下述中的一项或多项相关:预设采样比例、第二文本段集合包含的标注文本段的数量与所述第一文本段集合包含的标注文本段的数量之差;所述第二文本段集合为所述至少一个文本段集合中包含标注文本段数量最多的文本段集合。
[0029]一种可能的实现方式中,根据所述多个样本文本中的标注文本段与其所属的标注类别之间的从属关系,生成多组第二训练样本,包括:
[0030]对所述多个样本文本中各标注文本段所属的标注类别进行去重处理,得到标注类别集合;
[0031]针对所述标注类别集合中的每个标注类别,生成该标注类别对应的第二查询文
本,所述第二查询文本中包括所述标注类别,所述第二查询文本用于查询属于所述标注类别的文本段;
[0032]根据所述标注类别集合中各标注类别对应的第二查询文本、以及所述多个样本文本中各标注文本段与其所属的标注类别之间的从属关系,生成所述多组第二训练样本。
[0033]一种可能的实现方式中,
[0034]根据所述标注类别集合中各标注类别对应的第二查询文本、以及所述多个样本文本中各标注文本段与其所属的标注类别之间的从属关系,生成所述多组第二训练样本,包括:
[0035]针对所述标注类别集合中的每个标注类别,分别遍历所述多个样本文本中的每个样本文本:
[0036]若所述样本文本中存在属于所述标注类别的标注文本段,则根据所述标注类别对应的第二查询文本、所述样本文本、以及所述样本文本中属于所述标注类别的标注文本段,生成一组第二训练样本;或者,
[0037]若所述样本文本中不存在属于所述标注类别的标注文本段,则根据所述标注类别对应的第二查询文本、所述样本文本、以及空文本段,生成一组第二训练样本。
[0038]第二方面,本申请实施例提供一种文本段识别方法,包括:
[0039]获取查询文本和目标文本,所述查询文本用于在所述目标文本中查询属于预设类别的文本段;
[0040]通过已训练的文本段识别模型对所述查询文本与所述目标文本输入进行处理,得到所述目标文本中的至少一个目标文本段,或者,得到空文本段,所述目标文本段属于所述预设类别;
[0041]其中,所述文本段本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本段识别模型的训练方法,其特征在于,包括:接收来自客户端的多个样本文本以及各样本文本的标注信息,一个样本文本的标注信息包括:该样本文本中的至少一个标注文本段以及各标注文本段所属的标注类别;根据所述多个样本文本中的标注文本段与其所属的标注类别之间的从属关系、以及所述多个样本文本中属于相同标注类别的不同标注文本段之间的同伴关系,生成训练样本数据集;利用所述训练样本数据集对待训练的文本段识别模型进行训练,得到训练后的文本段识别模型。2.根据权利要求1所述的方法,其特征在于,根据所述多个样本文本中的标注文本段与其所属的标注类别之间的从属关系、以及所述多个样本文本中属于相同标注类别的不同标注文本段之间的同伴关系,生成训练样本数据集,包括:根据所述多个样本文本中属于相同标注类别的不同标注文本段之间的同伴关系,生成多组第一训练样本;根据所述多个样本文本中的标注文本段与其所属的标注类别之间的从属关系,生成多组第二训练样本;根据所述多组第一训练样本和所述多组第二训练样本,生成所述训练样本数据集。3.根据权利要求2所述的方法,其特征在于,根据所述多个样本文本中属于相同标注类别的不同标注文本段之间的同伴关系,生成多组第一训练样本,包括:将所述多个样本文本中的各标注文本段划分为至少一个文本段集合,每个文本段集合中的标注文本段所属的标注类别相同,不同文本段集合中的标注文本段所属的标注类别不同;根据所述至少一个文本段集合,生成多个同伴关系数据对;每个同伴关系数据对中包括第一标注文本段和第二标注文本段,所述第一标注文本段和所述第二标注文本段为同一文本段集合中的两个不同的标注文本段;根据每个同伴关系数据对生成至少一组第一训练样本,以得到所述多组第一训练样本。4.根据权利要求3所述的方法,其特征在于,根据每个同伴关系数据对生成至少一组第一训练样本,包括:根据所述同伴关系数据对中的所述第一标注文本段生成第一查询文本,所述第一查询文本包括所述第一标注文本段,所述第一查询文本用于查询与所述第一标注文本段具有同伴关系的文本段;根据所述同伴关系数据对中的所述第二标注文本段,在所述多个样本文本中确定至少一个第一样本文本,所述第一样本文本包括所述第二标注文本段;根据所述第一查询文本、所述至少一个第一样本文本、以及所述第二标注文本段,生成所述至少一组第一训练样本。5.根据权利要求3或4所述的方法,其特征在于,根据所述至少一个文本段集合,生成多个同伴关系数据对,包括:分别对每个文本段集合中的任意两个不同的标注文本段进行排列组合,得到该文本段集合对应的多个候选数据对;
对至少部分文本段集合对应的所述多个候选数据对进行采样处理,以得到所述多个同伴关系数据对;所述同伴关系数据对的数量小于所述候选数据对的数量。6.根据权利要求5所述的方法,其特征在于,针对所述至少一个文本段集合中的任意一个第一文本段集合,对所述第一文本段集合对应的所述多个候选数据对进行采样处理,包括:确定所述第一文本段集合对应的采样数量;根据所述采样数量对所述第一文本段集合对应的所述多个候选...

【专利技术属性】
技术研发人员:徐蔚文李昕邴立东
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1