样本处理方法及装置制造方法及图纸

技术编号:32128744 阅读:18 留言:0更新日期:2022-01-29 19:23
本申请提供样本处理方法及装置,其中所述样本处理方法包括:获取样本语料,并构建所述样本语料对应的初始文本意群;为所述样本语料添加语境标签,以及提取所述初始文本意群对应的初始词组;建立所述语境标签和所述初始文本意群的对应关系;根据所述对应关系和所述初始词组构建所述样本语料对应的场景定向词表空间。间。间。

【技术实现步骤摘要】
样本处理方法及装置


[0001]本申请涉及人工智能
,特别涉及一种样本处理方法及装置。

技术介绍

[0002]随着人工智能产业的发展,问答模型在实际应用中所占的比例也逐渐增高,用户对问答模型的回复准确性和回复效率的要求也越来越高,而实际应用中,问答模型的预测精准度取决于训练阶段的样本质量和数量。现有技术中,在问答模型训练前的数据准备阶段,通常会采用人工参与的方式进行数据的处理和标注,该过程不仅会消耗大量的人力资源,而且由于样本语料所包含的成分较为复杂,导致数据处理阶段会产生大量的冗余数据,从而导致占用过多的存储资源,且会对待训练的问答模型的精准度产生一定的影响。因此亟需一种有效的方案以解决上述问题。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种样本处理方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种样本处理装置,一种问答模型的训练方法,一种问答模型的训练装置,一种计算设备,以及一种计算机可读存储介质。
[0004]根据本申请实施例的第一方面,提供了一种样本处理方法,包括:
[0005]获取样本语料,并构建所述样本语料对应的初始文本意群;
[0006]为所述样本语料添加语境标签,以及提取所述初始文本意群对应的初始词组;
[0007]建立所述语境标签和所述初始文本意群的对应关系;
[0008]根据所述对应关系和所述初始词组构建所述样本语料对应的场景定向词表空间。
[0009]可选地,所述根据所述对应关系和所述初始词组构建所述样本语料对应的场景定向词表空间步骤执行之后,还包括:
[0010]获取训练样本,并确定所述训练样本对应的样本词组;
[0011]基于所述样本词组查询所述场景定向词表空间,根据查询结果确定所述训练样本对应的目标文本意群;
[0012]利用所述目标文本意群和所述训练样本对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型。
[0013]可选地,所述为所述样本语料添加语境标签,包括:
[0014]提取所述样本语料的多个初始特征,并对所述多个初始特征进行预处理获得多个目标特征;
[0015]计算各个目标特征与所述样本语料的语境相似度,根据语境相似度计算结果选择至少一个目标特征作为所述语境标签,并添加至所述样本语料。
[0016]可选地,所述基于所述样本词组查询所述场景定向词表空间,根据查询结果确定所述训练样本对应的目标文本意群,包括:
[0017]将所述样本词组映射到所述场景定向词表空间,计算所述样本词组与所述语境标
签的词组相似度;
[0018]根据词组相似度计算结果确定目标语境标签,并将所述目标语境标签对应的初始文本意群作为所述目标文本意群。
[0019]可选地,所述获取训练样本,包括:
[0020]获取与所述样本语料具有关联关系的所述训练样本;
[0021]其中,所述利用所述目标文本意群和所述训练样本对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型,包括:
[0022]利用与所述样本语料具有关联关系的所述训练样本和所述目标文本意群对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型。
[0023]可选地,所述确定所述训练样本对应的样本词组,包括:
[0024]对所述训练样本进行解析,获得所述训练样本中的样本问题文本;
[0025]提取所述样本问题文本中的第一词单元和第二词单元,基于所述第一词单元和所述第二词单元构建所述样本词组。
[0026]可选地,所述利用所述目标文本意群和所述训练样本对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型,包括:
[0027]将所述目标文本意群和所述训练样本中的所述样本问题文本输入至所述初始问答模型进行处理,获得预测答案文本;
[0028]基于所述预测答案文本和所述训练样本中的样本答案文本对所述初始问答模型进行优化,直至获得满足训练停止条件的所述目标问答模型。
[0029]可选地,所述将所述目标文本意群和所述训练样本中的所述样本问题文本输入至所述初始问答模型进行处理,获得预测答案文本,包括:
[0030]基于所述样本问题文本生成词单元向量以及场景标签向量,以及基于所述目标文本意群生成意群向量;
[0031]对所述词单元向量和所述场景标签向量进行整合,获得所述样本问题文本对应的样本问题向量;
[0032]将所述样本问题向量和所述意群向量输入至所述初始问答模型进行处理,获得所述预测答案文本。
[0033]可选地,所述将所述样本问题向量和所述意群向量输入至所述初始问答模型进行处理,获得所述预测答案文本,包括:
[0034]将所述样本问题向量和所述意群向量输入至所述初始问答模型,通过所述初始问答模型中的融合模块对所述样本问题向量和所述意群向量进行处理,获得融合向量;
[0035]将所述融合向量输入至所述初始问答模型中的识别模块进行处理,获得关联实体中心词和上下文场景分布;
[0036]通过所述初始问答模型中的输出层对所述关联实体中心词和所述上下文场景分布进行处理,获得所述预测答案文本。
[0037]可选地,所述对所述多个初始特征进行预处理获得多个目标特征,包括:
[0038]对所述多个初始特征进行清洗,根据清洗处理结果确定所述多个目标特征;
[0039]其中,所述根据语境相似度计算结果选择至少一个目标特征作为所述语境标签,包括:
[0040]将所述语境相似度与预设的语境相似度阈值进行比较,选择大于等于所述语境相似度阈值的目标特征作为所述语境标签;或者
[0041]根据语境相似度计算结果选择相似度最大的目标特征作为所述语境标签。
[0042]根据本申请实施例的第二方面,提供了一种样本处理装置,包括:
[0043]获取模块,被配置为获取样本语料,并构建所述样本语料对应的初始文本意群;
[0044]添加模块,被配置为为所述样本语料添加语境标签,以及提取所述初始文本意群对应的初始词组;
[0045]建立模块,被配置为建立所述语境标签和所述初始文本意群的对应关系;
[0046]构建模块,被配置为根据所述对应关系和所述初始词组构建所述样本语料对应的场景定向词表空间。
[0047]根据本申请实施例的第三方面,提供了一种问答模型的训练方法,包括:
[0048]获取训练样本,并确定所述训练样本对应的样本词组;
[0049]基于所述样本词组查询上述方法中的场景定向词表空间,根据查询结果确定所述训练样本对应的目标文本意群;
[0050]利用所述目标文本意群和所述训练样本对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型。
[0051]根据本申请实施例的第四方面,提供了一种问答模型的训练装置,包括:
[0052]获取样本模块,被配置为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本处理方法,其特征在于,包括:获取样本语料,并构建所述样本语料对应的初始文本意群;为所述样本语料添加语境标签,以及提取所述初始文本意群对应的初始词组;建立所述语境标签和所述初始文本意群的对应关系;根据所述对应关系和所述初始词组构建所述样本语料对应的场景定向词表空间。2.根据权利要求1所述的样本处理方法,其特征在于,所述根据所述对应关系和所述初始词组构建所述样本语料对应的场景定向词表空间步骤执行之后,还包括:获取训练样本,并确定所述训练样本对应的样本词组;基于所述样本词组查询所述场景定向词表空间,根据查询结果确定所述训练样本对应的目标文本意群;利用所述目标文本意群和所述训练样本对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型。3.根据权利要求1所述的样本处理方法,其特征在于,所述为所述样本语料添加语境标签,包括:提取所述样本语料的多个初始特征,并对所述多个初始特征进行预处理获得多个目标特征;计算各个目标特征与所述样本语料的语境相似度,根据语境相似度计算结果选择至少一个目标特征作为所述语境标签,并添加至所述样本语料。4.根据权利要求2所述的样本处理方法,其特征在于,所述基于所述样本词组查询所述场景定向词表空间,根据查询结果确定所述训练样本对应的目标文本意群,包括:将所述样本词组映射到所述场景定向词表空间,计算所述样本词组与所述语境标签的词组相似度;根据词组相似度计算结果确定目标语境标签,并将所述目标语境标签对应的初始文本意群作为所述目标文本意群。5.根据权利要求2所述的样本处理方法,其特征在于,所述获取训练样本,包括:获取与所述样本语料具有关联关系的所述训练样本;其中,所述利用所述目标文本意群和所述训练样本对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型,包括:利用与所述样本语料具有关联关系的所述训练样本和所述目标文本意群对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型。6.根据权利要求2所述的样本处理方法,其特征在于,所述确定所述训练样本对应的样本词组,包括:对所述训练样本进行解析,获得所述训练样本中的样本问题文本;提取所述样本问题文本中的第一词单元和第二词单元,基于所述第一词单元和所述第二词单元构建所述样本词组。7.根据权利要求6所述的样本处理方法,其特征在于,所述利用所述目标文本意群和所述训练样本对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型,包括:将所述目标文本意群和所述训练样本中的所述样本问题文本输入至所述初始问答模型进行处理,获得预测答案文本;
基于所述预测答案文本和所述训练样本中的样本答案文本对所述初始问答模型进行优化,直至获得满足训练停止条件的所述目标问答模型。8.根据权利要求7所述的样本处理方法,其特征在于,所述将所述目标文本意群和所述训练样本中的所述样本问题文本输入至所述初始问答模型进行处理,获得预测答案文本,包括:基于所述样本问题文本生成词单元向量以及场景标签向量,以及基于所述目标文本意群生...

【专利技术属性】
技术研发人员:冯晓阳李长亮姬子明
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1