样本处理方法及装置制造方法及图纸

技术编号：32128744 阅读：18 留言：0更新日期：2022-01-29 19:23

本申请提供样本处理方法及装置，其中所述样本处理方法包括：获取样本语料，并构建所述样本语料对应的初始文本意群；为所述样本语料添加语境标签，以及提取所述初始文本意群对应的初始词组；建立所述语境标签和所述初始文本意群的对应关系；根据所述对应关系和所述初始词组构建所述样本语料对应的场景定向词表空间。间。间。

全部详细技术资料下载

【技术实现步骤摘要】
样本处理方法及装置

[0001]本申请涉及人工智能
，特别涉及一种样本处理方法及装置。

技术介绍

[0002]随着人工智能产业的发展，问答模型在实际应用中所占的比例也逐渐增高，用户对问答模型的回复准确性和回复效率的要求也越来越高，而实际应用中，问答模型的预测精准度取决于训练阶段的样本质量和数量。现有技术中，在问答模型训练前的数据准备阶段，通常会采用人工参与的方式进行数据的处理和标注，该过程不仅会消耗大量的人力资源，而且由于样本语料所包含的成分较为复杂，导致数据处理阶段会产生大量的冗余数据，从而导致占用过多的存储资源，且会对待训练的问答模型的精准度产生一定的影响。因此亟需一种有效的方案以解决上述问题。

技术实现思路

[0003]有鉴于此，本申请实施例提供了一种样本处理方法，以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种样本处理装置，一种问答模型的训练方法，一种问答模型的训练装置，一种计算设备，以及一种计算机可读存储介质。
[0004]根据本申请实施例的第一方面，提供了一种样本处理方法，包括：
[0005]获取样本语料，并构建所述样本语料对应的初始文本意群；
[0006]为所述样本语料添加语境标签，以及提取所述初始文本意群对应的初始词组；
[0007]建立所述语境标签和所述初始文本意群的对应关系；
[0008]根据所述对应关系和所述初始词组构建所述样本语料对应的场景定向词表空间。
[0009]可选地，所述根据所述对应关系和所述初始词组构建所...

【技术保护点】

【技术特征摘要】
1.一种样本处理方法，其特征在于，包括：获取样本语料，并构建所述样本语料对应的初始文本意群；为所述样本语料添加语境标签，以及提取所述初始文本意群对应的初始词组；建立所述语境标签和所述初始文本意群的对应关系；根据所述对应关系和所述初始词组构建所述样本语料对应的场景定向词表空间。2.根据权利要求1所述的样本处理方法，其特征在于，所述根据所述对应关系和所述初始词组构建所述样本语料对应的场景定向词表空间步骤执行之后，还包括：获取训练样本，并确定所述训练样本对应的样本词组；基于所述样本词组查询所述场景定向词表空间，根据查询结果确定所述训练样本对应的目标文本意群；利用所述目标文本意群和所述训练样本对初始问答模型进行训练，直至获得满足训练停止条件的目标问答模型。3.根据权利要求1所述的样本处理方法，其特征在于，所述为所述样本语料添加语境标签，包括：提取所述样本语料的多个初始特征，并对所述多个初始特征进行预处理获得多个目标特征；计算各个目标特征与所述样本语料的语境相似度，根据语境相似度计算结果选择至少一个目标特征作为所述语境标签，并添加至所述样本语料。4.根据权利要求2所述的样本处理方法，其特征在于，所述基于所述样本词组查询所述场景定向词表空间，根据查询结果确定所述训练样本对应的目标文本意群，包括：将所述样本词组映射到所述场景定向词表空间，计算所述样本词组与所述语境标签的词组相似度；根据词组相似度计算结果确定目标语境标签，并将所述目标语境标签对应的初始文本意群作为所述目标文本意群。5.根据权利要求2所述的样本处理方法，其特征在于，所述获取训练样本，包括：获取与所述样本语料具有关联关系的所述训练样本；其中，所述利用所述目标文本意群和所述训练样本对初始问答模型进行训练，直至获得满足训练停止条件的目标问答模型，包括：利用与所述样本语料具有关联关系的所述训练样本和所述目标文本意群对初始问答模型进行训练，直至获得满足训练停止条件的目标问答模型。6.根据权利要求2所述的样本处理方法，其特征在于，所述确定所述训练样本对应的样本词组，包括：对所述训练样本进行解析，获得所述训练样本中的样本问题文本；提取所述样本问题文本中的第一词单元和第二词单元，基于所述第一词单元和所述第二词单元构建所述样本词组。7.根据权利要求6所述的样本处理方法，其特征在于，所述利用所述目标文本意群和所述训练样本对初始问答模型进行训练，直至获得满足训练停止条件的目标问答模型，包括：将所述目标文本意群和所述训练样本中的所述样本问题文本输入至所述初始问答模型进行处理，获得预测答案文本；
基于所述预测答案文本和所述训练样本中的样本答案文本对所述初始问答模型进行优化，直至获得满足训练停止条件的所述目标问答模型。8.根据权利要求7所述的样本处理方法，其特征在于，所述将所述目标文本意群和所述训练样本中的所述样本问题文本输入至所述初始问答模型进行处理，获得预测答案文本，包括：基于所述样本问题文本生成词单元向量以及场景标签向量，以及基于所述目标文本意群生...

【专利技术属性】
技术研发人员：冯晓阳，李长亮，姬子明，
申请(专利权)人：北京金山数字娱乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人