【技术实现步骤摘要】
数据的处理方法、装置、设备以及存储介质
本申请实施例涉及语言识别
,并且更具体地,涉及数据的处理方法、装置、设备以及存储介质。
技术介绍
随着语言识别技术的不断发展,基于自然语言理解(NaturalLanguageUnderstanding,NLU)的对话系统在包括手机、平板、电视等在内的终端设备中得到广泛的应用。而为了满足用户对于对话系统的自然语言理解能力的高要求,需要不断优化基于NLU的语言算法模型,使其分类识别能力得到优化,进而更好的识别用户的意图。对此,现有技术常需要通过大量的训练数据对语言算法模型的分类识别能力进行优化训练,而在实际业务领域中,训练数据往往受长尾效应的影响而缺乏均衡性,大量类别模糊的边界语料因收录的频次较低而很少被抽取为训练数据,而少数类别清晰的数据因收录的频次较高,较多的被抽取为训练数据,导致语言算法模型无法对大量的边界数据进行准确的分类识别,进而使得语言算法模型的准确性较差。
技术实现思路
本申请实施例提供了一种数据的处理方法、装置、设备以及存储介质。实现对语言算法模型的准确性进行验证和优化。第一方面,提供了一种数据的处理方法,包括:根据预设的验证集,对语言算法模型进行验证,得到验证结果;验证集包括第一数据集,第一数据集包括从数据池抽样得到的多个第一数据,第一数据是携带有标签,且不确定度大于第一预设阈值的数据;根据验证结果,更新语言算法模型。在一种具体的实现方式中,根据验证集,对语言算法模型进行验证,得到验证结果,包括:< ...
【技术保护点】
1.一种数据的处理方法,其特征在于,包括:/n根据预设的验证集,对语言算法模型进行验证,得到验证结果;所述验证集包括第一数据集,所述第一数据集包括从数据池抽样得到的多个第一数据,所述第一数据是携带有标签,且不确定度大于第一预设阈值的数据;/n根据所述验证结果,更新所述语言算法模型。/n
【技术特征摘要】 【专利技术属性】
1.一种数据的处理方法,其特征在于,包括:
根据预设的验证集,对语言算法模型进行验证,得到验证结果;所述验证集包括第一数据集,所述第一数据集包括从数据池抽样得到的多个第一数据,所述第一数据是携带有标签,且不确定度大于第一预设阈值的数据;
根据所述验证结果,更新所述语言算法模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述验证集,对所述语言算法模型进行验证,得到验证结果,包括:
针对所述验证集中的每个验证数据,将所述验证数据输入所述语言算法模型,得到所述语言算法模型针对所述验证数据的输出结果;
根据所述输出结果和所述验证数据的标签,确定所述语言算法模型针对所述验证数据的输出结果是否正确。
3.根据权利要求2所述的方法,其特征在于,所述根据所述输出结果和所述验证数据的标签,确定所述语言算法模型针对所述验证数据的输出结果是否正确,包括:
确定所述输出结果和所述验证数据的标签是否相同;
若所述输出结果和所述验证数据的标签相同,则所述语言算法模型针对所述验证数据的输出结果正确;
否则,所述语言算法模型针对所述验证数据的输出结果错误。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述验证结果,更新所述语言算法模型,包括:
根据所述验证结果,确定所述语言算法模型是否满足第一更新条件;
在所述语言算法模型满足所述第一更新条件时,根据预设的训练集,对所述语言算法模型进行训练;所述训练集包括第二数据集,所述第二数据集包括从所述数据池中抽样得到的多个第二数据,所述第二数据是携带有标签,且不确定度大于第二预设阈值的数据;
将所述语言算法模型更新为训练后的语言算法模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述验证结果,确定所述语言算法模型是否满足第一更新条件,包括:
根据所述验证结果,确定所述语言算法模型针对全部验证数据的输出结果的正确率是否小于第一预设正确率阈值;
若所述语言算法模型针对全部验证数据的输出结果的正确率小于第一预设正确率阈值,则所述语言算法模型满足所述第一更新条件;
否则,所述语言算法模型不满足所述第一更新条件。
6.根据权利要求4所述的方法,其特征在于,所述根据所述验证结果,确定所述语言算法模型是否满足第一更新条件,包括:
根据所述验证结果,确定所述语言算法模型针对所述第一数据集的输出结果的正确率是否小于第二预设正确率阈值;
若所述语言算法模型针对所述第一数据集的输出结果的正确率小于第二预设正确率阈值,则所述语言算法模型满足所述第一更新条件;
否则,所述语言算法模型不满足所述第一更新条件。
7.根据权利要求4所述的方法,其特征在于,所述根据所述验证结果,确定所述语言算法模型是否满足第一更新条件,包括:
根据所述验证结果,确定第一占比是否大于第一预设占比阈值;所述第一占比为所述语言算法模型的错误输出结果对应的第一数据的数量占所述语言算法模型的错误输出结果对应的验证数据的数量的比例;
若所述第一占比大于所述第一预设占比阈值,则所述语言算法模型满足所述第一更新条件;
否则,所述语言算法模型不满足所述第一更新条件。
8.根据权利要求4所述的方法,其特征在于,所述根据预设的训练集,对所述语言算法模型进行训练,包括:
根据所述验证结果,确定所述语言算法模型是否满足第二更新条件;所述第二更新条件与所述第一更新条件不同;
在所述语言算法模型满足所述第二更新条件时,获取第三数据集;所述第三数据集包括从所述数据池中抽样得到的多个第三数据,所述第三数据是携带有标签,且不确定度大于第三预设阈值的数据;
将所述第三数据集合入所述训练集,并根据所述训练集对所述语言算法模型进行训练。
9.根据权利要求8所述的方法,其特征在于,所述根据所述验证结果,确定所述语言算法模型是否满足第二更新条件,包括:
根据所述验证结果,确定所述语言算法模型针对全部验证数据的输出结果的正确率是否小于第三预设正确率阈值;
若所述语言算法模型针对全部验证数据的输出结果的正确率小于第三预设正确率阈值,则所述语言算法模型满足所述第二更新条件;
否则,所述语言算法模型不满足所述第二更新条件。
10.根据权利要求8所述的方法,其特征在于,所述根据所述验证结果,确定所述语言算法模型是否满足第二更新条件,包括:
根据所述验证结果,确定所述语言算法模型针对所述第一数据集的输出结果的正确率是否小于第四预设正确率阈值;
若所述语言算法模型针对所述第一数据集的输出结果的正确率小于第四预设正确率阈值,则所述语言算法模型满足所述第二更新条件;
否则,所述语言算法模型不满足所述第二更新条件。
11.根据权利要求8所述的方法,其特征在于,所述根据所述验证结果,确定所述语言算法模型是否满足第二更新条件,包括:
根据所述验证结果,确定第一占比是否大于第二预设占比阈值;所述第一占比为所述语言算法模型的错误输出结果对应的第一数据的数量占所述语言算法模型的错误输出结果对应的验证数据的数量的比例;
若所述第一占比大于所述第二预设占比阈值,则所述语言算法模型满足所述第二更新条件;
否则,所述语言算法模型不满足所述第二更新条件。
12.根据权利要求8所述的方法,其特征在于,所述第一数据集、所述第二数据集和所述第三数据集中的任意两个数据集均可以为互斥的数据集合,或者为含有部分相同数据的数据集合。
13.根据权利要求1至3任一项所述的方法,其特征在于,在所述根据预先获取的验证集,对语言算法模型进行验证,得到验证结果之前,所述方法还包括:
根据第一预设阈值,从所述数据池进行抽样,得到所述第一数据集,所述数据池为基于未标注样本集得到的所有不确定度大于预设不确定度阈值的数据,并且每个数据均携带有标签。
14.根据权利要求13所述的方法,其特征在于,在所述从所述数据池进行抽样,得到所述第一数据集之前,所述方法还包括:
将所述未标注样本集中的每个未标注样本数据输入分类模型,得到多个不确定度大于预设阈值的未标注样本数据;所述分类模型为基于主动学习模型预先训练得到的;
对所述多个不确定度大于预设不确定度阈值的未标注样本数据进行标签标注;
由标注后的多个不确定度大于预设不确定度阈值的数据组成所述数据池。
15.根据权利要求13所述的方法,其特征在于,所述将所述未标注样本集中的每个未标注样本数据输入分类模型,得到多个不确定度大于预设阈值的未标注样本数据,包括:
通过所述分类模型的查询函数,对每个未标注样本数据的分类结果进行打分,得到所述未标注样本数据的不确定度;
比较每个未标注样本数据的不确定度和所述预设阈值,得到所述多个不确定度大于预设阈值的未标注样本数据。
16.根据权利要求1至3任一项所述的方法,其特征在于,在所述根据所述验证结果,更新所述语言算法模型之后,所述方法还包括:
根据预设的测试集对所述语言算法模型进行泛化测试,得到测试结果;所述测试集包括第四数据集,所述第四数据集包括从所述数据池中抽样得到的多个第四数据,所述第四数据是携带有标签,且不确定度大于第四预设阈值的数据,所述测试结果用于指示更新后的语言算法模型的准确性。
技术研发人员:肖芃芃,
申请(专利权)人:OPPO重庆智能科技有限公司,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。