数据的处理方法、装置、设备以及存储介质制造方法及图纸

技术编号:26532791 阅读:10 留言:0更新日期:2020-12-01 14:17
本申请实施例提供了一种数据的处理方法、装置、设备以及存储介质。该方法包括:根据预设的验证集,对语言算法模型进行验证,得到验证结果,该验证集包括第一数据集,第一数据集包括从数据池抽样得到的多个第一数据,第一数据是携带有标签,且不确定度大于第一预设阈值的数据;根据验证结果,更新语言算法模型。从而实现对语言算法模型对包括不确定度高的数据在内的识别准确性。

【技术实现步骤摘要】
数据的处理方法、装置、设备以及存储介质
本申请实施例涉及语言识别
,并且更具体地,涉及数据的处理方法、装置、设备以及存储介质。
技术介绍
随着语言识别技术的不断发展,基于自然语言理解(NaturalLanguageUnderstanding,NLU)的对话系统在包括手机、平板、电视等在内的终端设备中得到广泛的应用。而为了满足用户对于对话系统的自然语言理解能力的高要求,需要不断优化基于NLU的语言算法模型,使其分类识别能力得到优化,进而更好的识别用户的意图。对此,现有技术常需要通过大量的训练数据对语言算法模型的分类识别能力进行优化训练,而在实际业务领域中,训练数据往往受长尾效应的影响而缺乏均衡性,大量类别模糊的边界语料因收录的频次较低而很少被抽取为训练数据,而少数类别清晰的数据因收录的频次较高,较多的被抽取为训练数据,导致语言算法模型无法对大量的边界数据进行准确的分类识别,进而使得语言算法模型的准确性较差。
技术实现思路
本申请实施例提供了一种数据的处理方法、装置、设备以及存储介质。实现对语言算法模型的准确性进行验证和优化。第一方面,提供了一种数据的处理方法,包括:根据预设的验证集,对语言算法模型进行验证,得到验证结果;验证集包括第一数据集,第一数据集包括从数据池抽样得到的多个第一数据,第一数据是携带有标签,且不确定度大于第一预设阈值的数据;根据验证结果,更新语言算法模型。在一种具体的实现方式中,根据验证集,对语言算法模型进行验证,得到验证结果,包括:<br>针对验证集中的每个验证数据,将验证数据输入语言算法模型,得到语言算法模型针对验证数据的输出结果;根据输出结果和验证数据的标签,确定语言算法模型针对验证数据的输出结果是否正确。在一种具体的实现方式中,根据输出结果和验证数据的标签,确定语言算法模型针对验证数据的输出结果是否正确,包括:确定输出结果和验证数据的标签是否相同;若输出结果和验证数据的标签相同,则语言算法模型针对验证数据的输出结果正确;否则,语言算法模型针对验证数据的输出结果错误。在一种具体的实现方式中,根据验证结果,更新语言算法模型,包括:根据验证结果,确定语言算法模型是否满足第一更新条件;在语言算法模型满足第一更新条件时,根据预设的训练集,对语言算法模型进行训练;训练集包括第二数据集,第二数据集包括从数据池中抽样得到的多个第二数据,第二数据是携带有标签,且不确定度大于第二预设阈值的数据;将语言算法模型更新为训练后的语言算法模型。在一种具体的实现方式中,根据验证结果,确定语言算法模型是否满足第一更新条件,包括:根据验证结果,确定语言算法模型针对全部验证数据的输出结果的正确率是否小于第一预设正确率阈值;若语言算法模型针对全部验证数据的输出结果的正确率小于第一预设正确率阈值,则语言算法模型满足第一更新条件;否则,语言算法模型不满足第一更新条件。在一种具体的实现方式中,根据验证结果,确定语言算法模型是否满足第一更新条件,包括:根据验证结果,确定语言算法模型针对第一数据集的输出结果的正确率是否小于第二预设正确率阈值;若语言算法模型针对第一数据集的输出结果的正确率小于第二预设正确率阈值,则语言算法模型满足第一更新条件;否则,语言算法模型不满足第一更新条件。在一种具体的实现方式中,根据验证结果,确定语言算法模型是否满足第一更新条件,包括:根据验证结果,确定第一占比是否大于第一预设占比阈值;第一占比为语言算法模型的错误输出结果对应的第一数据的数量占语言算法模型的错误输出结果对应的验证数据的数量的比例;若第一占比大于第一预设占比阈值,则语言算法模型满足第一更新条件;否则,语言算法模型不满足第一更新条件。可选的,在根据预设的训练集,对语言算法模型进行训练之前,方法还包括:根据验证结果,确定语言算法模型是否满足第二更新条件;第二更新条件与第一更新条件不同;在语言算法模型满足第二更新条件时,获取第三数据集;第三数据集包括从数据池中抽样得到的多个第三数据,第三数据是携带有标签,且不确定度大于第三预设阈值的数据;将第三数据集合入训练集,并根据训练集对语言算法模型进行训练。在一种具体的实现方式中,根据验证结果,确定语言算法模型是否满足第二更新条件,包括:根据验证结果,确定语言算法模型针对全部验证数据的输出结果的正确率是否小于第三预设正确率阈值;若语言算法模型针对全部验证数据的输出结果的正确率小于第三预设正确率阈值,则语言算法模型满足第二更新条件;否则,语言算法模型不满足第二更新条件。在一种具体的实现方式中,根据验证结果,确定语言算法模型是否满足第二更新条件,包括:根据验证结果,确定语言算法模型针对第一数据集的输出结果的正确率是否小于第四预设正确率阈值;若语言算法模型针对第一数据集的输出结果的正确率小于第四预设正确率阈值,则语言算法模型满足第二更新条件;否则,语言算法模型不满足第二更新条件。在一种具体的实现方式中,根据验证结果,确定语言算法模型是否满足第二更新条件,包括:根据验证结果,确定第一占比是否大于第二预设占比阈值;第一占比为语言算法模型的错误输出结果对应的第一数据的数量占语言算法模型的错误输出结果对应的验证数据的数量的比例;若第一占比大于第二预设占比阈值,则语言算法模型满足第二更新条件;否则,语言算法模型不满足第二更新条件。可选的,第一数据集、第二数据集和第三数据集中的任意两个数据集均可以为互斥的数据集合,或者为含有部分相同数据的数据集合。可选的,在根据预先获取的验证集,对语言算法模型进行验证,得到验证结果之前,方法还包括:根据第一预设阈值,从数据池进行抽样,得到第一数据集,数据池为基于未标注样本集得到的所有不确定度大于预设不确定度阈值的数据,并且每个数据均携带有标签。可选的,在从数据池进行抽样,得到第一数据集之前,方法还包括:将未标注样本集中的每个未标注样本数据输入分类模型,得到多个不确定度大于预设阈值的未标注样本数据;分类模型为基于主动学习模型预先训练得到的;对多个不确定度大于预设不确定度阈值的未标注样本数据进行标签标注;由标注后的多个不确定度大于预设不确定度阈值的数据组成数据池。在一种具体的实现方式中,将未标注样本集中的每个未标注样本数据输入分类模型,得到多个不确定度大于预设阈值的未标注样本数据,包括:通过分类模型的查询函数,对每个未标注样本数据的分类结果进行打分,得到未标注样本数据的不确定度;比较每个未标注样本数据的不确定度和预设阈值,得到多个不确定度大于预设阈值的未标注样本数据。可选的,在根据验证结果,更新语言算法模型之后,方法还包括:根据预设的测试集对语言算法模型进行泛化测试,得到测试结果;测试集包本文档来自技高网...

【技术保护点】
1.一种数据的处理方法,其特征在于,包括:/n根据预设的验证集,对语言算法模型进行验证,得到验证结果;所述验证集包括第一数据集,所述第一数据集包括从数据池抽样得到的多个第一数据,所述第一数据是携带有标签,且不确定度大于第一预设阈值的数据;/n根据所述验证结果,更新所述语言算法模型。/n

【技术特征摘要】
1.一种数据的处理方法,其特征在于,包括:
根据预设的验证集,对语言算法模型进行验证,得到验证结果;所述验证集包括第一数据集,所述第一数据集包括从数据池抽样得到的多个第一数据,所述第一数据是携带有标签,且不确定度大于第一预设阈值的数据;
根据所述验证结果,更新所述语言算法模型。


2.根据权利要求1所述的方法,其特征在于,所述根据所述验证集,对所述语言算法模型进行验证,得到验证结果,包括:
针对所述验证集中的每个验证数据,将所述验证数据输入所述语言算法模型,得到所述语言算法模型针对所述验证数据的输出结果;
根据所述输出结果和所述验证数据的标签,确定所述语言算法模型针对所述验证数据的输出结果是否正确。


3.根据权利要求2所述的方法,其特征在于,所述根据所述输出结果和所述验证数据的标签,确定所述语言算法模型针对所述验证数据的输出结果是否正确,包括:
确定所述输出结果和所述验证数据的标签是否相同;
若所述输出结果和所述验证数据的标签相同,则所述语言算法模型针对所述验证数据的输出结果正确;
否则,所述语言算法模型针对所述验证数据的输出结果错误。


4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述验证结果,更新所述语言算法模型,包括:
根据所述验证结果,确定所述语言算法模型是否满足第一更新条件;
在所述语言算法模型满足所述第一更新条件时,根据预设的训练集,对所述语言算法模型进行训练;所述训练集包括第二数据集,所述第二数据集包括从所述数据池中抽样得到的多个第二数据,所述第二数据是携带有标签,且不确定度大于第二预设阈值的数据;
将所述语言算法模型更新为训练后的语言算法模型。


5.根据权利要求4所述的方法,其特征在于,所述根据所述验证结果,确定所述语言算法模型是否满足第一更新条件,包括:
根据所述验证结果,确定所述语言算法模型针对全部验证数据的输出结果的正确率是否小于第一预设正确率阈值;
若所述语言算法模型针对全部验证数据的输出结果的正确率小于第一预设正确率阈值,则所述语言算法模型满足所述第一更新条件;
否则,所述语言算法模型不满足所述第一更新条件。


6.根据权利要求4所述的方法,其特征在于,所述根据所述验证结果,确定所述语言算法模型是否满足第一更新条件,包括:
根据所述验证结果,确定所述语言算法模型针对所述第一数据集的输出结果的正确率是否小于第二预设正确率阈值;
若所述语言算法模型针对所述第一数据集的输出结果的正确率小于第二预设正确率阈值,则所述语言算法模型满足所述第一更新条件;
否则,所述语言算法模型不满足所述第一更新条件。


7.根据权利要求4所述的方法,其特征在于,所述根据所述验证结果,确定所述语言算法模型是否满足第一更新条件,包括:
根据所述验证结果,确定第一占比是否大于第一预设占比阈值;所述第一占比为所述语言算法模型的错误输出结果对应的第一数据的数量占所述语言算法模型的错误输出结果对应的验证数据的数量的比例;
若所述第一占比大于所述第一预设占比阈值,则所述语言算法模型满足所述第一更新条件;
否则,所述语言算法模型不满足所述第一更新条件。


8.根据权利要求4所述的方法,其特征在于,所述根据预设的训练集,对所述语言算法模型进行训练,包括:
根据所述验证结果,确定所述语言算法模型是否满足第二更新条件;所述第二更新条件与所述第一更新条件不同;
在所述语言算法模型满足所述第二更新条件时,获取第三数据集;所述第三数据集包括从所述数据池中抽样得到的多个第三数据,所述第三数据是携带有标签,且不确定度大于第三预设阈值的数据;
将所述第三数据集合入所述训练集,并根据所述训练集对所述语言算法模型进行训练。


9.根据权利要求8所述的方法,其特征在于,所述根据所述验证结果,确定所述语言算法模型是否满足第二更新条件,包括:
根据所述验证结果,确定所述语言算法模型针对全部验证数据的输出结果的正确率是否小于第三预设正确率阈值;
若所述语言算法模型针对全部验证数据的输出结果的正确率小于第三预设正确率阈值,则所述语言算法模型满足所述第二更新条件;
否则,所述语言算法模型不满足所述第二更新条件。


10.根据权利要求8所述的方法,其特征在于,所述根据所述验证结果,确定所述语言算法模型是否满足第二更新条件,包括:
根据所述验证结果,确定所述语言算法模型针对所述第一数据集的输出结果的正确率是否小于第四预设正确率阈值;
若所述语言算法模型针对所述第一数据集的输出结果的正确率小于第四预设正确率阈值,则所述语言算法模型满足所述第二更新条件;
否则,所述语言算法模型不满足所述第二更新条件。


11.根据权利要求8所述的方法,其特征在于,所述根据所述验证结果,确定所述语言算法模型是否满足第二更新条件,包括:
根据所述验证结果,确定第一占比是否大于第二预设占比阈值;所述第一占比为所述语言算法模型的错误输出结果对应的第一数据的数量占所述语言算法模型的错误输出结果对应的验证数据的数量的比例;
若所述第一占比大于所述第二预设占比阈值,则所述语言算法模型满足所述第二更新条件;
否则,所述语言算法模型不满足所述第二更新条件。


12.根据权利要求8所述的方法,其特征在于,所述第一数据集、所述第二数据集和所述第三数据集中的任意两个数据集均可以为互斥的数据集合,或者为含有部分相同数据的数据集合。


13.根据权利要求1至3任一项所述的方法,其特征在于,在所述根据预先获取的验证集,对语言算法模型进行验证,得到验证结果之前,所述方法还包括:
根据第一预设阈值,从所述数据池进行抽样,得到所述第一数据集,所述数据池为基于未标注样本集得到的所有不确定度大于预设不确定度阈值的数据,并且每个数据均携带有标签。


14.根据权利要求13所述的方法,其特征在于,在所述从所述数据池进行抽样,得到所述第一数据集之前,所述方法还包括:
将所述未标注样本集中的每个未标注样本数据输入分类模型,得到多个不确定度大于预设阈值的未标注样本数据;所述分类模型为基于主动学习模型预先训练得到的;
对所述多个不确定度大于预设不确定度阈值的未标注样本数据进行标签标注;
由标注后的多个不确定度大于预设不确定度阈值的数据组成所述数据池。


15.根据权利要求13所述的方法,其特征在于,所述将所述未标注样本集中的每个未标注样本数据输入分类模型,得到多个不确定度大于预设阈值的未标注样本数据,包括:
通过所述分类模型的查询函数,对每个未标注样本数据的分类结果进行打分,得到所述未标注样本数据的不确定度;
比较每个未标注样本数据的不确定度和所述预设阈值,得到所述多个不确定度大于预设阈值的未标注样本数据。


16.根据权利要求1至3任一项所述的方法,其特征在于,在所述根据所述验证结果,更新所述语言算法模型之后,所述方法还包括:
根据预设的测试集对所述语言算法模型进行泛化测试,得到测试结果;所述测试集包括第四数据集,所述第四数据集包括从所述数据池中抽样得到的多个第四数据,所述第四数据是携带有标签,且不确定度大于第四预设阈值的数据,所述测试结果用于指示更新后的语言算法模型的准确性。

【专利技术属性】
技术研发人员:肖芃芃
申请(专利权)人:OPPO重庆智能科技有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1