一种训练样本有效性检测方法及装置制造方法及图纸

技术编号:21399050 阅读:42 留言:0更新日期:2019-06-19 07:00
本发明专利技术实施例提供了一种训练样本有效性检测方法及装置,本发明专利技术涉及人工智能技术领域,方法包括:获取多个扩展问,其中,每个扩展问与对应的一个预设标准问关联;将多个扩展问随机分为预设份数的样本集,并根据预设比例将预设份数的样本集分为训练集和交叉验证集;利用训练集训练分类模型;采用交叉验证方法,并利用分类模型对交叉验证集中的多个扩展问标注,直至所有的扩展问标注完成;获取分类模型输出的所有的扩展问的标注结果;根据标注结果得到异常扩展问,异常扩展问的标注结果与所关联的预设标准问不同。本发明专利技术实施例提供的技术方案能够解决现有技术中训练样本有效性检测效率低的问题。

【技术实现步骤摘要】
一种训练样本有效性检测方法及装置
本专利技术涉及人工智能
,尤其涉及一种训练样本有效性检测方法及装置。
技术介绍
目前,客服机器人发展趋于成熟,根据所需要实现的业务场景,需要大量的训练语料对基于机器学习智能应答模型进行训练,然而,现实中训练语料往往质量参差不齐,不好的语料会导致应答模型的回答效果产生负面影响,因此如何提高训练样本的有效性检测效率成为目前亟待解决的问题。
技术实现思路
有鉴于此,本专利技术实施例提供了一种训练样本有效性检测方法、装置和计算机设备,用以解决现有技术中训练样本的有效性检测效率低的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种训练样本有效性检测方法,所述方法包括:步骤S101,获取多个扩展问,其中,每个所述扩展问与对应的一个预设标准问关联;步骤S102,将多个所述扩展问随机分为预设份数的样本集,并根据预设比例将所述预设份数的样本集分为训练集和交叉验证集;步骤S103,利用所述训练集训练分类模型;步骤S104,采用交叉验证方法,并利用所述分类模型对所述交叉验证集中的多个扩展问标注,直至所有的所述扩展问标注完成;步骤S105,获取所述分类模型输出的所有的所述扩展问的标注结果;步骤S106,根据所述标注结果得到异常扩展问,所述异常扩展问的标注结果与所关联的预设标准问不同。进一步地,在所述步骤S105之后,所述方法还包括:重复操作M次的所述步骤S102至所述步骤S104,其中,M为大于1的自然数,每次重复操作前对所述分类模型进行初始化;获取所述分类模型的输出的所有的所述扩展问的M次标注结果;当所述扩展问的标注结果与所述预设标准问相同时,所述扩展问的当次计分为第一预设分值;或,当所述扩展问的标注结果与所述预设标准问不同时,所述扩展问的当次计分为第二预设分值;计算各个所述扩展问的第一累计得分;筛选出所述第一累计得分小于第一预设阈值的所述扩展问;将筛选出的扩展问作为所述异常扩展问,并输出。进一步地,在所述获取所述分类模型的输出的所有的所述扩展问的M次标注结果之后,所述方法还包括:当所述标注结果与所述预设标准问相同时,由所述标注结果与所述预设标准问所组成的标准问对的当次计分为所述第一预设分值;或,当所述标注结果与所述预设标准问不同时,所述标准问对的当次计分为所述第二预设分值;计算各个所述标准问对的第二累计得分;筛选出所述第二累计得分小于第二预设阈值的所述标准问对;将筛选出的标准问对作为易混淆标准问对,并输出。进一步地,在所述步骤S105之后,所述方法还包括:获取实质相同的多个扩展问的标注结果,所述实质相同的多个扩展问的语义相似度大于预设值;统计所述实质相同的多个扩展问的标注结果;将重复次数最多的标注结果作为所述实质相同的多个扩展问对应的正确预设标准问;将所述标注结果与所述正确预设标准问不同的扩展问确认为所述异常扩展问。进一步地,在所述将所述标注结果与所述正确预设标准问不同的扩展问确认为所述异常扩展问之后,所述方法还包括:将所述异常扩展问所关联的预设标准问修改为所述正确预设标准问。进一步地,所述方法还包括:修正所述异常扩展问,并用修正后的所述异常扩展问替换原扩展问;用替换后的多个所述扩展问训练所述分类模型。进一步地,所述交叉验证方法为十折交叉验证方法或五折交叉验证方法中的任意一种。为了实现上述目的,根据本专利技术的一个方面,提供了一种训练样本有效性检测装置,其特征在于,所述装置包括:第一获取单元,用于获取多个扩展问,其中,每个所述扩展问基于预设分类规则与对应的一个预设标准问关联;制作单元,用于将多个所述扩展问随机分为预设份数的样本集,并根据预设比例将所述预设份数的样本集分为训练集和交叉验证集;训练单元,用于利用所述训练集训练分类模型;标注单元,用于采用交叉验证方法,并利用所述分类模型对所述交叉验证集中的多个扩展问标注,直至所有的所述扩展问标注完成;第二获取单元,用于获取所述分类模型输出的所有的所述扩展问的标注结果;处理单元,用于根据所述标注结果得到异常扩展问,所述异常扩展问的标注结果与所关联的预设标准问不同。进一步地,所述装置还包括:重复单元,用于重复操作M次的所述步骤S102至所述步骤S104,其中,M为大于1的自然数,每次重复操作前对所述分类模型进行初始化;所述第二获取单元,还用于获取所述分类模型的输出的所有的所述扩展问的M次标注结果;计分单元,用于当所述扩展问的标注结果与所述预设标准问相同时,所述扩展问的当次计分为第一预设分值;或,当所述扩展问的标注结果与所述预设标准问不同时,所述扩展问的当次计分为第二预设分值;计算单元,用于计算各个所述扩展问的第一累计得分;筛选单元,用于筛选出所述第一累计得分小于第一预设阈值的扩展问;输出单元,用于将筛选出的扩展问作为所述异常扩展问,并输出。为了实现上述目的,根据本专利技术的一个方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的训练样本有效性检测方法的步骤。在本方案中,利用交叉验证方法和分类模型来对扩展问进行标注,从而根据标注结果与扩展问关联的预设标准问进行匹配,得到异常扩展问,快速筛选出异常扩展问,提高了训练样本的有效性检测效率,从而避免一些质量低的扩展问来训练智能应答模型。【附图说明】为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。图1是根据本专利技术实施例的一种训练样本有效性检测方法的流程图;图2是根据本专利技术实施例的一种训练样本有效性检测装置的示意图;图3是根据本专利技术实施例的一种计算机设备的示意图。【具体实施方式】为了更好的理解本专利技术的技术方案,下面结合附图对本专利技术实施例进行详细描述。应当明确,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。应当理解,尽管在本专利技术实施例中可能采用术语第一、第二、第三等来描述终端,但这些终端不应限于这些术语。这些术语仅用来将终端彼此区分开。例如,在不脱离本专利技术实施例范围的情况下,第一获取单元也可以被称为第二二获取单元,类似地,第二获取单元也可以被称为第一获取单元。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响本文档来自技高网...

【技术保护点】
1.一种训练样本有效性检测方法,其特征在于,所述方法包括:步骤S101,获取多个扩展问,其中,每个所述扩展问与对应的一个预设标准问关联;步骤S102,将多个所述扩展问随机分为预设份数的样本集,并根据预设比例将所述预设份数的样本集分为训练集和交叉验证集;步骤S103,利用所述训练集训练分类模型;步骤S104,采用交叉验证方法,并利用所述分类模型对所述交叉验证集中的多个扩展问标注,直至所有的所述扩展问标注完成;步骤S105,获取所述分类模型输出的所有的所述扩展问的标注结果;步骤S106,根据所述标注结果得到异常扩展问,所述异常扩展问的标注结果与所关联的预设标准问不同。

【技术特征摘要】
1.一种训练样本有效性检测方法,其特征在于,所述方法包括:步骤S101,获取多个扩展问,其中,每个所述扩展问与对应的一个预设标准问关联;步骤S102,将多个所述扩展问随机分为预设份数的样本集,并根据预设比例将所述预设份数的样本集分为训练集和交叉验证集;步骤S103,利用所述训练集训练分类模型;步骤S104,采用交叉验证方法,并利用所述分类模型对所述交叉验证集中的多个扩展问标注,直至所有的所述扩展问标注完成;步骤S105,获取所述分类模型输出的所有的所述扩展问的标注结果;步骤S106,根据所述标注结果得到异常扩展问,所述异常扩展问的标注结果与所关联的预设标准问不同。2.根据权利要求1所述的方法,其特征在于,在所述步骤S105之后,所述方法还包括:重复操作M次的所述步骤S102至所述步骤S104,其中,M为大于1的自然数,每次重复操作前对所述分类模型进行初始化设置;获取所述分类模型的输出的所有的所述扩展问的M次标注结果;当所述扩展问的标注结果与所述预设标准问相同时,所述扩展问的当次计分为第一预设分值;或,当所述扩展问的标注结果与所述预设标准问不同时,所述扩展问的当次计分为第二预设分值;计算各个所述扩展问的第一累计得分;筛选出所述第一累计得分小于第一预设阈值的所述扩展问;将筛选出的扩展问作为所述异常扩展问,并输出。3.根据权利要求2所述的方法,其特征在于,在所述获取所述分类模型的输出的所有的所述扩展问的M次标注结果之后,所述方法还包括:当所述标注结果与所述预设标准问相同时,由所述标注结果与所述预设标准问所组成的标准问对的当次计分为所述第一预设分值;或,当所述标注结果与所述预设标准问不同时,所述标准问对的当次计分为所述第二预设分值;计算各个所述标准问对的第二累计得分;筛选出所述第二累计得分小于第二预设阈值的所述标准问对;将筛选出的标准问对作为易混淆标准问对,并输出。4.根据权利要求1所述的方法,其特征在于,在所述步骤S105之后,所述方法还包括:获取实质相同的多个扩展问的标注结果,所述实质相同的多个扩展问的语义相似度大于预设值;统计所述实质相同的多个扩展问的标注结果;将重复次数最多的标注结果作为所述实质相同的多个扩展问对应的正确预设标准问;将所述标注结果与所述正确预设标准问不同的扩展问确...

【专利技术属性】
技术研发人员:许开河杜尧鑫王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1