一种训练样本有效性检测方法及装置制造方法及图纸

技术编号：21399050 阅读：42 留言：0更新日期：2019-06-19 07:00

本发明专利技术实施例提供了一种训练样本有效性检测方法及装置，本发明专利技术涉及人工智能技术领域，方法包括：获取多个扩展问，其中，每个扩展问与对应的一个预设标准问关联；将多个扩展问随机分为预设份数的样本集，并根据预设比例将预设份数的样本集分为训练集和交叉验证集；利用训练集训练分类模型；采用交叉验证方法，并利用分类模型对交叉验证集中的多个扩展问标注，直至所有的扩展问标注完成；获取分类模型输出的所有的扩展问的标注结果；根据标注结果得到异常扩展问，异常扩展问的标注结果与所关联的预设标准问不同。本发明专利技术实施例提供的技术方案能够解决现有技术中训练样本有效性检测效率低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种训练样本有效性检测方法及装置
本专利技术涉及人工智能
，尤其涉及一种训练样本有效性检测方法及装置。
技术介绍
目前，客服机器人发展趋于成熟，根据所需要实现的业务场景，需要大量的训练语料对基于机器学习智能应答模型进行训练，然而，现实中训练语料往往质量参差不齐，不好的语料会导致应答模型的回答效果产生负面影响，因此如何提高训练样本的有效性检测效率成为目前亟待解决的问题。
技术实现思路
有鉴于此，本专利技术实施例提供了一种训练样本有效性检测方法、装置和计算机设备，用以解决现有技术中训练样本的有效性检测效率低的问题。为了实现上述目的，根据本专利技术的一个方面，提供了一种训练样本有效性检测方法，所述方法包括：步骤S101，获取多个扩展问，其中，每个所述扩展问与对应的一个预设标准问关联；步骤S102，将多个所述扩展问随机分为预设份数的样本集，并根据预设比例将所述预设份数的样本集分为训练集和交叉验证集；步骤S103，利用所述训练集训练分类模型；步骤S104，采用交叉验证方法，并利用所述分类模型对所述交叉验证集中的多个扩展问标注，直至所有的所述扩展问标注完成；步骤S105，获取所述分类模型输出的所有的所述扩展问的标注结果；步骤S106，根据所述标注结果得到异常扩展问，所述异常扩展问的标注结果与所关联的预设标准问不同。进一步地，在所述步骤S105之后，所述方法还包括：重复操作M次的所述步骤S102至所述步骤S104，其中，M为大于1的自然数，每次重复操作前对所述分类模型进行初始化；获取所述分类模型的输出的所有的所述扩展问的M次标注结果；当所述扩展问的标注结果...

【技术保护点】
1.一种训练样本有效性检测方法，其特征在于，所述方法包括：步骤S101，获取多个扩展问，其中，每个所述扩展问与对应的一个预设标准问关联；步骤S102，将多个所述扩展问随机分为预设份数的样本集，并根据预设比例将所述预设份数的样本集分为训练集和交叉验证集；步骤S103，利用所述训练集训练分类模型；步骤S104，采用交叉验证方法，并利用所述分类模型对所述交叉验证集中的多个扩展问标注，直至所有的所述扩展问标注完成；步骤S105，获取所述分类模型输出的所有的所述扩展问的标注结果；步骤S106，根据所述标注结果得到异常扩展问，所述异常扩展问的标注结果与所关联的预设标准问不同。

【技术特征摘要】
1.一种训练样本有效性检测方法，其特征在于，所述方法包括：步骤S101，获取多个扩展问，其中，每个所述扩展问与对应的一个预设标准问关联；步骤S102，将多个所述扩展问随机分为预设份数的样本集，并根据预设比例将所述预设份数的样本集分为训练集和交叉验证集；步骤S103，利用所述训练集训练分类模型；步骤S104，采用交叉验证方法，并利用所述分类模型对所述交叉验证集中的多个扩展问标注，直至所有的所述扩展问标注完成；步骤S105，获取所述分类模型输出的所有的所述扩展问的标注结果；步骤S106，根据所述标注结果得到异常扩展问，所述异常扩展问的标注结果与所关联的预设标准问不同。2.根据权利要求1所述的方法，其特征在于，在所述步骤S105之后，所述方法还包括：重复操作M次的所述步骤S102至所述步骤S104，其中，M为大于1的自然数，每次重复操作前对所述分类模型进行初始化设置；获取所述分类模型的输出的所有的所述扩展问的M次标注结果；当所述扩展问的标注结果与所述预设标准问相同时，所述扩展问的当次计分为第一预设分值；或，当所述扩展问的标注结果与所述预设标准问不同时，所述扩展问的当次计分为第二预设分值；计算各个所述扩展问的第一累计得分；筛选出所述第一累计得分小于第一预设阈值的所述扩展问；将筛选出的扩展问作为所述异常扩展问，并输出。3.根据权利要求2所述的方法，其特征在于，在所述获取所述分类模型的输出的所有的所述扩展问的M次标注结果之后，所述方法还包括：当所述标注结果与所述预设标准问相同时，由所述标注结果与所述预设标准问所组成的标准问对的当次计分为所述第一预设分值；或，当所述标注结果与所述预设标准问不同时，所述标准问对的当次计分为所述第二预设分值；计算各个所述标准问对的第二累计得分；筛选出所述第二累计得分小于第二预设阈值的所述标准问对；将筛选出的标准问对作为易混淆标准问对，并输出。4.根据权利要求1所述的方法，其特征在于，在所述步骤S105之后，所述方法还包括：获取实质相同的多个扩展问的标注结果，所述实质相同的多个扩展问的语义相似度大于预设值；统计所述实质相同的多个扩展问的标注结果；将重复次数最多的标注结果作为所述实质相同的多个扩展问对应的正确预设标准问；将所述标注结果与所述正确预设标准问不同的扩展问确...

【专利技术属性】
技术研发人员：许开河，杜尧鑫，王少军，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人