验证分类器的训练数据制造技术

技术编号：23315189 阅读：24 留言：0更新日期：2020-02-11 17:49

一种用于评估和修改用于分类器的训练数据的方法、计算机程序产品和计算机系统。计算机系统将每个类别的每条训练数据应用于多个分类器。计算机系统执行针对每个类别的训练数据的评估和验证，并且如果每条训练数据的分类精度大于预定阈值，则定义针对每个类别的每条训练数据的至少一个代表性类别。计算机系统基于针对每个类别的训练数据的评估和验证的结果来修改训练数据。计算机系统执行针对代表性类别的训练数据的评估和验证。计算机系统基于针对代表性类别的训练数据的评估和验证的结果来修改训练数据。

Verify the training data of classifier

全部详细技术资料下载

【技术实现步骤摘要】
验证分类器的训练数据
本专利技术一般涉及验证分类器的训练数据，并且更具体地涉及评估和修改自动应答系统的分类器的训练数据。
技术介绍
包括半结构化和非结构化数据的大量数据被称为大数据。近年来，将大数据运用于商业活动和医疗服务的技术引起了关注。特别而言，诸如认知计算和深度学习之类的技术已被应用于这些领域。认知计算提供识别自然语言、语音和图像数据的能力。通过学习大量数据，深度学习已经大大提高了机器学习的准确度。自动应答系统是应用那些技术的系统。自动应答系统以诸如语音或键入的文本之类的自然语言来提供对问题的答案。在这样的系统中，通过使用分类器(例如，WatsonTM自然语言分类器)基于问题的意图对问题进行分类，然后提供答案。分类器是机器学习技术之一，并且也被称为监督学习。将由包括数据部分和类别在内的监督训练数据来训练分类器，然后分类器能够将非监督数据分类为最合适的类别。对于自然语言分类，问题的意图被视为类别，并且问题的陈述被视为数据部分。而且，为了提高分类器的准确度，更优选的是训练数据量更大。然而，在上述自动应答系统的情况下，数据部分是由自然语言编写的问题陈述，因此存在以下问题：(1)收集问题陈述并不容易；(2)作为训练数据收集的问题陈述的意图通常具有专门针对特定领域的内容，因此有必要由各个领域的专家等等来单独验证和确定意图。在某些情况下，可以创建问题陈述，诸如具有不明确内容的问题陈述，包括无法通过自然语言处理正确识别的表达；(3)经常发生错误分类。例如，新添加的问题陈述未能被正确地分类为添加的意图(或类别)，并且在...

【技术保护点】
1.一种用于评估和修改用于分类器的训练数据的方法，所述方法包括：/n由计算机系统将每个类别的每条训练数据应用于多个分类器；/n由所述计算机系统执行针对所述每个类别的所述训练数据的评估和验证；/n如果所述每条训练数据的分类精度大于预定阈值，则由所述计算机系统定义针对所述每个类别的所述每条训练数据的至少一个代表性类别；/n基于针对所述每个类别的所述训练数据的所述评估和所述验证的结果，由所述计算机系统修改所述训练数据以创建第一修改训练数据；/n由所述计算机系统执行针对代表性类别的所述第一修改训练数据的评估和验证；以及/n基于针对所述代表性类别的所述第一修改训练数据的所述评估和所述验证的结果，由所述计算机系统修改所述第一修改训练数据以创建第二修改训练数据。/n

【技术特征摘要】
20180730 US 16/048,7561.一种用于评估和修改用于分类器的训练数据的方法，所述方法包括：
由计算机系统将每个类别的每条训练数据应用于多个分类器；
由所述计算机系统执行针对所述每个类别的所述训练数据的评估和验证；
如果所述每条训练数据的分类精度大于预定阈值，则由所述计算机系统定义针对所述每个类别的所述每条训练数据的至少一个代表性类别；
基于针对所述每个类别的所述训练数据的所述评估和所述验证的结果，由所述计算机系统修改所述训练数据以创建第一修改训练数据；
由所述计算机系统执行针对代表性类别的所述第一修改训练数据的评估和验证；以及
基于针对所述代表性类别的所述第一修改训练数据的所述评估和所述验证的结果，由所述计算机系统修改所述第一修改训练数据以创建第二修改训练数据。

2.根据权利要求1所述的方法，用于修改所述训练数据以创建所述第一修改训练数据，还包括：
响应于确定一条训练数据的分类精度低于预定值并且针对该条训练数据的代表性类别是单个类别，由所述计算机系统改变该条训练数据的类别值。

3.根据权利要求1所述的方法，用于修改所述训练数据以创建所述第一修改训练数据，还包括：
响应于确定一条训练数据的分类精度低于预定值并且针对该条训练数据的代表性类别是多个，由所述计算机系统删除该条训练数据。

4.根据权利要求1所述的方法，用于修改所述第一修改训练数据以创建所述第二修改训练数据，还包括：
响应于确定一个类别的分类精度低于预定值并且针对所述类别的代表性类别是多个，由所述计算机系统移除所述类别。

5.根据权利要求1所述的方法，用于修改所述第一修改训练数据以创建所述第二修改训练数据，还包括：
响应于确定针对两个类别中的每一个类别的分类精度低于预定值并且所述两个类别中的一个类别的代表性类别属于所述两个类别中的另一个类别，由所述计算机系统将所述两个类别合并为一个类别。

6.根据权利要求1所述的方法，其中在执行针对所述每个类别的所述训练数据的所述评估和所述验证时执行类型I错误的分析，其中在执行针对所述代表性类别的所述训练数据的所述评估和所述验证时执行类型II错误的分析。

7.一种用于评估和修改用于分类器的训练数据的计算机程序产品，所述计算机程序产品包括一个或多个计算机可读有形存储设备和存储在所述一个或多个计算机可读有形存储设备中的至少一个计算机可读有形存储设备上的程序指令，所述程序指令可被执行以执行根据权利要求1至6中任一项所述的方法的方法。

8.一种用于评估和修改用于分类器的训练数据的系统，包括：
存储器；
处理单元，所述处理单元可操作地耦合到所述存储器，以执行根据权利要求1到6中任一项所述...

【专利技术属性】
技术研发人员：小林武彦，松泽裕史，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人