验证分类器的训练数据制造技术

技术编号:23315189 阅读:24 留言:0更新日期:2020-02-11 17:49
一种用于评估和修改用于分类器的训练数据的方法、计算机程序产品和计算机系统。计算机系统将每个类别的每条训练数据应用于多个分类器。计算机系统执行针对每个类别的训练数据的评估和验证,并且如果每条训练数据的分类精度大于预定阈值,则定义针对每个类别的每条训练数据的至少一个代表性类别。计算机系统基于针对每个类别的训练数据的评估和验证的结果来修改训练数据。计算机系统执行针对代表性类别的训练数据的评估和验证。计算机系统基于针对代表性类别的训练数据的评估和验证的结果来修改训练数据。

Verify the training data of classifier

【技术实现步骤摘要】
验证分类器的训练数据
本专利技术一般涉及验证分类器的训练数据,并且更具体地涉及评估和修改自动应答系统的分类器的训练数据。
技术介绍
包括半结构化和非结构化数据的大量数据被称为大数据。近年来,将大数据运用于商业活动和医疗服务的技术引起了关注。特别而言,诸如认知计算和深度学习之类的技术已被应用于这些领域。认知计算提供识别自然语言、语音和图像数据的能力。通过学习大量数据,深度学习已经大大提高了机器学习的准确度。自动应答系统是应用那些技术的系统。自动应答系统以诸如语音或键入的文本之类的自然语言来提供对问题的答案。在这样的系统中,通过使用分类器(例如,WatsonTM自然语言分类器)基于问题的意图对问题进行分类,然后提供答案。分类器是机器学习技术之一,并且也被称为监督学习。将由包括数据部分和类别在内的监督训练数据来训练分类器,然后分类器能够将非监督数据分类为最合适的类别。对于自然语言分类,问题的意图被视为类别,并且问题的陈述被视为数据部分。而且,为了提高分类器的准确度,更优选的是训练数据量更大。然而,在上述自动应答系统的情况下,数据部分是由自然语言编写的问题陈述,因此存在以下问题:(1)收集问题陈述并不容易;(2)作为训练数据收集的问题陈述的意图通常具有专门针对特定领域的内容,因此有必要由各个领域的专家等等来单独验证和确定意图。在某些情况下,可以创建问题陈述,诸如具有不明确内容的问题陈述,包括无法通过自然语言处理正确识别的表达;(3)经常发生错误分类。例如,新添加的问题陈述未能被正确地分类为添加的意图(或类别),并且在常规训练数据中被分类为另一意图的问题陈述被分类为添加的意图(类别)。众所周知,优选地,应获得更大量的数据以提高机器学习的准确度。还已知通过去除导致噪声的数据(该数据是不能被正确分类的数据或降低学习准确度的数据)来提高分类准确度。已经研究了通过去除噪声数据来提高分类器的准确度的方法。然而,在自动应答系统的情况下,仅增加分类器的精度不一定有助于改善自动应答系统的性能。
技术实现思路
在一个方面,提供了一种用于评估和修改用于分类器的训练数据的方法。该方法包括由计算机系统将每个类别的每条训练数据应用于多个分类器。该方法还包括由该计算机系统执行针对每个类别的训练数据的评估和验证。该方法还包括:如果每条训练数据的分类精度大于预定阈值,则由计算机系统定义针对每个类别的每条训练数据的至少一个代表性类别。该方法还包括基于针对每个类别的训练数据的评估和验证的结果,由计算机系统修改训练数据以创建第一修改训练数据。该方法还包括由计算机系统执行针对代表性类别的第一修改训练数据的评估和验证。该方法还包括基于针对代表性类别的第一修改训练数据的评估和验证的结果,由计算机系统修改第一修改训练数据,以创建第二修改训练数据。在另一方面,提供了一种用于评估和修改用于分类器的训练数据的计算机程序产品。该计算机程序产品包括一个或多个计算机可读有形存储设备和存储在一个或多个计算机可读有形存储设备中的至少一个计算机可读有形存储设备上的程序指令。程序指令可以被执行以:由计算机系统将每个类别的每条训练数据应用于多个分类器;由计算机系统执行针对每个类别的训练数据的评估和验证;如果每条训练数据的分类精度大于预定阈值,则由计算机系统定义针对每个类别的每条训练数据的至少一个代表性类别;基于针对每个类别的第一修改训练数据的评估和验证的结果,由计算机系统修改训练数据以创建第一修改训练数据;由计算机系统执行针对代表性类别的训练数据的评估和验证;并且,基于针对代表性类别的第一修改训练数据的评估和验证的结果,由计算机系统修改第一修改训练数据以创建第二修改训练数据。在又一方面,提供了一种用于评估和修改用于分类器的训练数据的计算机系统。计算机系统包括一个或多个处理器、一个或多个计算机可读有形存储设备,以及存储在一个或多个计算机可读有形存储设备中的至少一个计算机可读有形存储设备上以用于由一个或多个处理器中的至少一个处理器执行的程序指令。程序指令可以被执行以由计算机系统将每个类别的每条训练数据应用于多个分类器。程序指令还可以被执行以由计算机系统执行针对每个类别的训练数据的评估和验证。如果每条训练数据的分类精度大于预定阈值,则程序指令还可以被执行以由计算机系统定义针对每个类别的每条训练数据的至少一个代表性类别。程序指令还可以被执行以基于针对每个类别的训练数据的评估和验证的结果,由计算机系统修改训练数据以创建第一修改训练数据。程序指令还可以被执行以由计算机系统执行针对代表性类别的第一修改训练数据的评估和验证。程序指令还可以被执行以基于针对代表性类别的第一修改训练数据的评估和验证的结果,由计算机系统修改第一修改训练数据以创建第二修改训练数据。附图说明图1是示出根据本专利技术的一个实施例的自动应答系统的示例的图。图2是示出根据本专利技术的一个实施例的用于认知分类器的训练数据的典型生命周期的图。图3是示出根据本专利技术的一个实施例的用于认知分类器的训练数据的典型生命周期中的初始训练数据生成的阶段的图。图4是示出根据本专利技术的一个实施例的用于认知分类器的训练数据的典型生命周期中的训练数据的评估和修改的阶段的图。图5是示出根据本专利技术的一个实施例的用于认知分类器的训练数据的典型生命周期中的维护阶段的图。图6是示出根据本专利技术的一个实施例的用于评估和修改用于自动应答系统的分类器的训练数据的操作步骤的流程图。图7是示出根据本专利技术的一个实施例的生成聚焦于一个类别的多个训练数据集的图。图8是示出根据本专利技术的一个实施例的为类别生成多个分类器的图。图9是示出根据本专利技术的一个实施例的验证数据被应用于多个分类器并且获取分类结果的图。图10是示出根据本专利技术的一个实施例的具有类别值(类型I错误的分析)的训练数据的评估和验证的表。图11是示出根据本专利技术的一个实施例的针对代表性类别的训练数据的评估和验证(类型II错误的分析)的表。图12是示出根据本专利技术的一个实施例的用于评估和修改用于分类器的训练数据的计算设备或服务器的组件的图。具体实施方式本专利技术的实施例公开了一种用于通过对自然语言问题的陈述进行分类并根据意图返回满意答案来确定自然语言问题的意图的方法。该方法被用来验证分类器的训练数据,并基于验证结果修改分类器的训练数据。该方法被用来促进训练数据的修订和改进。结果,本专利技术的方法不仅有助于提高自动应答系统所使用的分类器的准确度,而且有助于提高自动应答系统的精度。在本专利技术的实施例中,对于自动应答系统,为了使得分类器能够正确地对问题的意图进行分类并提供适当的答案,需要准备问题陈述、意图和与意图相关联的答案陈述。答案语句被配置为模板;从问题的内容以静态或动态的方式单独获取数据以完成模板,并从而执行对用户的响应。训练数据被用于由分类器进行学习。训练数据包括作为其数据部分的问题陈述和作为其类别的意图。在实际项目中,考虑包括1000到2000个问题陈述和大约100个意图(或类别)的训练数据。尽管本文档来自技高网
...

【技术保护点】
1.一种用于评估和修改用于分类器的训练数据的方法,所述方法包括:/n由计算机系统将每个类别的每条训练数据应用于多个分类器;/n由所述计算机系统执行针对所述每个类别的所述训练数据的评估和验证;/n如果所述每条训练数据的分类精度大于预定阈值,则由所述计算机系统定义针对所述每个类别的所述每条训练数据的至少一个代表性类别;/n基于针对所述每个类别的所述训练数据的所述评估和所述验证的结果,由所述计算机系统修改所述训练数据以创建第一修改训练数据;/n由所述计算机系统执行针对代表性类别的所述第一修改训练数据的评估和验证;以及/n基于针对所述代表性类别的所述第一修改训练数据的所述评估和所述验证的结果,由所述计算机系统修改所述第一修改训练数据以创建第二修改训练数据。/n

【技术特征摘要】
20180730 US 16/048,7561.一种用于评估和修改用于分类器的训练数据的方法,所述方法包括:
由计算机系统将每个类别的每条训练数据应用于多个分类器;
由所述计算机系统执行针对所述每个类别的所述训练数据的评估和验证;
如果所述每条训练数据的分类精度大于预定阈值,则由所述计算机系统定义针对所述每个类别的所述每条训练数据的至少一个代表性类别;
基于针对所述每个类别的所述训练数据的所述评估和所述验证的结果,由所述计算机系统修改所述训练数据以创建第一修改训练数据;
由所述计算机系统执行针对代表性类别的所述第一修改训练数据的评估和验证;以及
基于针对所述代表性类别的所述第一修改训练数据的所述评估和所述验证的结果,由所述计算机系统修改所述第一修改训练数据以创建第二修改训练数据。


2.根据权利要求1所述的方法,用于修改所述训练数据以创建所述第一修改训练数据,还包括:
响应于确定一条训练数据的分类精度低于预定值并且针对该条训练数据的代表性类别是单个类别,由所述计算机系统改变该条训练数据的类别值。


3.根据权利要求1所述的方法,用于修改所述训练数据以创建所述第一修改训练数据,还包括:
响应于确定一条训练数据的分类精度低于预定值并且针对该条训练数据的代表性类别是多个,由所述计算机系统删除该条训练数据。


4.根据权利要求1所述的方法,用于修改所述第一修改训练数据以创建所述第二修改训练数据,还包括:
响应于确定一个类别的分类精度低于预定值并且针对所述类别的代表性类别是多个,由所述计算机系统移除所述类别。


5.根据权利要求1所述的方法,用于修改所述第一修改训练数据以创建所述第二修改训练数据,还包括:
响应于确定针对两个类别中的每一个类别的分类精度低于预定值并且所述两个类别中的一个类别的代表性类别属于所述两个类别中的另一个类别,由所述计算机系统将所述两个类别合并为一个类别。


6.根据权利要求1所述的方法,其中在执行针对所述每个类别的所述训练数据的所述评估和所述验证时执行类型I错误的分析,其中在执行针对所述代表性类别的所述训练数据的所述评估和所述验证时执行类型II错误的分析。


7.一种用于评估和修改用于分类器的训练数据的计算机程序产品,所述计算机程序产品包括一个或多个计算机可读有形存储设备和存储在所述一个或多个计算机可读有形存储设备中的至少一个计算机可读有形存储设备上的程序指令,所述程序指令可被执行以执行根据权利要求1至6中任一项所述的方法的方法。


8.一种用于评估和修改用于分类器的训练数据的系统,包括:
存储器;
处理单元,所述处理单元可操作地耦合到所述存储器,以执行根据权利要求1到6中任一项所述...

【专利技术属性】
技术研发人员:小林武彦松泽裕史
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1