【技术实现步骤摘要】
评估由文本分类模型预测的文本分类异常
本专利技术的一个或多个实施例一般涉及数据处理,并且特别地涉及评估由文本分类模型预测的文本分类异常。相关技术的描述机器学习在许多人工智能(AI)应用程序中起着重要作用。训练机器学习应用程序的过程的成果之一是被称为文本分类中使用的模型的数据对象,其是从训练数据推断出的模式(pattern)的参数表示。在模型被创建之后,模型被部署到在文本分类中使用的一个或多个环境中。在运行时,基于开发的小时数和大量数据产生的结构,模型是机器学习系统的核心。
技术实现思路
在一个实施例中,一种方法涉及:响应于在预先训练的文本分类器上运行至少一个测试短语以及基于针对每个相应的至少一个测试短语计算的得分来标识单独的预测分类标记,由计算机系统将合计在得分中的多个提取特征分解为针对该至少一个测试短语中的每个词的多个词级得分。该方法涉及:由计算机系统向该多个词级得分中的每个词级得分分配单独的热图值,每个相应的单独的热图值反映该多个词级得分中的每个词级得分的权重。该方法涉及:由计算机系统输出单独的预测分类标记和反映该多个词级得分中的每个词级得分的权重的每个单独的热图值,以用于定义标识该至少一个测试短语中的每个词对于单独的预测分类标记的贡献的热图。在另一个实施例中,一种计算机系统包括:一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读存储设备、以及程序指令,该程序指令被存储在该一个或多个存储设备中的至少一个存储设备上以用于由该一个或多个处理器中的至少一个处理器经由该一个 ...
【技术保护点】
1.一种方法,包括以下步骤:/n响应于在预先训练的文本分类器上运行至少一个测试短语以及基于针对每个相应的至少一个测试短语计算的得分来标识单独的预测分类标记,由计算机系统将合计在所述得分中的多个提取特征分解为针对所述至少一个测试短语中的每个词的多个词级得分;/n由所述计算机系统向所述多个词级得分中的每个词级得分分配单独的热图值,每个相应的单独的热图值反映所述多个词级得分中的每个词级得分的权重;以及/n由所述计算机系统输出所述单独的预测分类标记和反映所述多个词级得分中的每个词级得分的所述权重的每个单独的热图值,以用于定义标识所述至少一个测试短语中的每个词对于所述单独的预测分类标记的贡献的热图。/n
【技术特征摘要】
20190410 US 16/380981;20190410 US 16/3809861.一种方法,包括以下步骤:
响应于在预先训练的文本分类器上运行至少一个测试短语以及基于针对每个相应的至少一个测试短语计算的得分来标识单独的预测分类标记,由计算机系统将合计在所述得分中的多个提取特征分解为针对所述至少一个测试短语中的每个词的多个词级得分;
由所述计算机系统向所述多个词级得分中的每个词级得分分配单独的热图值,每个相应的单独的热图值反映所述多个词级得分中的每个词级得分的权重;以及
由所述计算机系统输出所述单独的预测分类标记和反映所述多个词级得分中的每个词级得分的所述权重的每个单独的热图值,以用于定义标识所述至少一个测试短语中的每个词对于所述单独的预测分类标记的贡献的热图。
2.根据权利要求1所述的方法,进一步包括以下步骤:
响应于运行所述至少一个测试短语,针对多个分类标记中的每个单独的预测分类标记,由所述计算机系统按词合计所述多个词级得分;
针对每个单独的预测分类标记,由所述计算机系统按照从最高按词合计的得分递减的顺序标识多个词中的首选词列表;以及
由所述计算机系统输出所述单独的预测分类标记、每个单独的热图值和针对每个相应的单独的预测分类标记的所述首选词列表。
3.根据权利要求1所述的方法,进一步包括以下步骤:
由所述计算机系统基于所述多个特征中的单独的提取特征的多个组合的加权和、以及在所述预先训练的文本分类器中固定的加权模型参数来计算针对所述单独的预测分类标记的得分。
4.根据权利要求1所述的方法,其中,由所述计算机系统将合计在所述得分中的多个提取特征分解为针对所述至少一个测试短语中的每个词的多个词级得分的步骤进一步包括以下步骤:
由所述计算机系统分解所述多个提取特征,所述多个提取特征包括以下中的一个或多个:基于一元语法的特征,基于术语的特征,词嵌入特征的平均池化,词嵌入特征的最大池化,以及字符级特征。
5.根据权利要求1所述的方法,进一步包括以下步骤:
由所述计算机系统启动文本分类器模型;
由所述计算机系统通过应用具有多个训练短语的训练集来训练所述文本分类器模型;
由所述计算机系统将所述文本分类器模型部署为所述预先训练的文本分类器以供客户端测试;以及
响应于从所述客户端接收到所述至少一个测试短语,由所述计算机系统在所述预先训练的文本分类器上运行所述至少一个测试短语。
6.根据权利要求1所述的方法,其中,由所述计算机系统输出所述单独的预测分类标记和反映所述多个词级得分中的每个词级得分的所述权重的每个单独的热图值以用于提供标识所述至少一个测试短语中的每个词对于所述单独的预测分类标记的贡献的热图的步骤进一步包括以下步骤:
由所述计算机系统向客户端输出所述单独的预测分类标记和反映所述多个词级得分中的每个词级得分的所述权重的每个单独的热图值,其中,所述客户端在用户界面中输出每个单独的热图值,以用于以图形的方式表示每个词级得分的所述权重,以标识所述至少一个测试短语中的每个词对于所述单独的预测分类标记的贡献。
7.根据权利要求1所述的方法,其中,由所述计算机系统输出所述单独的预测分类标记和反映所述多个词级得分中的每个词级得分的所述权重的每个单独的热图值以用于提供标识所述至少一个测试短语中的每个词对于所述单独的预测分类标记的贡献的热图的步骤进一步包括以下步骤:
由所述计算机系统向客户端输出所述单独的预测分类标记和反映所述多个词级得分中的每个词级得分的所述权重的每个单独的热图值,其中,所述客户端确定每个单独的预测分类标记是否与期望的分类标记相匹配以用于客户端评估文本分类异常。
8.一种计算机系统,包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读存储设备、以及程序指令,所述程序指令被存储在所述一个或多个存储设备中的至少一个存储设备上以用于由所述一个或多个处理器中的至少一个处理器经由所述一个或多个存储器中的至少一个存储器执行,所存储的程序指令包括:
程序代码,其能够操作以执行根据权利要求1至7中任一项所述的方法的步骤。
9.一种计算机程序产品,包括计算机可读存储介质,所述计算机可读存储介质中体现有程序指令,所述程序指令可由计算机执行以使所述计算机执行根据权利要求1至7中任一项所述的方法中的步骤。
<...
【专利技术属性】
技术研发人员:谭铭,S·波达尔,L·克里希纳默西,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。