评估由文本分类模型预测的文本分类异常制造技术

技术编号:26031518 阅读:38 留言:0更新日期:2020-10-23 21:09
响应于在预先训练的文本分类器上运行至少一个测试短语以及基于针对每个相应的至少一个测试短语计算的得分来标识单独的预测分类标记,文本分类器将合计在得分中的多个提取特征分解为针对至少一个测试短语中的每个词的词级得分。文本分类器向每个词级得分分配单独的热图值,每个相应的单独的热图值反映每个词级得分的权重。文本分类器输出单独的预测分类标记和反映每个词级得分的权重的每个单独的热图值,以用于定义标识该至少一个测试短语中的每个词对于单独的预测分类标记的贡献的热图,以有助于客户端评估文本分类异常。

【技术实现步骤摘要】
评估由文本分类模型预测的文本分类异常
本专利技术的一个或多个实施例一般涉及数据处理,并且特别地涉及评估由文本分类模型预测的文本分类异常。相关技术的描述机器学习在许多人工智能(AI)应用程序中起着重要作用。训练机器学习应用程序的过程的成果之一是被称为文本分类中使用的模型的数据对象,其是从训练数据推断出的模式(pattern)的参数表示。在模型被创建之后,模型被部署到在文本分类中使用的一个或多个环境中。在运行时,基于开发的小时数和大量数据产生的结构,模型是机器学习系统的核心。
技术实现思路
在一个实施例中,一种方法涉及:响应于在预先训练的文本分类器上运行至少一个测试短语以及基于针对每个相应的至少一个测试短语计算的得分来标识单独的预测分类标记,由计算机系统将合计在得分中的多个提取特征分解为针对该至少一个测试短语中的每个词的多个词级得分。该方法涉及:由计算机系统向该多个词级得分中的每个词级得分分配单独的热图值,每个相应的单独的热图值反映该多个词级得分中的每个词级得分的权重。该方法涉及:由计算机系统输出单独的预测分类标记和反映该多个词级得分中的每个词级得分的权重的每个单独的热图值,以用于定义标识该至少一个测试短语中的每个词对于单独的预测分类标记的贡献的热图。在另一个实施例中,一种计算机系统包括:一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读存储设备、以及程序指令,该程序指令被存储在该一个或多个存储设备中的至少一个存储设备上以用于由该一个或多个处理器中的至少一个处理器经由该一个或多个存储器中的至少一个存储器执行。所存储的程序指令包括:响应于在预先训练的文本分类器上运行至少一个测试短语以及基于针对每个相应的至少一个测试短语计算的得分来标识单独的预测分类标记将合计在得分中的多个提取特征分解为针对该至少一个测试短语中的每个词的多个词级得分的程序指令。所存储的程序指令包括:向该多个词级得分中的每个词级得分分配单独的热图值的程序指令,每个相应的单独的热图值反映该多个词级得分中的每个词级得分的权重。所存储的程序指令包括:输出单独的预测分类标记和反映该多个词级得分中的每个词级得分的权重的每个单独的热图值以用于定义标识该至少一个测试短语中的每个词对于单独的预测分类标记的贡献的热图的程序指令。在另一个实施例中,一种计算机程序产品包括:计算机可读存储介质,该计算机可读存储介质中体现有程序指令,其中该计算机可读存储介质不是瞬时信号本身。该程序指令可由计算机执行以使计算机响应于在预先训练的文本分类器上运行至少一个测试短语以及基于针对每个相应的至少一个测试短语计算的得分来标识单独的预测分类标记,由计算机将合计在得分中的多个提取特征分解为针对该至少一个测试短语中的每个词的多个词级得分。该程序指令可由计算机执行以使计算机:由计算机向该多个词级得分中的每个词级得分分配单独的热图值,每个相应的单独的热图值反映该多个词级得分中的每个词级得分的权重。该程序指令可由计算机执行以使计算机:由计算机输出单独的预测分类标记和反映该多个词级得分中的每个词级得分的权重的每个单独的热图值,以用于定义标识该至少一个测试短语中的每个词对于单独的预测分类标记的贡献的热图。附图说明被认为是本专利技术的一个或多个实施例的特征的新颖特征在所附权利要求书中阐明。然而,本专利技术自身的一个或多个实施例在与附图相结合来阅读时,将通过参考说明性实施例的以下详细说明而得到更好的理解,其中:图1示出了用于促进通过标记对文本进行分类的文本分类器的创建和训练的文本分类器服务的框图的一个示例;图2示出了用于提供与在文本分类器测试期间由文本分类器预测的文本分类异常有关的信息的文本分类器服务的框图的一个示例;图3示出了在文本分类器级别下由词级分析组件评估的词级分析元素的一个示例;图4示出了说明提取特征的类型示例的表格的一个示例,该提取特征被分解以用于确定按词的特征得分;图5示出了与基于在经训练的模型上测试的测试短语的测试集热图相比较来反映真实状况热图的词级热图的一个示例;图6示出了词级热图的框图的一个示例,该热图反映基于在经训练的模型上测试的测试短语的标记的k个首选重要词的热图;图7示出了其中可实现本专利技术的一个实施例的计算机系统的一个示例;图8示出了用于创建和训练分类器模型的过程和计算机程序的高级逻辑流程图;图9示出了用于更新经训练的分类器模型的过程和计算机程序的高级逻辑流程图;图10示出了用于分析预测的分类以在词级上确定热图级别的过程和计算机程序的高级逻辑流程图,该热图级别指示对测试短语的预测分类以及经训练的模型的分类标记的词级贡献;图11示出了用于基于最影响分类标记的相应的词级热图级别用具有对预测分类的影响的视觉指示符来输出预测分类的过程和计算机程序的高级逻辑流程图;图12示出了用于基于训练集中在根据相应的k个首选热图级别的最影响分类标记的词的k个首选词列表用具有对预测分类的影响的视觉指示符来输出预测分类的过程和计算机程序的高级逻辑流程图;以及图13示出了用于支持文本分类器的更新的训练的过程和计算机程序的高级逻辑流程图,该文本分类器突出显示用于所标识的异常的分类标记训练。具体实施方式在以下描述中,为了说明的目的,阐述多个具体细节以提供对本专利技术的深入理解。然而,对本领域技术人员显而易见的是本专利技术可在没有这些具体细节的情况下实践。在其它示例中,以框图形式示出众所周知的结构和设备,以免不必要地模糊本专利技术。另外,在以下描述中,为了说明的目的,描述了多个系统。对于本领域技术人员人员来说需要注意并且显而易见的是,本专利技术可在各种系统中执行,包括各种计算机系统和运行任意数量的不同类型的操作系统的电子设备。图1示出了用于促进通过标记对文本进行分类的文本分类器的创建和训练的文本分类器服务的框图。在一个示例中,机器学习在与一个或多个自然语言处理(NLP)系统交互的基于人工智能的应用程序中起着重要作用。例如,基于AI的应用程序可包括,但不限于:语音识别、自然语言处理、音频识别、视觉景色分析、电子邮件过滤、社交网络过滤、机器翻译、数据外泄、光学字符识别,排序学习和生物信息学。在一个示例中,对基于AI的应用程序的选择可涉及计算机系统,其可在一个或多个类型的计算环境中运行,执行要求一个或多个类型的文本分类分析的任务。在一个示例中,机器学习可表示一个或多个类型的AI,这些AI基于用数据和从数据学习并对数据进行预测的算法来训练机器。创建和训练机器学习环境的过程的主要成果之一是从样本输入构建的数据对象(称为模型)。在一个示例中,模型112表示机器学习环境的数据对象。在一个示例中,为了创建和训练模型112,用户(诸如客户端120)向文本分类器服务110提交初始训练集,诸如真实状况训练集108。在一个示例中,真实状况训练集108包括一个或多个词和多词短语,它们中的每一个用由用户标识的用于训练模型112的多个分类标记中的标记来标识。例如,用户可选择标识动本文档来自技高网...

【技术保护点】
1.一种方法,包括以下步骤:/n响应于在预先训练的文本分类器上运行至少一个测试短语以及基于针对每个相应的至少一个测试短语计算的得分来标识单独的预测分类标记,由计算机系统将合计在所述得分中的多个提取特征分解为针对所述至少一个测试短语中的每个词的多个词级得分;/n由所述计算机系统向所述多个词级得分中的每个词级得分分配单独的热图值,每个相应的单独的热图值反映所述多个词级得分中的每个词级得分的权重;以及/n由所述计算机系统输出所述单独的预测分类标记和反映所述多个词级得分中的每个词级得分的所述权重的每个单独的热图值,以用于定义标识所述至少一个测试短语中的每个词对于所述单独的预测分类标记的贡献的热图。/n

【技术特征摘要】
20190410 US 16/380981;20190410 US 16/3809861.一种方法,包括以下步骤:
响应于在预先训练的文本分类器上运行至少一个测试短语以及基于针对每个相应的至少一个测试短语计算的得分来标识单独的预测分类标记,由计算机系统将合计在所述得分中的多个提取特征分解为针对所述至少一个测试短语中的每个词的多个词级得分;
由所述计算机系统向所述多个词级得分中的每个词级得分分配单独的热图值,每个相应的单独的热图值反映所述多个词级得分中的每个词级得分的权重;以及
由所述计算机系统输出所述单独的预测分类标记和反映所述多个词级得分中的每个词级得分的所述权重的每个单独的热图值,以用于定义标识所述至少一个测试短语中的每个词对于所述单独的预测分类标记的贡献的热图。


2.根据权利要求1所述的方法,进一步包括以下步骤:
响应于运行所述至少一个测试短语,针对多个分类标记中的每个单独的预测分类标记,由所述计算机系统按词合计所述多个词级得分;
针对每个单独的预测分类标记,由所述计算机系统按照从最高按词合计的得分递减的顺序标识多个词中的首选词列表;以及
由所述计算机系统输出所述单独的预测分类标记、每个单独的热图值和针对每个相应的单独的预测分类标记的所述首选词列表。


3.根据权利要求1所述的方法,进一步包括以下步骤:
由所述计算机系统基于所述多个特征中的单独的提取特征的多个组合的加权和、以及在所述预先训练的文本分类器中固定的加权模型参数来计算针对所述单独的预测分类标记的得分。


4.根据权利要求1所述的方法,其中,由所述计算机系统将合计在所述得分中的多个提取特征分解为针对所述至少一个测试短语中的每个词的多个词级得分的步骤进一步包括以下步骤:
由所述计算机系统分解所述多个提取特征,所述多个提取特征包括以下中的一个或多个:基于一元语法的特征,基于术语的特征,词嵌入特征的平均池化,词嵌入特征的最大池化,以及字符级特征。


5.根据权利要求1所述的方法,进一步包括以下步骤:
由所述计算机系统启动文本分类器模型;
由所述计算机系统通过应用具有多个训练短语的训练集来训练所述文本分类器模型;
由所述计算机系统将所述文本分类器模型部署为所述预先训练的文本分类器以供客户端测试;以及
响应于从所述客户端接收到所述至少一个测试短语,由所述计算机系统在所述预先训练的文本分类器上运行所述至少一个测试短语。


6.根据权利要求1所述的方法,其中,由所述计算机系统输出所述单独的预测分类标记和反映所述多个词级得分中的每个词级得分的所述权重的每个单独的热图值以用于提供标识所述至少一个测试短语中的每个词对于所述单独的预测分类标记的贡献的热图的步骤进一步包括以下步骤:
由所述计算机系统向客户端输出所述单独的预测分类标记和反映所述多个词级得分中的每个词级得分的所述权重的每个单独的热图值,其中,所述客户端在用户界面中输出每个单独的热图值,以用于以图形的方式表示每个词级得分的所述权重,以标识所述至少一个测试短语中的每个词对于所述单独的预测分类标记的贡献。


7.根据权利要求1所述的方法,其中,由所述计算机系统输出所述单独的预测分类标记和反映所述多个词级得分中的每个词级得分的所述权重的每个单独的热图值以用于提供标识所述至少一个测试短语中的每个词对于所述单独的预测分类标记的贡献的热图的步骤进一步包括以下步骤:
由所述计算机系统向客户端输出所述单独的预测分类标记和反映所述多个词级得分中的每个词级得分的所述权重的每个单独的热图值,其中,所述客户端确定每个单独的预测分类标记是否与期望的分类标记相匹配以用于客户端评估文本分类异常。


8.一种计算机系统,包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读存储设备、以及程序指令,所述程序指令被存储在所述一个或多个存储设备中的至少一个存储设备上以用于由所述一个或多个处理器中的至少一个处理器经由所述一个或多个存储器中的至少一个存储器执行,所存储的程序指令包括:
程序代码,其能够操作以执行根据权利要求1至7中任一项所述的方法的步骤。


9.一种计算机程序产品,包括计算机可读存储介质,所述计算机可读存储介质中体现有程序指令,所述程序指令可由计算机执行以使所述计算机执行根据权利要求1至7中任一项所述的方法中的步骤。
<...

【专利技术属性】
技术研发人员:谭铭S·波达尔L·克里希纳默西
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1