使用平衡训练集的分类器的预测准确性制造技术

技术编号:26378329 阅读:33 留言:0更新日期:2020-11-19 23:47
在改进分类器的预测准确性的方式中,一个或多个计算机处理器计算一个或多个训练集统计数据。该一个或多个计算机处理器基于一个或多个所计算的训练集统计数据来生成一个或多个平衡训练集。该一个或多个计算机处理器利用一个或多个不平衡训练集和一个或多个所生成的平衡训练集来训练一个或多个认知模型。该一个或多个计算机处理器确定该一个或多个经训练的认知模型的适合性。该一个或多个计算机处理器基于所确定的该一个或多个认知模型的适合性来调整一个或多个训练集。

【技术实现步骤摘要】
使用平衡训练集的分类器的预测准确性
技术介绍
本专利技术一般涉及自然语言分类器的领域,并且更特别地涉及朴素贝叶斯分类器的预测准确性的改进。在概率论和统计学中,贝叶斯定理(可替代地,贝叶斯定律或者贝叶斯规则)基于可能与事件有关的条件的先验知识来描述事件的概率。贝叶斯定理的许多应用之一是贝叶斯推理,一种统计推理的方式。在应用时,贝叶斯定理中涉及的概率可具有不同的概率解释。利用贝叶斯概率解释,该定理表示信任度(被表示为概率)应当如何理性改变来解释相关证据的可用性。贝叶斯推理是贝叶斯统计的基础。在机器学习中,朴素贝叶斯分类器是基于以特征之间的强(朴素)独立性假设来应用贝叶斯定理的一族简单概率分类器。朴素贝叶斯分类器是高度可扩展的,这要求在学习问题中多个变量(特征/预测器)与多个参数成线性关系。朴素贝叶斯是用于构建分类器的简单技术:将类别标签分配给问题实例的模型,其被表示为特征值的向量,其中,类别标签从某个有限集得到。不存在用于训练此类分类器的单个算法,而是基于共同原理的一族算法:所有朴素贝叶斯分类器考虑类别变量,假定特征值独立于任何其他特征值。针对某些类型的概率模型,朴素贝叶斯分类器可在监督式学习设置中非常有效地训练。
技术实现思路
本专利技术的实施例公开了用于改进分类器的预测准确性的一种方法、一种计算机程序产品和一种系统。该方法包括一个或多个计算机处理器计算一个或多个训练集统计数据。该一个或多个计算机处理器基于一个或多个所计算的训练集统计数据来生成一个或多个平衡训练集。该一个或多个计算机处理器利用一个或多个不平衡训练集和一个或多个所生成的平衡训练集来训练一个或多个认知模型。该一个或多个计算机处理器确定该一个或多个经训练的认知模型的适合性。该一个或多个计算机处理器基于所确定的该一个或多个认知模型的适合性来调整一个或多个训练集。附图说明图1是根据本专利技术的实施例的示出计算环境的功能框图;图2是根据本专利技术的实施例的描绘用于改进分类器的预测准确性的在图1的计算环境内的服务器计算机上的训练语句分布程序的操作步骤的流程图;图3是根据本专利技术的实施例的流程图200的步骤的示例实施例;图4是根据本专利技术的实施例的流程图200的步骤的示例实施例;图5是根据本专利技术的实施例的流程图200的步骤的示例实施例;图6是根据本专利技术的实施例的流程图200的步骤的示例实施例;图7是根据本专利技术的实施例的流程图200的步骤的示例实施例;图8是根据本专利技术的实施例的流程图200的步骤的示例实施例;以及图9是根据本专利技术的实施例的执行训练语句平衡程序的服务器计算机的组件的框图。具体实施方式由于可利用相对少量的训练获得的准确性水平,因此,朴素贝叶斯是最流行的自然语言分类器之一。实际上,然而,朴素贝叶斯对于归因于一个或多个标签或与一个或多个标签相关联的训练语句的数量和质量的差异是敏感的。如果存在大的不平衡,因为一个标签与另一个相比较具有显著地大量的训练语句,则分类将被曲解,这潜在地导致误分类或者准确性的降低。在许多现实世界场景或应用中,不同的类别或标签要求不同数量的训练语句以便具有准确和可靠的模型。例如,一种草可能仅要求少量的训练语句以便分类器能够识别多种草,但是,一种树可能要求基本上更多的训练语句以便分类器识别多种树。分类算法(诸如朴素贝叶斯分类器)不解释针对每个类别的训练语句的分布。此外,所述算法不平衡或者分布类和相关联的训练语句。本专利技术的实施例允许通过确定针对每个类别的最小公倍数并且利用确定的最小公倍数复制与每个标签相关联的训练语句来在不修改算法并且不降低或者移除训练语句的情况下显著增加分类准确性。在本专利技术的实施例中,朴素贝叶斯训练语句基于导致在分类已知实体时的更高的置信度水平的确定的最小公倍数来被平衡,并且拉平针对如下输入的确定性分布,分类器未被训练以分类该输入。本专利技术的实施例的实现可采取各种形式,并且随后参考附图讨论了示例性实现细节。现在将参考附图详细描述本专利技术。图1是根据本专利技术的一个实施例的示出计算环境(通常指示为100)的功能框图。如本说明书中使用的术语“计算的”描述了包括作为单个计算机系统一起操作的多个物理上不同的设备的计算机系统。图1仅提供了一个实现方式的图示并且不暗示关于其中可实现不同的实施例的环境的任何限制。可以由本领域技术人员做出对所描绘的环境的许多修改而不脱离如由权利要求记载的本专利技术的范围。计算环境100包括通过网络102相互连接的服务器计算机120。网络102可以是例如电信网络、局域网(LAN)、广域网(WAN)(诸如因特网)或三者的组合,并且可包括有线、无线、或光纤连接。网络102可包括能够接收和发送数据、语音、和/或视频信号的一个或多个有线和/或无线网络,该信号包括包含语音、数据和视频信息的多媒体信号。通常,网络102可以是将支持服务器计算机120与计算环境100内的其他计算设备(未示出)之间的通信的连接和协议的任何组合。在各种实施例中,网络102经由有线、无线或光学连接在本地操作并且可以是连接和协议的任何组合(例如,个域网(PAN)、近场通信(NFC)、激光、红外线、超声波等)。服务器计算机120可以是独立计算设备、管理服务器、网络服务器、移动计算设备、或者能够接收、发送和处理数据的任何其他电子设备或者计算系统。在其他实施例中,服务器计算机120可表示诸如在云计算环境中作为服务器系统的利用多个计算机的服务器计算系统。在另一个实施例中,服务器计算机120可以是膝上型计算机、平板计算机、上网本计算机、个人计算机(PC)、台式计算机、个人数字助理(PDA)、智能电话、或能够经由网络102与计算环境100内的客户端计算设备(未示出)通信的任何可编程电子设备。在另一个实施例中,服务器计算机120表示利用集群计算机和组件(例如,数据库服务器计算机、应用服务器计算机等)的计算系统,该计算系统在计算环境100内被访问时充当单个无缝资源池。在所描绘的实施例中,服务器计算机120包括数据库122和程序150。在其他实施例中,服务器计算机120可包含在计算环境100中尚未描绘的其他应用、数据库、程序等。服务器计算机120可包括内部和外部硬件组件,如关于图9更详细地描绘和描述的。数据库122是由程序150使用的数据的存储库。在所描绘的实施例中,数据库122驻留在服务器计算机120上。在另一个实施例中,假如程序150具有对数据库122的访问权,数据库122可驻留在多个客户端计算设备(未描绘)上或者在计算环境100内其他地方。数据库是有组织的数据集合。数据库122可利用能够存储可由程序150访问和利用的数据和配置文件的任何类型的存储设备来实现,诸如数据库服务器、硬盘驱动器,或者闪存。在实施例中,数据库122存储由程序150使用的数据,诸如训练集、标签分布数据和图、以及历史模型准确性和性能统计。在所描绘的实施例中,数据库122包含训练语料库124和认知模型126。训练语料库124可包含经分类的(例如,经标记的)数据的一个或多个实例的一个或多个本文档来自技高网...

【技术保护点】
1.一种方法,包括:/n由一个或多个计算机处理器计算一个或多个训练集统计数据;/n由一个或多个计算机处理器基于一个或多个所计算的训练集统计数据来生成一个或多个平衡训练集;/n由一个或多个计算机处理器利用一个或多个不平衡训练集和一个或多个所生成的平衡训练集来训练一个或多个认知模型;/n由一个或多个计算机处理器确定所述一个或多个经训练的认知模型的适合性;以及/n由一个或多个计算机处理器基于所确定的所述一个或多个认知模型的适合性来调整一个或多个训练集。/n

【技术特征摘要】
20190514 US 16/4114251.一种方法,包括:
由一个或多个计算机处理器计算一个或多个训练集统计数据;
由一个或多个计算机处理器基于一个或多个所计算的训练集统计数据来生成一个或多个平衡训练集;
由一个或多个计算机处理器利用一个或多个不平衡训练集和一个或多个所生成的平衡训练集来训练一个或多个认知模型;
由一个或多个计算机处理器确定所述一个或多个经训练的认知模型的适合性;以及
由一个或多个计算机处理器基于所确定的所述一个或多个认知模型的适合性来调整一个或多个训练集。


2.根据权利要求1所述的方法,其中,计算一个或多个训练集统计数据还包括:
由一个或多个计算机处理器取得一个或多个训练集,其中,所述训练集包含标签和一个或多个相关联的训练语句;
由一个或多个计算机处理器计算针对一个或多个标签的训练语句的总数;
由一个或多个计算机处理器确定针对所述一个或多个标签的最小公倍数。


3.根据权利要求2所述的方法,其中,生成一个或多个平衡训练集还包括:
由一个或多个计算机处理器遍历每个训练集;
由一个或多个计算机处理器不确定地选择与每个训练标签相关联的训练语句;以及
由一个或多个计算机处理器基于所确定的最小公倍数来复制所选择的训练语句。


4.根据权利要求3所述的方法,还包括:
由一个或多个计算机处理器生成通用唯一标识符;以及
由一个或多个计算机处理器将所生成的通用唯一标识符附加到所述训练语句。

...

【专利技术属性】
技术研发人员:G·J·斯克里文K·纳拉亚纳斯瓦米V·哈拉帕N·S·维贾亚纳拉西姆哈
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1