使用平衡训练集的分类器的预测准确性制造技术

技术编号:26378329 阅读:37 留言:0更新日期:2020-11-19 23:47
在改进分类器的预测准确性的方式中,一个或多个计算机处理器计算一个或多个训练集统计数据。该一个或多个计算机处理器基于一个或多个所计算的训练集统计数据来生成一个或多个平衡训练集。该一个或多个计算机处理器利用一个或多个不平衡训练集和一个或多个所生成的平衡训练集来训练一个或多个认知模型。该一个或多个计算机处理器确定该一个或多个经训练的认知模型的适合性。该一个或多个计算机处理器基于所确定的该一个或多个认知模型的适合性来调整一个或多个训练集。

【技术实现步骤摘要】
使用平衡训练集的分类器的预测准确性
技术介绍
本专利技术一般涉及自然语言分类器的领域,并且更特别地涉及朴素贝叶斯分类器的预测准确性的改进。在概率论和统计学中,贝叶斯定理(可替代地,贝叶斯定律或者贝叶斯规则)基于可能与事件有关的条件的先验知识来描述事件的概率。贝叶斯定理的许多应用之一是贝叶斯推理,一种统计推理的方式。在应用时,贝叶斯定理中涉及的概率可具有不同的概率解释。利用贝叶斯概率解释,该定理表示信任度(被表示为概率)应当如何理性改变来解释相关证据的可用性。贝叶斯推理是贝叶斯统计的基础。在机器学习中,朴素贝叶斯分类器是基于以特征之间的强(朴素)独立性假设来应用贝叶斯定理的一族简单概率分类器。朴素贝叶斯分类器是高度可扩展的,这要求在学习问题中多个变量(特征/预测器)与多个参数成线性关系。朴素贝叶斯是用于构建分类器的简单技术:将类别标签分配给问题实例的模型,其被表示为特征值的向量,其中,类别标签从某个有限集得到。不存在用于训练此类分类器的单个算法,而是基于共同原理的一族算法:所有朴素贝叶斯分类器考虑类别变量,假定特征值独立于任何其他特征值。针对某些类型的概率模型本文档来自技高网...

【技术保护点】
1.一种方法,包括:/n由一个或多个计算机处理器计算一个或多个训练集统计数据;/n由一个或多个计算机处理器基于一个或多个所计算的训练集统计数据来生成一个或多个平衡训练集;/n由一个或多个计算机处理器利用一个或多个不平衡训练集和一个或多个所生成的平衡训练集来训练一个或多个认知模型;/n由一个或多个计算机处理器确定所述一个或多个经训练的认知模型的适合性;以及/n由一个或多个计算机处理器基于所确定的所述一个或多个认知模型的适合性来调整一个或多个训练集。/n

【技术特征摘要】
20190514 US 16/4114251.一种方法,包括:
由一个或多个计算机处理器计算一个或多个训练集统计数据;
由一个或多个计算机处理器基于一个或多个所计算的训练集统计数据来生成一个或多个平衡训练集;
由一个或多个计算机处理器利用一个或多个不平衡训练集和一个或多个所生成的平衡训练集来训练一个或多个认知模型;
由一个或多个计算机处理器确定所述一个或多个经训练的认知模型的适合性;以及
由一个或多个计算机处理器基于所确定的所述一个或多个认知模型的适合性来调整一个或多个训练集。


2.根据权利要求1所述的方法,其中,计算一个或多个训练集统计数据还包括:
由一个或多个计算机处理器取得一个或多个训练集,其中,所述训练集包含标签和一个或多个相关联的训练语句;
由一个或多个计算机处理器计算针对一个或多个标签的训练语句的总数;
由一个或多个计算机处理器确定针对所述一个或多个标签的最小公倍数。


3.根据权利要求2所述的方法,其中,生成一个或多个平衡训练集还包括:
由一个或多个计算机处理器遍历每个训练集;
由一个或多个计算机处理器不确定地选择与每个训练标签相关联的训练语句;以及
由一个或多个计算机处理器基于所确定的最小公倍数来复制所选择的训练语句。


4.根据权利要求3所述的方法,还包括:
由一个或多个计算机处理器生成通用唯一标识符;以及
由一个或多个计算机处理器将所生成的通用唯一标识符附加到所述训练语句。

...

【专利技术属性】
技术研发人员:G·J·斯克里文K·纳拉亚纳斯瓦米V·哈拉帕N·S·维贾亚纳拉西姆哈
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1