训练语料库细化和增量更新制造技术

技术编号:23315190 阅读:26 留言:0更新日期:2020-02-11 17:49
训练语料库细化和增量更新包括获得具有训练样本的训练语料库,通过应用于训练语料库重叠和降噪处理来细化的训练语料库以产生数据的细化的训练语料库,基于过滤的用户反馈维护增量智能数据库,并具有候选反馈训练样本以增强细化的训练语料库,控制候选反馈训练样本与细化的训练语料库的整合,以及用候选反馈训练样本中的一些来增强细化的训练语料库以产生增强的训练语料库。

Refinement and incremental updating of training corpus

【技术实现步骤摘要】
训练语料库细化和增量更新
本专利技术一般涉及信息处理系统,更具体地涉及训练语料库细化和增量更新。
技术介绍
分类器使用分类模型对项目进行分类,该分类模型使用称为训练语料库的数据点集合进行“训练”。期望用于训练分类器/分类模型的训练语料库是准确且完整的,以帮助确保诸如文本或自然语言输入的项的全面和准确的分类。
技术实现思路
通过提供计算机实现方法,克服了现有技术的缺点,并提供了附加的优点。该方法获得数据的训练语料库,该训练语料库包括训练样本集合。该方法细化所获得的训练语料库以产生数据的细化的训练语料库,其中细化所获得的训练语料库包括对所获得的训练语料库应用重叠处理和降噪处理,该重叠处理和降噪处理过滤出训练样本集合的一个或多个样本。该方法基于过滤的用户反馈维护增量智能数据库,该增量智能数据库基于过滤的用户反馈来存储候选反馈训练样本,以增强细化的训练语料库。该方法控制候选反馈训练样本与细化的训练语料库的整合,该控制至少部分地根据基于包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度是否大于基于不包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度。该方法还包括用候选反馈训练样本中的至少一些来增强细化的训练语料库,以产生增强的训练语料库。此外,提供了一种计算机程序产品用于执行一种方法,该计算机程序产品包括可由处理电路读取并存储由处理电路执行的指令的计算机可读存储介质。该方法获得数据的训练语料库,该训练语料库包括训练样本集合。该方法细化所获得的训练语料库以产生数据的细化的训练语料库,其中细化所获得的训练语料库包括对所获得的训练语料库应用重叠处理和降噪处理,该重叠处理和降噪处理过滤出训练样本集合中的一个或多个样本。该方法基于过滤的用户反馈维护增量智能数据库,该增量智能数据库基于过滤的用户反馈来存储候选反馈训练样本,以增强细化的训练语料库。该方法控制候选反馈训练样本与细化的训练语料库的整合,该控制至少部分地根据基于包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度是否大于基于不包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度。该方法还包括用候选反馈训练样本中的至少一些来增强细化的训练语料库,以产生增强的训练语料库。此外,提供了一种包括存储器和与该存储器通信的处理器的计算机系统,其中该计算机系统被配置为执行一种方法。该方法获得数据的训练语料库,该训练语料库包括训练样本集合。该方法细化所获得的训练语料库以产生数据的细化的训练语料库,其中细化所获得的训练语料库包括对所获得的训练语料库应用重叠处理和降噪处理,该重叠处理和降噪处理过滤出训练样本集合中的一个或多个样本。该方法基于过滤的用户反馈维护增量智能数据库,该增量智能数据库基于过滤的用户反馈来存储候选反馈训练样本,以增强细化的训练语料库。该方法控制候选反馈训练样本与细化的训练语料库的整合,该控制至少部分地根据基于包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度是否大于基于不包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度。该方法还包括用候选反馈训练样本中的至少一些来增强细化的训练语料库,以产生增强的训练语料库。通过本文描述的概念实现了附加的特征和优点。附图说明在说明书总结部分,本文描述的各方面作为权利要求中的示例被特别指出和清楚地要求保护。从以下结合附图的详细描述中,本专利技术的前述和其他目的、特征和优点是显而易见的,其中:图1描绘了根据本文描述的各方面的语料库建议器(CorpusAdvisor)的示例组件图;图2描绘了根据本文描述的各方面的自主再生反馈控制系统的示例架构设计;图3描绘了根据本文描述的各方面的强化学习模型的示例组件图;图4描绘了根据本文描述的各方面的用于人工智能增强控制的方法的示例组件图;图5A-5F示出了根据本文描述的各方面的语料库建议器分类推荐的示例场景;图6描绘了根据本文描述的各方面的强化学习模型的推荐分类方案的示例方法;图7示出了根据本文描述的各方面的示例熵交叉(entropyintersection)关系;图8和图9描绘了根据本文描述的各方面的示例决策表边界条件;图10描绘了根据本文描述的各方面的用于训练语料库细化和增量更新的过程;图11描绘了结合和/或使用本文描述的各方面的计算机系统和相关设备的一个示例;图12描绘了根据本专利技术实施例的云计算环境;以及图13描绘了根据本专利技术实施例的抽象模型层。具体实施方式没有标准系统和/或模型可用于建议如何有策略地创建用于基于意图/上下文的文本分类的训练语料库以及如何基于用户反馈来添加新的变体(样本)。手动的训练语料库修改和变体添加是耗时的、反复的、容易出错的、不完整的以及缺乏质量保证的。这种手动训练经常导致训练语料库质量差,同时不能提供对所添加变体的影响的洞察。输入的用户反馈实质上是随机的,并且通常充满噪声。尤其是用于文本分类的反馈系统实质上是手动或半自动的,并且缺乏控制。这些系统容易出现手动错误,导致分类器准确度受损,并且由于手动验证和测试而浪费时间。本文描述的各方面解决了与手动训练相关联的问题。这是部分地通过基于人工智能的训练、确定与训练语料库相关联的质量(精度和召回)和风险、并采取具体措施来减轻质量缺陷和风险来实现的,从而提高用训练语料库训练的(一个或多个)分类器的准确度。各方面还结合了自主(例如,完全自主)再生反馈机制,以在控制系统的帮助下,使用人工智能逐步增强训练语料库。基于在反馈中表示的类别的注释,各方面学习如何通过使用本文描述的各方面将经由用户反馈接收的新变体和新/测试文档(样本)添加到训练语料库中。用于语料库改进的一些方法涉及用于口语理解和命令/控制场景的统计分类器、用于自动注释文本中的信息的交互式机器学习系统以及处理自然语言文本的工具的开发。然而,这些方法都没有结合告知训练语料库的质量以及分类的类间效应和类内效应的诊断机器学习模型。另外,它们倾向于严重依赖人工干预,并且缺乏自学的能力,该自学的能力是通过理解过去发生过什么、查看训练语料库,允许系统本身以受控方式用来自新变体(例如,经由反馈提供的新变体)的新智能来增量式地增强语料库的自学的能力,该自学的能力通过对先前样本空间检查准确度来预测将来可能发生什么。另外,用于自动注释文本中的信息的交互式机器学习系统可能结合缺乏任何稳健算法和反馈过滤技术的基本反馈机制。在每个连接(junction)处仍可能使用人工干预来驱动学习阶段,因此容易出现手动错误,导致较差的文本分类。该方法不能使系统以受控方式学习该系统在过去没有见过但被确认与当前没有在语料库中表示的特定意图或新意图有关的新智能。在文本分类中,较低的训练语料库准确度的原因可能是导致假阴性情况的类间(inter-class)重叠效应和导致假阳性情况的类内(intra-class)本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法,包括:/n获得数据的训练语料库,所述训练语料库包括训练样本集合;/n细化所获得的训练语料库以产生数据的细化的训练语料库,其中细化所获得的训练语料库包括对所获得的训练语料库应用重叠处理和降噪处理,所述重叠处理和降噪处理过滤出训练样本集合的一个或多个样本;/n基于过滤的用户反馈维护增量智能数据库,所述增量智能数据库基于过滤的用户反馈来存储候选反馈训练样本,以增强细化的训练语料库;/n控制候选反馈训练样本与细化的训练语料库的整合,所述控制至少部分地根据基于包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度是否大于基于不包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度;以及/n用候选反馈训练样本中的至少一些来增强细化的训练语料库,以产生增强的训练语料库。/n

【技术特征摘要】
20180726 US 16/046,5121.一种计算机实现的方法,包括:
获得数据的训练语料库,所述训练语料库包括训练样本集合;
细化所获得的训练语料库以产生数据的细化的训练语料库,其中细化所获得的训练语料库包括对所获得的训练语料库应用重叠处理和降噪处理,所述重叠处理和降噪处理过滤出训练样本集合的一个或多个样本;
基于过滤的用户反馈维护增量智能数据库,所述增量智能数据库基于过滤的用户反馈来存储候选反馈训练样本,以增强细化的训练语料库;
控制候选反馈训练样本与细化的训练语料库的整合,所述控制至少部分地根据基于包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度是否大于基于不包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度;以及
用候选反馈训练样本中的至少一些来增强细化的训练语料库,以产生增强的训练语料库。


2.根据权利要求1所述的方法,其中所述细化包括:
建立代表训练样本集合的多个语料库特征向量;
构建熵计量数据库,所述构建熵计量数据库包括基于词频-逆向类别频率(TFICF)权重从多个特征向量的每个语料库特征向量中提取并存储标记;
执行重叠处理以识别一个或多个重叠训练样本;
执行噪声检测处理以识别一个或多个噪声训练样本;和
从训练语料库中过滤出一个或多个样本,从训练语料库中过滤出的所述一个或多个样本是从由所述一个或多个重叠样本和所述一个或多个噪声样本构成的组中选择的至少一个样本,所述过滤出是基于质量评分和风险确定来进行的,其中所述过滤产生细化的训练语料库。


3.根据权利要求2所述的方法,其中,所述建立多个语料库特征向量包括:
将训练样本集合的每个样本分配给多个语料库类别的相应类别;和
基于该分配,为多个语料库类别中的每个类别构建语料库特征向量,每个特征向量包括加权的TFICF标记,并且所构建的语料库特征向量是多个语料库特征向量中的一个语料库特征向量。


4.根据权利要求2所述的方法,其中,所述执行重叠处理包括:
基于多个特征向量的成对比较来识别重叠语料库类别;
识别多个特征向量的重叠标记;
获得具有标准关键词、短语和同义词的类别特定词典的标准按类别标记数据库;
基于重叠语料库类别、重叠标记和标准按类别标记数据库来识别一个或多个重叠训练样本;和
存储重叠训练样本用于推荐引擎执行所述过滤。


5.根据权利要求2所述的方法,其中,所述执行噪声检测处理包括:
将熵计量数据库的标记与标准按类别标记数据库的标记进行比较,以识别异常标记;
基于所述比较,识别具有一个或多个噪声标记的语料库类别;和
存储对噪声标记和具有一个或多个噪声标记的所识别的语料库类别的指示,用于推荐引擎执行过滤。


6.根据权利要求1所述的方法,其中所述维护包括:
将过滤的用户反馈馈送到强化学习模...

【专利技术属性】
技术研发人员:P库马J沃恩
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1