训练语料库细化和增量更新制造技术

技术编号：23315190 阅读：26 留言：0更新日期：2020-02-11 17:49

训练语料库细化和增量更新包括获得具有训练样本的训练语料库，通过应用于训练语料库重叠和降噪处理来细化的训练语料库以产生数据的细化的训练语料库，基于过滤的用户反馈维护增量智能数据库，并具有候选反馈训练样本以增强细化的训练语料库，控制候选反馈训练样本与细化的训练语料库的整合，以及用候选反馈训练样本中的一些来增强细化的训练语料库以产生增强的训练语料库。

Refinement and incremental updating of training corpus

全部详细技术资料下载

【技术实现步骤摘要】
训练语料库细化和增量更新
本专利技术一般涉及信息处理系统，更具体地涉及训练语料库细化和增量更新。
技术介绍
分类器使用分类模型对项目进行分类，该分类模型使用称为训练语料库的数据点集合进行“训练”。期望用于训练分类器/分类模型的训练语料库是准确且完整的，以帮助确保诸如文本或自然语言输入的项的全面和准确的分类。
技术实现思路
通过提供计算机实现方法，克服了现有技术的缺点，并提供了附加的优点。该方法获得数据的训练语料库，该训练语料库包括训练样本集合。该方法细化所获得的训练语料库以产生数据的细化的训练语料库，其中细化所获得的训练语料库包括对所获得的训练语料库应用重叠处理和降噪处理，该重叠处理和降噪处理过滤出训练样本集合的一个或多个样本。该方法基于过滤的用户反馈维护增量智能数据库，该增量智能数据库基于过滤的用户反馈来存储候选反馈训练样本，以增强细化的训练语料库。该方法控制候选反馈训练样本与细化的训练语料库的整合，该控制至少部分地根据基于包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度是否大于基于不包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度。该方法还包括用候选反馈训练样本中的至少一些来增强细化的训练语料库，以产生增强的训练语料库。此外，提供了一种计算机程序产品用于执行一种方法，该计算机程序产品包括可由处理电路读取并存储由处理电路执行的指令的计算机可读存储介质。该方法获得数据的训练语料库，该训练语料库包括训练样本集合。该方法细化所获得的训练语料库...

【技术保护点】
1.一种计算机实现的方法，包括：/n获得数据的训练语料库，所述训练语料库包括训练样本集合；/n细化所获得的训练语料库以产生数据的细化的训练语料库，其中细化所获得的训练语料库包括对所获得的训练语料库应用重叠处理和降噪处理，所述重叠处理和降噪处理过滤出训练样本集合的一个或多个样本；/n基于过滤的用户反馈维护增量智能数据库，所述增量智能数据库基于过滤的用户反馈来存储候选反馈训练样本，以增强细化的训练语料库；/n控制候选反馈训练样本与细化的训练语料库的整合，所述控制至少部分地根据基于包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度是否大于基于不包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度；以及/n用候选反馈训练样本中的至少一些来增强细化的训练语料库，以产生增强的训练语料库。/n

【技术特征摘要】
20180726 US 16/046,5121.一种计算机实现的方法，包括：
获得数据的训练语料库，所述训练语料库包括训练样本集合；
细化所获得的训练语料库以产生数据的细化的训练语料库，其中细化所获得的训练语料库包括对所获得的训练语料库应用重叠处理和降噪处理，所述重叠处理和降噪处理过滤出训练样本集合的一个或多个样本；
基于过滤的用户反馈维护增量智能数据库，所述增量智能数据库基于过滤的用户反馈来存储候选反馈训练样本，以增强细化的训练语料库；
控制候选反馈训练样本与细化的训练语料库的整合，所述控制至少部分地根据基于包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度是否大于基于不包括候选反馈训练样本作为细化的训练语料库的一部分的训练来执行的分类的准确度；以及
用候选反馈训练样本中的至少一些来增强细化的训练语料库，以产生增强的训练语料库。

2.根据权利要求1所述的方法，其中所述细化包括：
建立代表训练样本集合的多个语料库特征向量；
构建熵计量数据库，所述构建熵计量数据库包括基于词频-逆向类别频率(TFICF)权重从多个特征向量的每个语料库特征向量中提取并存储标记；
执行重叠处理以识别一个或多个重叠训练样本；
执行噪声检测处理以识别一个或多个噪声训练样本；和
从训练语料库中过滤出一个或多个样本，从训练语料库中过滤出的所述一个或多个样本是从由所述一个或多个重叠样本和所述一个或多个噪声样本构成的组中选择的至少一个样本，所述过滤出是基于质量评分和风险确定来进行的，其中所述过滤产生细化的训练语料库。

3.根据权利要求2所述的方法，其中，所述建立多个语料库特征向量包括：
将训练样本集合的每个样本分配给多个语料库类别的相应类别；和
基于该分配，为多个语料库类别中的每个类别构建语料库特征向量，每个特征向量包括加权的TFICF标记，并且所构建的语料库特征向量是多个语料库特征向量中的一个语料库特征向量。

4.根据权利要求2所述的方法，其中，所述执行重叠处理包括：
基于多个特征向量的成对比较来识别重叠语料库类别；
识别多个特征向量的重叠标记；
获得具有标准关键词、短语和同义词的类别特定词典的标准按类别标记数据库；
基于重叠语料库类别、重叠标记和标准按类别标记数据库来识别一个或多个重叠训练样本；和
存储重叠训练样本用于推荐引擎执行所述过滤。

5.根据权利要求2所述的方法，其中，所述执行噪声检测处理包括：
将熵计量数据库的标记与标准按类别标记数据库的标记进行比较，以识别异常标记；
基于所述比较，识别具有一个或多个噪声标记的语料库类别；和
存储对噪声标记和具有一个或多个噪声标记的所识别的语料库类别的指示，用于推荐引擎执行过滤。

6.根据权利要求1所述的方法，其中所述维护包括：
将过滤的用户反馈馈送到强化学习模...

【专利技术属性】
技术研发人员：P库马，J沃恩，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人