标记训练集数据制造技术

技术编号:24206571 阅读:61 留言:0更新日期:2020-05-20 14:55
本申请的各实施例涉及标记训练集数据。一种包括指令的计算机可读存储介质,该指令在被执行时使得处理器:基于有限的一组标记训练数据和较大的一组未标记训练数据来生成机器学习模型,标记训练数据和未标记训练数据具有共同的主题,生成该机器学习模型通过:标识术语的包含列表和排除列表;获取包含来自包含列表的任何术语的未标记文档子集,并且排除包含来自排除列表的术语的任何文档;标识设定标准内的、与来自包含列表或排除列表的术语相似的术语,并且将这些标识的术语分别添加到包含列表或排除列表;重复,直到没有新的相似术语被标识;以及针对每个类别、从未标记训练数据生成包括最终文档子集的机器学习模型的训练数据。

Tag training set data

【技术实现步骤摘要】
标记训练集数据
技术介绍
本专利技术涉及机器学习(ML)系统。具体地,本专利技术描述了一种标记未标记数据以针对机器学习系统创建训练案例的自动化方法。可以通过一组训练案例来训练机器学习(ML)系统。训练案例包括信息以及机器学习系统将要根据该信息来产生的答案。该信息可以采用多种形式,例如文本、图像、匿名病历、音频剪辑等。机器学习系统的性能的准确性可以取决于训练集的大小和质量。如果训练集中的答案的准确性较低,则由ML系统产生的结果答案可能同样不准确。如果训练集中的材料数量很少,则系统可能没有足够的信息来覆盖输入范围。这也可能会降低ML系统的答案的准确性。但是,生成高质量的大的训练集是一项艰巨的任务,通常需要专家时间和每个案例的审阅。在复杂的地区,使用专家小组来确定训练案例的做法并不鲜见。尽管这提高了案例的答案的质量,但是潜在地成本高昂且耗时。因此,期望开发一种哪个经济地生产高质量的大的训练集的方法。
技术实现思路
除了其他示例,本说明书描述了一种包括指令的计算机可读存储介质,该指令在被执行时使得处理器基于有限的一组标记训练数据和较大的一组未标记训练数据本文档来自技高网...

【技术保护点】
1.一种包括指令的计算机可读存储介质,所述指令在被执行时使得处理器:通过以下、基于有限的一组标记训练数据和较大的一组未标记训练数据来生成机器学习模型,所述标记训练数据和所述未标记训练数据具有共同的主题:/n针对多个类别中的每个类别,标识与正被分类的训练数据对应的术语的包含列表和与当前未被分类的训练数据对应的术语的排除列表;/n针对所述类别中的每个类别,从所述未标记训练数据获取文档子集,所述子集包括包含来自所述包含列表的任何术语的所有文档并且排除包含来自所述排除列表的术语的任何文档;/n在每个文档子集内,标识设定标准内的、与来自所述包含列表或所述排除列表的术语相似的术语,并且将那些标识的术语分别...

【技术特征摘要】
20181113 US 16/189,3971.一种包括指令的计算机可读存储介质,所述指令在被执行时使得处理器:通过以下、基于有限的一组标记训练数据和较大的一组未标记训练数据来生成机器学习模型,所述标记训练数据和所述未标记训练数据具有共同的主题:
针对多个类别中的每个类别,标识与正被分类的训练数据对应的术语的包含列表和与当前未被分类的训练数据对应的术语的排除列表;
针对所述类别中的每个类别,从所述未标记训练数据获取文档子集,所述子集包括包含来自所述包含列表的任何术语的所有文档并且排除包含来自所述排除列表的术语的任何文档;
在每个文档子集内,标识设定标准内的、与来自所述包含列表或所述排除列表的术语相似的术语,并且将那些标识的术语分别添加到所述包含列表或所述排除列表;
重复基于所述包含列表和所述排除列表从所述未标记训练数据获取文档子集以及从所述文档子集内标识相似术语,直到没有新的相似术语在所述设定标准内被标识;以及
针对每个类别、从所述未标记训练数据生成包括最终文档子集的所述机器学习模型的训练数据。


2.根据权利要求1所述的介质,其中所述设定标准包括对应的单词或短语向量的余弦相似度。


3.根据权利要求1所述的介质,还包括:当生成所述包含列表和所述排除列表时,从所述未标记训练数据提取潜在短语并且将所述短语中的每个短语令牌化为单个单词。


4.根据权利要求3所述的介质,还包括:基于令牌化的所述短语来针对所述子集的每个文档生成单词向量。


5.根据权利要求1所述的介质,其中所述未标记数据包括病例,并且所述包含列表和所述排除列表上的所述术语包括医疗术语。


6.一种从具有标记文档子集的文档语料库进行主题提取的计算机实现的方法,所述方法包括:
从所述标记文档标识多个包含列表,其中每个包含列表包括标识共享主题的一组术语;
确定针对每个包含列表的排除列表,其中来自任何包含列表的所述术语存在于所有其他包含列表的排除列表上;
在所述语料库中标识具有第一包含列表的一组术语中的术语的第一文档,并且其中所述文档不包含所述第一包含列表的所述排除列表上的术语;
对来自所述第一文档中的所述第一包含列表的所述一组术语的术语令牌化;
解析所述第一文档以形成n元语法;
基于余弦相似度来对所述n元语法排序以标识潜在的新术语;
将所述潜在的新术语的词性与所述一组术语的术语的一部分比较;
向所述第一包含列表的所述一组术语添加高频n元语法...

【专利技术属性】
技术研发人员:C·姆瓦拉布
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1