标记训练集数据制造技术

技术编号:24206571 阅读:50 留言:0更新日期:2020-05-20 14:55
本申请的各实施例涉及标记训练集数据。一种包括指令的计算机可读存储介质,该指令在被执行时使得处理器:基于有限的一组标记训练数据和较大的一组未标记训练数据来生成机器学习模型,标记训练数据和未标记训练数据具有共同的主题,生成该机器学习模型通过:标识术语的包含列表和排除列表;获取包含来自包含列表的任何术语的未标记文档子集,并且排除包含来自排除列表的术语的任何文档;标识设定标准内的、与来自包含列表或排除列表的术语相似的术语,并且将这些标识的术语分别添加到包含列表或排除列表;重复,直到没有新的相似术语被标识;以及针对每个类别、从未标记训练数据生成包括最终文档子集的机器学习模型的训练数据。

Tag training set data

【技术实现步骤摘要】
标记训练集数据
技术介绍
本专利技术涉及机器学习(ML)系统。具体地,本专利技术描述了一种标记未标记数据以针对机器学习系统创建训练案例的自动化方法。可以通过一组训练案例来训练机器学习(ML)系统。训练案例包括信息以及机器学习系统将要根据该信息来产生的答案。该信息可以采用多种形式,例如文本、图像、匿名病历、音频剪辑等。机器学习系统的性能的准确性可以取决于训练集的大小和质量。如果训练集中的答案的准确性较低,则由ML系统产生的结果答案可能同样不准确。如果训练集中的材料数量很少,则系统可能没有足够的信息来覆盖输入范围。这也可能会降低ML系统的答案的准确性。但是,生成高质量的大的训练集是一项艰巨的任务,通常需要专家时间和每个案例的审阅。在复杂的地区,使用专家小组来确定训练案例的做法并不鲜见。尽管这提高了案例的答案的质量,但是潜在地成本高昂且耗时。因此,期望开发一种哪个经济地生产高质量的大的训练集的方法。
技术实现思路
除了其他示例,本说明书描述了一种包括指令的计算机可读存储介质,该指令在被执行时使得处理器基于有限的一组标记训练数据和较大的一组未标记训练数据来生成机器学习模型,标记训练数据和未标记训练数据具有共同的主题。处理器通过以下方式来做到这一点:针对多个类别中的每个类别,标识与正被分类的训练数据对应的术语的包含列表和与当前未被分类的训练数据对应的术语的排除列表。针对每个类别,处理器从未标记训练数据获取文档子集,该子集包括包含来自包含列表的任何术语的所有文档并且排除包含来自排除列表的术语的任何文档。处理器在每个文档子集内,标识设定标准内的、与来自包含列表或排除列表的术语相似的术语,并且将这些标识的术语分别添加到包含列表或排除列表。处理器重复基于包含列表和排除列表从未标记训练数据获取文档子集以及从这些文档子集内标识相似术语,直到没有新的相似术语在设定标准内被标识。处理器针对每个类别、从未标记训练数据生成包括最终文档子集的机器学习模型的训练数据。在一些示例中,设定标准包括对应的单词或短语向量的余弦相似度。处理器还可以在生成所述包含列表和所述排除列表时,从所述未标记训练数据提取潜在短语并且将所述短语中的每个短语令牌化为单个单词。处理器可以基于所述令牌化短语来针对所述子集的每个文档生成单词向量。在示例性实施例中,未标记数据包括病例,并且所述包含列表和所述排除列表上的术语包括医疗术语。本说明书还描述了一种从具有标记文档子集的文档语料库进行主题提取的计算机实现的方法。该方法包括从标记文档标识多个包含列表,其中每个包含列表包括标识共享主题的一组术语。该方法包括确定针对每个包含列表的排除列表,其中来自任何包含列表的术语存在于所有其他包含列表的排除列表上。该方法包括在语料库中标识具有第一包含列表的一组术语中的术语的第一文档,并且其中该文档不包含第一包含列表的排除列表上的术语。该方法包括对来自第一文档中的第一包含列表的一组术语的术语令牌化。该方法包括解析第一文档以形成n元语法,并且基于余弦相似度来对n元语法进行排序以标识潜在的新术语。该方法包括将潜在的新术语的词性与该组术语的术语的一部分比较。该方法包括向第一包含列表的一组术语添加高频n元语法,以及向除了第一包含列表的其他包含列表的排除列表添加高频n元语法。该方法包括重复标识、令牌化、解析、排序、比较、添加和针对每个包含列表中的每个包含列表的添加的操作,直到没有具有包含列表上的术语而没有来自相关联的排除列表的术语的未标记文档保留在语料库中。在一个示例中,文档是较大文档的段落。例如,语料库的文档可以是摘要。排除列表还可以利用来自语料库中的标记文档的标识的单词被填充。该方法还可以包括:语料库中的具有标识的关键字而没有来自相关联的排除列表的关键字的所有文档被解析以形成n元语法,并且其中n元语法被分类在一起以标识高频n元语法。在一个示例中,n元语法基于在基线之上的频率而被排序,其中基线从没有来自任何排除列表的术语的第二文档语料库被确定。该方法还可以包括:标识与新主题相关联的高频n元语法,以及在包含列表上创建包括高频n元语法的新主题。在一些示例中,该方法还包括从数据库提取主题。本说明书还描述了一种用于审阅医学诊断的系统。该系统包括以计算机可读的非暂态形式被存储的病例语料库,以及具有相关联的存储器的处理器。相关联的存储器包含指令,这些指令在被执行时,使得处理器标识一组症状,其中每个症状具有用于该症状的至少一个术语。处理器从数据库标识针对一组症状中的症状的附加术语。处理器针对每个症状创建排除列表,其中排除列表包括该组症状中的所有其他症状。处理器在文档语料库中标识包含针对第一症状的、来自包含列表的术语而不包含针对第一症状的来自排除列表的任何术语的病历。处理器解析所标识的病历以形成n元语法。处理器过滤n元语法以标识与针对该症状的术语具有相同词性的n元语法。处理器基于针对第一症状的术语与过滤后的n元语法之间的余弦距离,来在阈值间隔内标识过滤后的n元语法。处理器将所标识的过滤后的n元语法添加到针对第一症状的术语列表。在一个示例中,这些指令还使得处理器编辑文档语料库。附图说明附图示出了本文中描述的原理的各种示例,并且是说明书的一部分。所示出的示例不限制权利要求的范围。图1示出了根据本文中描述的原理的示例的准备机器学习(ML)训练集的过程的流程图;图2示出了在与根据本文中描述的原理的示例一致的方法中、标识所提取的n元语法的词性的示例;图3示出了根据本文中描述的原理的示例的包含指令的机器可读存储介质,这些指令在被执行时使得处理器基于有限的一组标记训练数据和较大的一组未标记训练数据来生成机器学习模型,标记训练数据和未标记训练数据具有共同的主题;图4是根据本文中描述的原理的示例的用于标识未标记文档的基本事实(groundtruth)的计算设备的图;图5示出了根据本文中描述的原理的示例的从具有标记文档子集的文档语料库中进行主题提取的方法的流程图;以及图6示出了根据本文中描述的原理的示例的用于审阅医学诊断的系统的图。在所有附图中,相同的附图标记表示相似但不一定相同的元素。附图不一定按比例绘制,并且某些部分的尺寸可能被放大或最小化以更清楚地示出所示示例。附图提供与说明书相一致的示例和/或实现。然而,说明书不限于附图中示出的示例和/或实现。具体实施方式通常,公开可用的数据以由没有被机器学习(ML)系统寻求的期望属性索引的形式被找到。例如,期刊文章、新闻文章、博客文章、视频片段等可以在索引最少的情况下可用(例如,关键字),或者在根本没有任何标识符的情况下可用。开发医疗诊断系统所需要的病例可能不可用,未编入索引和/或已编辑。一些经过清理的病历(通常是成像结果)在公共场合可用,但这样的数据集的大小通常很小。此外,这样的数据集可以包括或可以不包括诊断信息。尽管最好的是这样的记录包含与在获取信息之后的患者的病情相关的信息,以便确认诊断,但是这样的数据集非常有限。此外,去匿名化的研究已经证明了真正使医学数据匿名化同时要包含足够的信息以用于开发模型本文档来自技高网...

【技术保护点】
1.一种包括指令的计算机可读存储介质,所述指令在被执行时使得处理器:通过以下、基于有限的一组标记训练数据和较大的一组未标记训练数据来生成机器学习模型,所述标记训练数据和所述未标记训练数据具有共同的主题:/n针对多个类别中的每个类别,标识与正被分类的训练数据对应的术语的包含列表和与当前未被分类的训练数据对应的术语的排除列表;/n针对所述类别中的每个类别,从所述未标记训练数据获取文档子集,所述子集包括包含来自所述包含列表的任何术语的所有文档并且排除包含来自所述排除列表的术语的任何文档;/n在每个文档子集内,标识设定标准内的、与来自所述包含列表或所述排除列表的术语相似的术语,并且将那些标识的术语分别添加到所述包含列表或所述排除列表;/n重复基于所述包含列表和所述排除列表从所述未标记训练数据获取文档子集以及从所述文档子集内标识相似术语,直到没有新的相似术语在所述设定标准内被标识;以及/n针对每个类别、从所述未标记训练数据生成包括最终文档子集的所述机器学习模型的训练数据。/n

【技术特征摘要】
20181113 US 16/189,3971.一种包括指令的计算机可读存储介质,所述指令在被执行时使得处理器:通过以下、基于有限的一组标记训练数据和较大的一组未标记训练数据来生成机器学习模型,所述标记训练数据和所述未标记训练数据具有共同的主题:
针对多个类别中的每个类别,标识与正被分类的训练数据对应的术语的包含列表和与当前未被分类的训练数据对应的术语的排除列表;
针对所述类别中的每个类别,从所述未标记训练数据获取文档子集,所述子集包括包含来自所述包含列表的任何术语的所有文档并且排除包含来自所述排除列表的术语的任何文档;
在每个文档子集内,标识设定标准内的、与来自所述包含列表或所述排除列表的术语相似的术语,并且将那些标识的术语分别添加到所述包含列表或所述排除列表;
重复基于所述包含列表和所述排除列表从所述未标记训练数据获取文档子集以及从所述文档子集内标识相似术语,直到没有新的相似术语在所述设定标准内被标识;以及
针对每个类别、从所述未标记训练数据生成包括最终文档子集的所述机器学习模型的训练数据。


2.根据权利要求1所述的介质,其中所述设定标准包括对应的单词或短语向量的余弦相似度。


3.根据权利要求1所述的介质,还包括:当生成所述包含列表和所述排除列表时,从所述未标记训练数据提取潜在短语并且将所述短语中的每个短语令牌化为单个单词。


4.根据权利要求3所述的介质,还包括:基于令牌化的所述短语来针对所述子集的每个文档生成单词向量。


5.根据权利要求1所述的介质,其中所述未标记数据包括病例,并且所述包含列表和所述排除列表上的所述术语包括医疗术语。


6.一种从具有标记文档子集的文档语料库进行主题提取的计算机实现的方法,所述方法包括:
从所述标记文档标识多个包含列表,其中每个包含列表包括标识共享主题的一组术语;
确定针对每个包含列表的排除列表,其中来自任何包含列表的所述术语存在于所有其他包含列表的排除列表上;
在所述语料库中标识具有第一包含列表的一组术语中的术语的第一文档,并且其中所述文档不包含所述第一包含列表的所述排除列表上的术语;
对来自所述第一文档中的所述第一包含列表的所述一组术语的术语令牌化;
解析所述第一文档以形成n元语法;
基于余弦相似度来对所述n元语法排序以标识潜在的新术语;
将所述潜在的新术语的词性与所述一组术语的术语的一部分比较;
向所述第一包含列表的所述一组术语添加高频n元语法...

【专利技术属性】
技术研发人员:C·姆瓦拉布
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1