用于主动机器学习的系统和方法技术方案

技术编号:26181010 阅读:66 留言:0更新日期:2020-10-31 14:45
一种用于主动学习的电子设备包括至少一个存储器和耦合到至少一个存储器的至少一个处理器。该至少一个处理器被配置为:基于一个或多个条目和标记的数据之间的相似性,从包括未标记的数据的数据集中选择一个或多个条目。该至少一个处理器还被配置为使得一个或多个条目被标记。

【技术实现步骤摘要】
【国外来华专利技术】用于主动机器学习的系统和方法
本公开一般地涉及机器学习系统。更具体地,本公开涉及用于主动机器学习的系统和方法。
技术介绍
主动学习(AL)是一种解决在没有足够标记(label)的情况下的监督式(supervised)学习问题的方法。虽然已经提出了针对分类问题的主动学习解决方案,但是针对序列的主动学习算法仍然没有被广泛讨论。随着对人工智能兴趣的增长,许多新出现的问题在序列学习的范围内被定义,包括图像描述生成(captioning)、机器翻译和自然语言理解。与对于样本只需要一个标记的分类任务相比,序列学习任务通常对于整个序列需要一系列令牌级(token-level)标记。对于序列的精确注释(annotation)不仅耗费人力,而且可能需要非常特定的领域知识,这是众包的(crowd-sourcing)工作人员不容易完成的。
技术实现思路
问题的解决方案本公开提供一种用于主动机器学习的系统和方法。在第一实施例中,一种用于主动学习的方法包括基于一个或多个条目和标记的数据之间的相似性从包括未标记的数据的数据集中选择一个或本文档来自技高网...

【技术保护点】
1.一种用于主动学习的方法,所述方法包括:/n基于一个或多个条目和标记的数据之间的相似性从包括未标记的数据的数据集中选择一个或多个条目;和/n使得所述一个或多个条目被标记。/n

【技术特征摘要】
【国外来华专利技术】20180411 US 62/656,210;20190329 US 16/370,5421.一种用于主动学习的方法,所述方法包括:
基于一个或多个条目和标记的数据之间的相似性从包括未标记的数据的数据集中选择一个或多个条目;和
使得所述一个或多个条目被标记。


2.根据权利要求1所述的方法,还包括:
接收未标记的输入;和
基于模型未能对未标记的输入进行标记的确定,将未标记的输入存储到数据集中。


3.根据权利要求1所述的方法,还包括:
用一个或多个标记的条目更新标记的数据;和
使得模型基于更新的标记的数据被进一步训练。


4.根据权利要求1所述的方法,还包括:
由特征编码器将数据集中的条目映射到潜在空间;
由判别器处理数据集中的映射的条目,其中,所述判别器被配置为将未标记的数据与标记的数据区分开;和
由所述判别器输出与数据集中的条目相关联的一个或多个相似性度量,其中,所述一个或多个相似性度量指示数据集中的条目与标记的数据的相似性。


5.根据权利要求4所述的方法,其中,基于一个或多个条目和标记的数据之间的相似性从数据集中选择一个或多个条目包括:
确定与来自数据集的一个或多个条目相关联的相似性度量高于阈值;和
根据一个或多个条目和标记的数据之间的相似性来对一个或多个条目进行标记。


6.根据权利要求4所述的方法,其中,基于一个或多个条目和标记的数据之间的相似性从数据集中选择一个或多个条目包括:
确定与来自数据集的一个或多个条目相关联的一个或多个相似性度量低于阈值;和
根据手动标记应用对一个或多个条目进行标记。


7.根据权利要求6所述的方法,其中,根据手动标记应用对一个或多个条目进行标记包括:
请求至少一个标记,其中,所请求的至少一个标记包括用于提供至少一个标记的一个或多个选项;
响应于对至少一个标记的请求,接收至少一个标记输入;和
基于至少一个标记输入对一个或多个条目进行标记。


8.一种用于主动学习的电子设备,所述电子设备包括:
至少一个存储器;和
耦合到所述至少一个存储器的至少一个处理器,其中,所述至少一个处理器被配置为:
基...

【专利技术属性】
技术研发人员:邓岳沈逸麟金红霞
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1