对大样本组的高效标注制造技术

技术编号:15919477 阅读:28 留言:0更新日期:2017-08-02 04:39
提供一种用于标注批量原始样本的计算机实施的方法。选自原始样本的第一子集用于人工标注以产生人工标注的样本,所述第一子集从所述批量中选出并且通过最小化第一子集和所述批量之间的熵均差来确定。人工标注的样本被用作训练数据以配置用于标注输入样本以产生标注输出样本的标注过程和用于验证标注的输出样本的标注准确性的检查过程。通过标注过程处理所述批中剩余的原始样本以产生机器标注的样本,其准确性通过检查过程来验证。在一个实施方式中,选择对应于错误的机器标注的样本的原始样本的一部分用于人工标注。作为结果的额外的人工标注的样本被用于更新两个过程。然后通过两个过程来处理未被标注的剩余的原始样本。

【技术实现步骤摘要】
【国外来华专利技术】对大样本组的高效标注
本专利技术总体上涉及用于标注批量样本的计算机实施的方法。特别地,本专利技术涉及这样的方法:在其中人工标注被用于标注样本当中的基础实例和特殊实例而其余样本被机器标注。
技术介绍
随着互联网和社交媒体的普及,数字对象快速生成。这些数字对象通常为多媒体,例如视频、图像、音频文件、文本和其组合。对数字对象的标注提高了其可搜索性。通过标注,数字对象被标注有用于描述数字对象的元数据,例如一个或多个关键词。尽管通过标注使得在包含大量数字对象的库中搜索期望的对象高效,但是标注大量的数字对象就其本身来说是一个技术挑战。通常,机器学习算法被用于分类数字对象以进行标注。智能认知系统需要初始分类器训练。初始用于训练分类器的数字对象首先通过人工标注而被手动标注。人工标注无疑是一个耗时的高成本过程。在标注时减少人工工作是可取的。更具体地,从数字对象库中选择较少量的数字对象来进行人工标注以训练分类器是可取的。然而,大多数现有的标注技术(例如CN104142912A、CN102999516A和US2010/0076923A1中提出的技术)针对另一方面——在可利用的训练样本已经被标注的假设下增加分类器的标注准确性。
中存在对减少或最小化被选择用于人工标注的数字样本的数量的技术的需要。
技术实现思路
本专利技术的第一方面是为了提供一种用于标注批量原始样本的计算机实施的方法。在所述方法中,从所述批量中选择原始样本的第一子集进行人工标注以产生人工标注的样本。所述第一子集通过在最小化所述第一子集的熵均和所述批量的熵均之间的差的方式优化所述第一子集来确定。原始样本的任意集合的熵均通过平均属于前述集合的原始样本的熵值来计算。在获得人工标注的样本之后,从所述批量中去除属于选择的第一子集的原始样本。人工标注的样本被用作训练数据以配置用于标注输入样本以产生标注的输出样本的至少一个标注过程。在配置之后的标注过程用于标注所述批量中剩余的任何原始样本。优选地,人工标注的样本还被用作训练数据以配置用于验证标注的输出样本的标注准确性的检查过程。此外,对所述批量中剩余的任何原始样本执行标注和检查过程。标注和检查过程包括下述步骤。通过标注过程对所述批量中剩余的单独的原始样本进行标注以产生单独的机器标注的样本。通过检查过程验证单独的机器标注的样本的标注准确性。如果单独的机器标注的样本的标注被验证为是准确的,则从所述批量中去除单独的原始样本;否则,丢弃单独的机器标注的样本。可选的步骤是为单独的原始样本生成验证结果。验证结果包括单独的原始样本、单独的机器标注的样本和单独的机器标注的样本是否准确的指示。如果在执行标注和检查过程之后所述批量非空,则执行更新过程。在更新过程的一个实施方式中,从所述批量中选择原始样本的第二子集进行人工标注以产生额外的人工标注的样本。在获得额外人工标注的样本之后,从所述批量中去除属于选择的第二子集的原始样本。额外的人工标注的样本被用作额外的训练数据以更新标注过程和检查过程。如果在执行更新过程之后所述批量非空,则重复标注和检查过程。在更新过程的另一实施方式中,根据在标注和检查过程中获得的一个或多个验证结果来更新标注过程和检查过程。特别地,一个或多个验证结果的全部或部分被用作额外的训练数据以更新标注过程和检查过程。在完成更新过程之后,重复标注和检查过程。本专利技术的第二方面是为了提供一种用于标注原始样本的组的计算机实施的方法。所述方法包括聚类所述组中的原始样本以便将所述组分割成原始样本的一个或多个聚类。根据在本专利技术的第一方面中阐述的方法的任一实施方式来标注原始样本的每个聚类。如下文的实施方式所示意地公开了本专利技术的其他方面。附图说明图1描绘了根据本专利技术的标注批量原始样本的流程图。图2A和2B提供了说明标注所述批量原始样本的处理流程的示例,其中图2A描绘了第一轮处理而图2B描绘了第二轮处理。具体实施方式本文在说明书和随附的权利要求书中使用了下述定义。“样本”的意思是数字对象。数字对象是在计算机环境中的非实体数字内容。在大多情况下,数字对象是多媒体内容,例如视频、图像、音频文件、文本或文本文件或其组合。“原始样本”的意思是未被标注或仅被预标注的原样本。“预标注”在下述意义上不同于“标注”。对于未被标注的原始样本,原始样本不包含与原始样本关联的任何标注消息。原始样本即原样本。对于被预标注的原始样本,原样本与第一标注消息关联以形成原始样本但是第一标注消息将通过某个标注过程被第二标注消息取代。第一标注消息可以被用作例如至标注过程的输入以便在标注描述方面改进第一标注消息并且从而产生第二标注消息。在一个特定示例中,第一标注消息由人工检视以在人工标注中用对于原始样本更准确的描述来准备第二标注消息。“标注的样本”的意思是通过标注原始样本而得到的作为结果的样本。标注的样本通过将标注消息与原始样本中的原样本关联而形成。通常,标注的样本是标注有标注消息的原样本,或者标注的样本由数据结构来表示,所述数据结构至少包括作为一个字段的原样本和作为另一字段的标注消息。对于标注的样本,其可以被分类为人工标注的样本或机器标注的样本。“人工标注的样本”的意思是通过原始样本的人工标注而获得的标注的样本。“机器标注的样本”的意思是其标注消息整个地由计算机处理来确定的经标注的样本。本专利技术的第一方面是为了提供一种用于标注批量原始样本的计算机实施的方法。在所述方法中,选择所述批量的子集用于人工标注。在对所述子集的选择中,人工标注仅关注原始样本的基础实例和特殊实例,而机器标注用于标注其余原始样本,从而有利地最小化或至少减少用于人工标注的样本的数量。专利技术人已经发现可以根据每个原始样本的熵值来识别基础实例和特殊实例。借助图1来示意所述方法,图1描绘了标注批量原始样本105的流程图。所述方法的示例性实施例详述如下。在步骤110中,从所述批量105中选择原始样本的第一子集。一般地,为所述第一子集选择所述批量105中预先确定的比例数量的原始样本。然而,并非总是这种情况,例如,当由于资源限制需要用于人工标注的原始样本的数量具有上界时。所述第一子集中的原始样本用于人工标注以产生人工标注的样本(步骤115)。在步骤110中,原始样本的所述第一子集有利地通过在最小化所述第一子集的熵均和所述批量的熵均之间的差的方式优化所述第一子集来确定。原始样本的任意集合的熵均通过平均属于前述集合的原始样本的熵值来计算。通过下列四个步骤获得单独的原始样本的熵值。第一,将单个的原始样本分成多个组成元素{yj}。所述组成元素属于相同类型的特征。作为示意性示例,对于分别为文本、图像、视频和音频信号的四个样本,对应的特征类型可以分别被选择为词、子图像、关键帧和音频信号的时间/频率分量。第二,从{yj}识别相异的组成元素{xi},以使得{yj}中的每个元素都可以在{xi}中找到。第三,根据{yj}中等于xi的一个或多个组成元素的数量来估计xi的概率P(xi)。特别地,将P(xi)估计为xi在组成元素{yj}上出现的相对频率。第四,将单独的原始样本的熵值计算为:-ΣiP(xi)logbP(xi),其中b为底数。实际上并且优选地,在公开的方法的实现方式中,使用了b=2。下面提供了用于示意计算单独的原始样本的熵值的示例。考虑为字符串“本文档来自技高网...
对大样本组的高效标注

【技术保护点】
一种用于标注批量原始样本的计算机实施的方法,包括:从所述批量中选择原始样本的第一子集用于人工标注以产生人工标注的样本,其中第一子集通过以最小化第一子集的熵均和所述批量的熵均之间的差的方式优化第一子集来确定;在获得人工标注的样本之后,从所述批量中去除属于选择的第一子集的原始样本;以及使用人工标注的样本作为训练数据以配置用于标注输入样本以产生标注的输出样本的至少一个标注过程,从而将配置之后的标注过程用于标注所述批量中剩余的任何原始样本。

【技术特征摘要】
【国外来华专利技术】2017.03.03 US 15/448,7591.一种用于标注批量原始样本的计算机实施的方法,包括:从所述批量中选择原始样本的第一子集用于人工标注以产生人工标注的样本,其中第一子集通过以最小化第一子集的熵均和所述批量的熵均之间的差的方式优化第一子集来确定;在获得人工标注的样本之后,从所述批量中去除属于选择的第一子集的原始样本;以及使用人工标注的样本作为训练数据以配置用于标注输入样本以产生标注的输出样本的至少一个标注过程,从而将配置之后的标注过程用于标注所述批量中剩余的任何原始样本。2.根据权利要求1所述的方法,进一步包括:使用人工标注的样本作为训练数据以配置用于验证标注的输出样本的标注准确性的检查过程;对所述批量中剩余的任何原始样本执行标注和检查过程,其中标注和检查过程包括:通过标注过程标注所述批量中剩余的单独的原始样本以产生单独的机器标注的样本;通过检查过程验证单独的机器标注的样本的标注准确性;以及如果单独的机器标注的样本的标注被验证为是准确的,则从所述批量中去除该单独的原始样本,否则丢弃该单独的机器标注的样本;如果在执行标注和检查过程之后所述批量非空,则执行更新过程,其中更新过程包括:从所述批量中选择原始样本的第二子集用于人工标注以产生额外的人工标注的样本;使用额外的人工标注的样本作为额外的训练数据以更新标注过程和检查过程;以及在获得额外的人工标注的样本之后,从所述批量中去除属于选择的第二子集的原始样本;如果在执行更新过程之后所述批量非空,则重复标注和检查过程。3.根据权利要求2所述的方法,其中,第一子集和第二子集中的每一个是选自所述批量的原始样本的第三子集,第三子集通过选择过程来确定,所述选择过程包括:从所述批量中选择原始样本的候选子集;计算候选子集的熵均;以及在最小化候选子集的熵均和所述批量的熵均之间的差的方向上迭代地改进候选子集,从而在一定数量的迭代之后通过候选子集给出第三子集。4.根据权利要求2所述的方法,其中,第一子集和第二子集中的每一个是选自所述批量的原始样本的第三子集,第三子集通过选择过程来确定,所述选择过程包括:从所述批量中选择原始样本的多个候选子集;计算每个候选子集的熵均;以及在所有候选子集当中将具有与所述批量的熵均最接近的熵均的候选子集选择为第三子集。5.根据权利要求1所述的方法,其中,标注过程使用机器学习算法,所述机器学习算法从命名实体识别(NER)分类器、支持向量机(SVM)分类器和神经网络中选择。6.根据权利要求2所述的方法,其中,检查过程使用机器学习算法,所述机器学习算法从命名实体识别(NER)分类器、支持向量机(SVM)分类器和神经网络中选择。7.根据权利要求2所述的方法,其中,检查过程使用基于正则表达式的算法。8.根据权利...

【专利技术属性】
技术研发人员:刘扬冯超甘郑麦若雷志斌向艺
申请(专利权)人:香港应用科技研究院有限公司
类型:发明
国别省市:中国香港,81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1