【技术实现步骤摘要】
【国外来华专利技术】对大样本组的高效标注
本专利技术总体上涉及用于标注批量样本的计算机实施的方法。特别地,本专利技术涉及这样的方法:在其中人工标注被用于标注样本当中的基础实例和特殊实例而其余样本被机器标注。
技术介绍
随着互联网和社交媒体的普及,数字对象快速生成。这些数字对象通常为多媒体,例如视频、图像、音频文件、文本和其组合。对数字对象的标注提高了其可搜索性。通过标注,数字对象被标注有用于描述数字对象的元数据,例如一个或多个关键词。尽管通过标注使得在包含大量数字对象的库中搜索期望的对象高效,但是标注大量的数字对象就其本身来说是一个技术挑战。通常,机器学习算法被用于分类数字对象以进行标注。智能认知系统需要初始分类器训练。初始用于训练分类器的数字对象首先通过人工标注而被手动标注。人工标注无疑是一个耗时的高成本过程。在标注时减少人工工作是可取的。更具体地,从数字对象库中选择较少量的数字对象来进行人工标注以训练分类器是可取的。然而,大多数现有的标注技术(例如CN104142912A、CN102999516A和US2010/0076923A1中提出的技术)针对另一方面——在可利用的训练样本已经被标注的假设下增加分类器的标注准确性。
中存在对减少或最小化被选择用于人工标注的数字样本的数量的技术的需要。
技术实现思路
本专利技术的第一方面是为了提供一种用于标注批量原始样本的计算机实施的方法。在所述方法中,从所述批量中选择原始样本的第一子集进行人工标注以产生人工标注的样本。所述第一子集通过在最小化所述第一子集的熵均和所述批量的熵均之间的差的方式优化所述第一子集来确定。原始样本的任意集合的 ...
【技术保护点】
一种用于标注批量原始样本的计算机实施的方法,包括:从所述批量中选择原始样本的第一子集用于人工标注以产生人工标注的样本,其中第一子集通过以最小化第一子集的熵均和所述批量的熵均之间的差的方式优化第一子集来确定;在获得人工标注的样本之后,从所述批量中去除属于选择的第一子集的原始样本;以及使用人工标注的样本作为训练数据以配置用于标注输入样本以产生标注的输出样本的至少一个标注过程,从而将配置之后的标注过程用于标注所述批量中剩余的任何原始样本。
【技术特征摘要】
【国外来华专利技术】2017.03.03 US 15/448,7591.一种用于标注批量原始样本的计算机实施的方法,包括:从所述批量中选择原始样本的第一子集用于人工标注以产生人工标注的样本,其中第一子集通过以最小化第一子集的熵均和所述批量的熵均之间的差的方式优化第一子集来确定;在获得人工标注的样本之后,从所述批量中去除属于选择的第一子集的原始样本;以及使用人工标注的样本作为训练数据以配置用于标注输入样本以产生标注的输出样本的至少一个标注过程,从而将配置之后的标注过程用于标注所述批量中剩余的任何原始样本。2.根据权利要求1所述的方法,进一步包括:使用人工标注的样本作为训练数据以配置用于验证标注的输出样本的标注准确性的检查过程;对所述批量中剩余的任何原始样本执行标注和检查过程,其中标注和检查过程包括:通过标注过程标注所述批量中剩余的单独的原始样本以产生单独的机器标注的样本;通过检查过程验证单独的机器标注的样本的标注准确性;以及如果单独的机器标注的样本的标注被验证为是准确的,则从所述批量中去除该单独的原始样本,否则丢弃该单独的机器标注的样本;如果在执行标注和检查过程之后所述批量非空,则执行更新过程,其中更新过程包括:从所述批量中选择原始样本的第二子集用于人工标注以产生额外的人工标注的样本;使用额外的人工标注的样本作为额外的训练数据以更新标注过程和检查过程;以及在获得额外的人工标注的样本之后,从所述批量中去除属于选择的第二子集的原始样本;如果在执行更新过程之后所述批量非空,则重复标注和检查过程。3.根据权利要求2所述的方法,其中,第一子集和第二子集中的每一个是选自所述批量的原始样本的第三子集,第三子集通过选择过程来确定,所述选择过程包括:从所述批量中选择原始样本的候选子集;计算候选子集的熵均;以及在最小化候选子集的熵均和所述批量的熵均之间的差的方向上迭代地改进候选子集,从而在一定数量的迭代之后通过候选子集给出第三子集。4.根据权利要求2所述的方法,其中,第一子集和第二子集中的每一个是选自所述批量的原始样本的第三子集,第三子集通过选择过程来确定,所述选择过程包括:从所述批量中选择原始样本的多个候选子集;计算每个候选子集的熵均;以及在所有候选子集当中将具有与所述批量的熵均最接近的熵均的候选子集选择为第三子集。5.根据权利要求1所述的方法,其中,标注过程使用机器学习算法,所述机器学习算法从命名实体识别(NER)分类器、支持向量机(SVM)分类器和神经网络中选择。6.根据权利要求2所述的方法,其中,检查过程使用机器学习算法,所述机器学习算法从命名实体识别(NER)分类器、支持向量机(SVM)分类器和神经网络中选择。7.根据权利要求2所述的方法,其中,检查过程使用基于正则表达式的算法。8.根据权利...
【专利技术属性】
技术研发人员:刘扬,冯超,甘郑麦若,雷志斌,向艺,
申请(专利权)人:香港应用科技研究院有限公司,
类型:发明
国别省市:中国香港,81
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。