用于提高标注效率的文本抽样方法及装置制造方法及图纸

技术编号:26690272 阅读:33 留言:0更新日期:2020-12-12 02:40
本发明专利技术公开了一种用于提高标注效率的文本抽样方法及装置,抽样方法包括:步骤S1:获取原始文本集合;步骤S2:根据原始文本通过向量化模型提取每一原始文本的向量;步骤S3:根据每一原始文本的向量判断原始文本件的度,并将相似度高的原始文本从原始文本集合中剔除获得最终文本集合;步骤S4:在最终文本集合的最终文本中,进行随机抽样得到最终的标注文本。从而有效提升文本抽样的信息量,提升文本标注的效率,进而提升最终的模型表现。

【技术实现步骤摘要】
用于提高标注效率的文本抽样方法及装置
本专利技术涉及一种文本抽样方法及装置,具体地说,特别涉及一种用于提高标注效率的文本抽样方法及装置。
技术介绍
自然语言处理(NaturalLanguageProcessing,NLP)技术可以高效地对文本数据进行系统化分析、理解与信息提取,使得计算机能够理解自然语言以及生成自然语言,进而实现人与计算机之间采用自然语言进行有效交互(例如消息自动回复、语音助手等应用程序的使用)。为了实现自然语言处理的产业化应用,需要在某些场景下人工标注一部分文本数据,用于模型训练。例如对于微博数据,将“XX好帅嘤嘤嘤”标记为女性用户微博,“女朋友生日,送点什么礼物好”标记为男性用户微博,进而使用自然语言处理技术训练模型,识别其他微博来自于女性用户还是男性用户。人工标注数据的价格往往较为昂贵,我们希望能够将人工标注的效用最大化,即在相同的标注数量下,标注到更多的信息量,或者为了达成相同的标注效果,尽量降低标注数量。例如,在上例中,如果直接进行标注,可能出现“XX好帅嘤嘤嘤”和“XX好帅啊啊啊”这样十分相似的文本,本文档来自技高网...

【技术保护点】
1.一种用于提高标注效率的文本抽样方法,其特征在于,包括:/n步骤S1:获取原始文本集合;/n步骤S2:根据原始文本通过向量化模型提取每一原始文本的向量;/n步骤S3:根据每一原始文本的向量判断原始文本件的度,并将相似度高的原始文本从原始文本集合中剔除获得最终文本集合;/n步骤S4:在最终文本集合的最终文本中,进行随机抽样得到最终的标注文本。/n

【技术特征摘要】
1.一种用于提高标注效率的文本抽样方法,其特征在于,包括:
步骤S1:获取原始文本集合;
步骤S2:根据原始文本通过向量化模型提取每一原始文本的向量;
步骤S3:根据每一原始文本的向量判断原始文本件的度,并将相似度高的原始文本从原始文本集合中剔除获得最终文本集合;
步骤S4:在最终文本集合的最终文本中,进行随机抽样得到最终的标注文本。


2.如权利要求1所述的文本抽样方法,其特征在于,所述步骤S2包括:
步骤S21:提取原始文本特征;
步骤S22:基于原始文本特征对向量化模型进行调节;
步骤S23:将每一原始文本输入调节后的向量化模型获得每一原始文本的向量。


3.如权利要求2所述的文本抽样方法,其特征在于,所述步骤S3中包括:
步骤S31:根据任意两个原始文本的向量获得该两个原始文本的相似度;
步骤S32:设置相似度阈值;
步骤S33:根据相似度及相似度阈值判断该两个原始文本的相关性,并进行处理获得最终文本集合。


4.如权利要求3所述的文本抽样方法,其特征在于,所述步骤S33中,当相似度大于相似度阈值时,判定该两个原始文本为高相关,并从该两个原始文本中剔除一个,剩余的一个原始文本放入最终文本集合;当相似度小于或等于相似度阈值时,判定该两个原始文本为低相关,并将该两个原始文本放入最终文本集合。


5.如权利要求3所述的文本抽样方法,其特征在于,所述步骤S31中通过以下公式获得相似度:



其中,A、B分别表示原始文本A和原始文本B的向量,Ai表示向量A中的第i维,Bi表示向量B中的第i维,similarity表示相似度。


...

【专利技术属性】
技术研发人员:卫海天丁若谷
申请(专利权)人:北京明略昭辉科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1