一种文本标注的方法及装置制造方法及图纸

技术编号:19857592 阅读:29 留言:0更新日期:2018-12-22 11:43
本发明专利技术实施例提供了一种文本标注的方法及装置,应用于信息处理技术领域,用以解决文本标注过程中需要大量人工操作,导致效率较低的问题。本发明专利技术实施例的方案包括:接收并存储标注需求方发送的文本集合,然后接收标注员输入的检索条件,根据检索条件从文本集合中选取待标注文本,待标注文本包括第一预设比例的未标注文本和第二预设比例的已标注文本,然后接收标注员对待标注文本的标注结果,进而对待标注文本中被标注次数大于第一阈值的文本的标注结果进行校验。

【技术实现步骤摘要】
一种文本标注的方法及装置
本专利技术涉及信息处理
,特别是涉及一种文本标注的方法及装置。
技术介绍
随着用户使用视频网站的频率越来越高,使用时长也越来长,用户在视频网站上生成的用户原创内容(UserGeneratedContent,UGC)文本内容量也以爆炸式的速度增长。例如,视频网站中出现的弹幕、评论、直播聊天室等都是以文字为主体的产品,用户使用视频网站中的这些功能的过程中,可以产生海量的文本。在这些文本中,往往还存在大量的垃圾文本,例如广告、辱骂文字、负面舆论信息、色情内容等。为了优化网络环境,可通过机器学习模型识别垃圾文本,以对垃圾文本进行过滤等操作,为了提高机器学习模型识别垃圾文本的效率和准确率,需要提供大量的文本标注数据,进而通过人工标注数据对机器学习模型进行训练。目前,得到文本标注数据的流程一般为,人工导入需要标注的文本,并对这些文本进行标注,标注完成后导出标注结果,然后人工从标注结果中抽查数据,对标注结果进行校验,在此过程中需要大量的人工操作,效率较低。
技术实现思路
本专利技术实施例的目的在于提供一种文本标注的方法及装置,解决文本标注过程中需要大量人工操作,导致效率本文档来自技高网...

【技术保护点】
1.一种文本标注的方法,其特征在于,包括:接收标注需求方发送的文本集合;接收标注员输入的检索条件;根据所述检索条件从所述文本集合中选取待标注文本,所述待标注文本包括第一预设比例的未标注文本和第二预设比例的已标注文本,所述第一预设比例+所述第二预设比例=1;接收标注员对所述待标注文本的标注结果;对所述待标注文本中被标注次数大于第一阈值的文本的标注结果进行校验。

【技术特征摘要】
1.一种文本标注的方法,其特征在于,包括:接收标注需求方发送的文本集合;接收标注员输入的检索条件;根据所述检索条件从所述文本集合中选取待标注文本,所述待标注文本包括第一预设比例的未标注文本和第二预设比例的已标注文本,所述第一预设比例+所述第二预设比例=1;接收标注员对所述待标注文本的标注结果;对所述待标注文本中被标注次数大于第一阈值的文本的标注结果进行校验。2.根据权利要求1所述的方法,其特征在于,所述根据所述检索条件从所述文本集合中选取待标注文本,包括:通过检索引擎对所述文本集合中的文本进行检索,查找满足所述检索条件的文本身份标识ID;从满足所述检索条件的文本ID中选取第一预设比例的未标注文本的ID,通过所述检索引擎查找第二预设比例的已标注文本的ID,所述已标注文本被标注的次数大于第二阈值且小于第三阈值;从数据库中查找所述第一预设比例的未标注文本的ID对应的未标注文本,和所述第二预设比例的已标注文本的ID对应的已标注文本;将所述第一预设比例的未标注文本和所述第二预设比例的已标注文本确定为所述待标注文本。3.根据权利要求2所述的方法,其特征在于,所述对所述待标注文本中被标注次数大于第一阈值的文本的标注结果进行校验,包括:通过检索引擎获取所述待标注文本中被标注的次数大于第一阈值的文本ID,作为待校验文本ID;从数据库中查找所述待校验文本ID对应的待校验文本信息;根据所述待校验文本信息判断所述标注员对各个所述待校验文本的标注结果是否正确;根据判断结果确定所述标注员的标注正确率,所述标注正确率为所述待校验文本中标注正确的文本数量与所述待校验文本总数量的比值。4.根据权利要求3所述的方法,其特征在于,所述根据所述待校验文本信息判断所述标注员对各个所述待校验文本的标注结果是否正确,包括:判断所述待校验文本是否已被审核员标注;若确定所述待校验文本已被所述审核员标注,且所述标注员对所述待校验文本的标注结果与所述审核员对所述待校验文本的标注结果一致,则确定所述待校验文本的标注结果正确;若确定所述待校验文本未被所述审核员标注,且所述标注员对所述待校验文本的标注结果与所述待校验文本的标注结果集中出现次数最多的标注结果一致,则确定所述标注员对所述待校验文本的标注结果正确,其中,所述待校验文本的标注结果集中包括各标注员对所述待校验文本的标注结果。5.根据权利要求1至4任一项所述的方法,其特征在于,所述检索条件包括文本产生时间、业务线标签、文本内容、光学字符识别OCR内容、机审结果、文本是否被标注中的任意一项或多项;其中,机审结果为文本识别系统对文本的分类结果。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:接收标注员输入的修改指令,所述修改指令包括原业务线标签和目标业务线标签;根据所述修改指令将数据库中存储的所述原业务线标签修改为所述目标业务线标签。7.一种文本标注的装置,其特征在于,包括:接收模块,用于接收标注需求方发送的文本集合;接收标注员输入的检索条件;选取模块,用于...

【专利技术属性】
技术研发人员:都金涛张家利祁鑫
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1