一种校验处理的方法、装置、计算机存储介质及终端制造方法及图纸

技术编号:21548093 阅读:32 留言:0更新日期:2019-07-06 21:33
一种校验处理的方法、装置、计算机存储介质及终端,包括:对预设数量的完成标注的样例,计算各样例的相关参数信息;根据计算获得的相关参数信息,确定各样例的校验参数信息;根据确定的校验参数信息,选出需要校验的样例,以进行校验处理;其中,所述相关参数信息包括以下一种或一种以上信息:复杂度、不确定度、长度。本发明专利技术实施例减少了需要校验的样例数,提升了标注的校验效率。

A Check Processing Method, Device, Computer Storage Media and Terminal

【技术实现步骤摘要】
一种校验处理的方法、装置、计算机存储介质及终端
本文涉及但不限于信息处理技术,尤指一种校验处理的方法、装置、计算机存储介质及终端。
技术介绍
随着信息技术的发展,人工智能在生产生活中的应用越来越广泛。神经语言程序学(NLP)是人工智能中的重要领域之一,在对话系统、知识图谱、辅助判案等产品或应用中有重要作用。NLP面向的主要是文本数据,如对话文本、新闻、评论、裁判文书等。大多数NLP任务,如文本分类、序列标注等属于有监督学习,需要对文本类别、序列等进行标注。标注主要由专业人员进行;由于自然语言本身的多样性,以及标注人员对文本和任务的理解可能存在主观差异,会造成标注结果不一致(多种结果均可接受)或错误的问题。过多的不一致或错误会影响模型的训练,从而影响最终应用效果,因此需要对标注结果进行校验。当前,对标注结果进行校验的方法包括交叉校验和随机抽检;其中,交叉校验为:同一份数据由两人或多人标注,对标注结果不一致的进一步审核校验;交叉校验的缺点在于:1、两人或多人标注大大增加工作量;2、结果一致并不代表结果正确,无法针对容易出错或标注不确定性大的数据进行专门校验。随机抽检:从标注结果中随机抽取本文档来自技高网...

【技术保护点】
1.一种校验处理的方法,其特征在于,包括:对预设数量的完成标注的样例,计算各样例的相关参数信息;根据计算获得的相关参数信息,确定各样例的校验参数信息;根据确定的校验参数信息,选出需要校验的样例,以进行校验处理;其中,所述相关参数信息包括以下一种或一种以上信息:复杂度、不确定度、长度。

【技术特征摘要】
1.一种校验处理的方法,其特征在于,包括:对预设数量的完成标注的样例,计算各样例的相关参数信息;根据计算获得的相关参数信息,确定各样例的校验参数信息;根据确定的校验参数信息,选出需要校验的样例,以进行校验处理;其中,所述相关参数信息包括以下一种或一种以上信息:复杂度、不确定度、长度。2.根据权利要求1所述的方法,其特征在于,所述计算各样例的相关参数信息包括:所述相关参数信息包括复杂度时,对预设的语料库通过预设的分词算法进行分词处理;对所述分词处理后获得的分词进行训练,获得各分词的词向量集合;对各样例:通过所述分词算法进行分词处理;从所述词向量集合中,获得各分词的词向量;根据获得的各分词的所述词向量,计算分词各个维度向量的方差;根据计算获得的所述分词各个维度向量的方差,计算获得所述复杂度;所述相关参数信息包括不确定度时,记录标注各样例的标注时间;根据各样例的复杂度、词数及标注时间,确定标记速度;根据确定的所述标记速度,计算获得所述不确定度。3.根据权利要求1所述的方法,其特征在于,所述确定各样例的校验参数信息包括:按照预设策略为各所述相关参数信息设置相应的加权比例;对各样例,分别将各所述相关参数信息与对应的加权比例分别进行相乘后累加,计算获得各样例的所述校验参数信息。4.根据权利要求3所述的方法,其特征在于,所述按照预设策略为各相关参数信息设置相应的加权比例之前,所述方法还包括:对各所述相关参数信息进行归一化处理。5.根据权利要求1~4任一项所述的方法,其特征在于,所述根据确定的校验参数信息,选出需要校验的样例包括:对确定的各样例的校验参数信息按照取值大小进行排序,确定取值较大的预设数值个样例进行校验。6.一种校验处理的装置,其特征在于,包括:运算单元、确定单元及选择处理单元;其中,运算单元用于:对预设数量的完成标注的样例,计算各样例的相关参数信息;确定单元用于:根据计算获得的相关参数信息,确定各样例的校验参数信息;选择处理单元用于:根据确定的校...

【专利技术属性】
技术研发人员:王道广于政
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1