【技术实现步骤摘要】
标注类别一致性的检测方法、装置、设备及介质
[0001]本申请涉及深度学习
,尤其涉及一种标注类别一致性的检测方法、装置、设备及介质。
技术介绍
[0002]基于标注的实体识别模型的训练需要大量的人工标注语料,语料标注的质量往往决定了模型的表现和训练成效,质量指标中重要的一点是对实体类别判断的一致性,同时也是难以监督的一点。目前使用的方法通常是人工抽样检查,但这样一来,不但抽检效率不高,而且检查者自身也难以保持一致性,后来开始应用了自动检测实体类别的一致性的方法,但是自动检测也往往不考虑泛化匹配,也就忽略了对相似实体的实体类别的一致性的判断,如此一来,无法在保证检测效率的同时尽可能覆盖更大的实体范围。
[0003]针对上述“无法在保证检测效率的同时尽可能覆盖更大的实体范围”的问题,目前尚未提出有效的解决方案。
技术实现思路
[0004]本申请提供了一种标注类别一致性的检测方法、装置、设备及介质,以解决或者至少解决部分上述“无法在保证检测效率的同时尽可能覆盖更大的实体范围”的技术问题。
[ ...
【技术保护点】
【技术特征摘要】
1.一种标注类别一致性的检测方法,其特征在于,包括:确定标注语料中的目标实体,并对所述目标实体进行解析,获得目标数据,其中,所述标注语料为预先标注过的语料数据,所述目标实体为所述标注语料中被标注的相同实体或者相似实体;提取所述目标实体对应的标注数据,并将所述标注数据和所述目标数据按照预设存储策略进行存储,生成第一表格,其中,所述第一表格包括所述目标数据、所述标注数据及各个所述标注数据的数量;利用所述第一表格确定各个所述标注数据的相关度,并提取所述相关度低于预设相关度阈值的所述标注数据对应的第一实体;在所述标注语料中确定所述第一实体所在的目标语句,并将所述目标语句、所述第一实体及所述第一实体的所述标注数据映射存储至第二表格,其中,所述第二表格中包括所述标注语料中实体类别不一致的语料。2.根据权利要求1所述的方法,其特征在于,所述确定标注语料中的目标实体,并对所述目标实体进行解析,获得目标数据包括:从所述标注语料中提取相同实体词,作为所述目标实体;从所述标注语料中提取与所述目标实体相邻的预设长度的字符;将所述目标实体和所述字符按照所述目标实体和所述字符在所述标注语料中的前后顺序进行拼接,生成所述目标数据。3.根据权利要求1所述的方法,其特征在于,所述确定标注语料中的目标实体,并对所述目标实体进行解析,获得目标数据包括:从所述标注语料中提取所述相似实体词,作为所述目标实体,其中,所述相似实体词包括构词规律相同的实体词;提取所述目标实体中的核心字符,获得所述目标数据。4.根据权利要求1所述的方法,其特征在于,所述提取所述目标实体对应的标注数据,并将所述标注数据和所述目标数据按照预设存储策略进行存储,生成第一表格包括:提取所述目标实体的所述标注数据,并将所述标注数据和所述目标数据映射保存,生成多个第一数据;按照所述第一数据的格式设置所述第一表格,并将多个所述第一数据按照所述预设存储策略整合至所述第一表格。5.根据权利要求4所述的方法,其特征在于,所述按照所述第一数据的格式设置所述第一表格,并将多个所述第一数据按照所述预设存储策略整合至所述第一表格包括:将所述第一数据的所述目标数据作为第一查询数据,在所述第一表格中查询所述第一查询数据;在所述第一表格中未存在所述第一查询数据的情况下,将所述第一数据添加至所述第一表格中,在所述第一表格中存在所述第一查询数据的情况下,获取所述第一查询数据的目标位置;将所述第一数据的所述标注数据作为第二查询数据,在所述目标位置中查询所述第二查询数据;在所述目标位置中存在所述第二查询数据的情况下,将所述第一表格中所述第二查询
【专利技术属性】
技术研发人员:薛景元,
申请(专利权)人:北京明略昭辉科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。