【技术实现步骤摘要】
一种语料标注方法、构造语料方法及装置
本专利技术一般地涉及人工智能领域,特别是涉及自然语言处理标注的方法。
技术介绍
用自然语言与计算机进行通信,这是人们长期以来所追求的。因为它既有明显的实际意义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机,而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类的语言能力和智能的机制。标注主要是为了为自然语言处理(NLP)模型提供供其学习的语料,使其通过对被标注的语料进行学习,能够在大量文字中快速识别其中的内容信息点。目前,有三种方法可以构建标注语料。一种是使用分词器进行分词,提取出项目需要的实体将其标注;一种是采用字符串匹配的方法进行直接匹配标注;另一种是人工标注。第一种方法受限于分词器算法和词库的限制,容易造成实体缺标,漏标,少标的现象;第二种因采用字符串直接匹配,容易存在大量的误标情况;第三种是效率极低,且成本高。目前没有一种办法可以完美解决各种情况下的实体识别,让NLP模型快速、准确识别出大量文字中的内容信息点。
技术实现思路
为了解决现有技术中存在的上述问题,本专利技 ...
【技术保护点】
1.一种语料标注方法,其中,包括:配置实体词库步骤,构建实体词库,所述实体词库储存实体词;匹配步骤,将语料与所述实体词进行匹配;筛选步骤,对匹配到所述实体词的所述语料进行筛选;所述筛选步骤包括歧义词识别步骤,所述歧义词识别步骤通过对匹配到的所述实体词在所述语料中前后是否存在歧义进行识别,从而筛选所述语料;标注步骤,对经过所述筛选步骤保留的所述语料和未匹配到所述实体词的所述语料分别进行标注。
【技术特征摘要】
1.一种语料标注方法,其中,包括:配置实体词库步骤,构建实体词库,所述实体词库储存实体词;匹配步骤,将语料与所述实体词进行匹配;筛选步骤,对匹配到所述实体词的所述语料进行筛选;所述筛选步骤包括歧义词识别步骤,所述歧义词识别步骤通过对匹配到的所述实体词在所述语料中前后是否存在歧义进行识别,从而筛选所述语料;标注步骤,对经过所述筛选步骤保留的所述语料和未匹配到所述实体词的所述语料分别进行标注。2.根据权利要求1所述的方法,其中,还包括:实体词增量步骤,对所述实体词库中的所述实体词进行扩充。3.根据权利要求1或2所述的方法,其中,所述筛选步骤还包括:分词筛选步骤,通过分词器对所述语料进行筛选。4.根据权利要求3所述的方法,其中,所述筛选步骤还包括:完全重叠词判断步骤,对所述分词筛选步骤中排除的语料,根据是否存在匹配到的所述实体词被其它匹配到的所述实体词完全覆盖进行筛选。5.根据权利要求1或2所述的方法,其中,所述筛选步骤还包括:语境判断步骤,根据匹配到的所述实体词的类别与所述语料的语境是否相符进行筛选。6.根据权利要求5所述的方法,其中,所述筛选步骤还包括:实体词长度判断步骤,在所述语境判断步骤之前,对匹配到的所述实体词的长度进行判断,仅对匹配到的所述实体词的长度未达到词长预定值的所...
【专利技术属性】
技术研发人员:乔志军,冯宇岩,
申请(专利权)人:北京创鑫旅程网络技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。