一种语料标注方法、构造语料方法及装置制造方法及图纸

技术编号:21089817 阅读:47 留言:0更新日期:2019-05-11 10:03
本发明专利技术的方面涉及人工智能领域,提供一种语料标注方法、构造语料方法及装置,语料标注方法包括:配置实体词库步骤,构建实体词库;匹配步骤,将语料与所述实体词进行匹配;筛选步骤,对匹配到所述实体词的所述语料进行筛选;所述筛选步骤包括歧义词识别步骤,所述歧义词识别步骤通过对匹配到的所述实体词在所述语料中前后是否存在歧义进行识别,从而筛选所述语料;标注步骤,对经过所述筛选步骤保留的所述语料和未匹配到所述实体词的所述语料分别进行标注。通过该方法提高了标注的准确性,为NLP模型学习提供可靠的语料。

【技术实现步骤摘要】
一种语料标注方法、构造语料方法及装置
本专利技术一般地涉及人工智能领域,特别是涉及自然语言处理标注的方法。
技术介绍
用自然语言与计算机进行通信,这是人们长期以来所追求的。因为它既有明显的实际意义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机,而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类的语言能力和智能的机制。标注主要是为了为自然语言处理(NLP)模型提供供其学习的语料,使其通过对被标注的语料进行学习,能够在大量文字中快速识别其中的内容信息点。目前,有三种方法可以构建标注语料。一种是使用分词器进行分词,提取出项目需要的实体将其标注;一种是采用字符串匹配的方法进行直接匹配标注;另一种是人工标注。第一种方法受限于分词器算法和词库的限制,容易造成实体缺标,漏标,少标的现象;第二种因采用字符串直接匹配,容易存在大量的误标情况;第三种是效率极低,且成本高。目前没有一种办法可以完美解决各种情况下的实体识别,让NLP模型快速、准确识别出大量文字中的内容信息点。
技术实现思路
为了解决现有技术中存在的上述问题,本专利技术提供一种语料标注方法、构造语料方法及装置。第一方面,本专利技术实施例提供一种语料标注方法,其中,包括:配置实体词库步骤,构建实体词库,实体词库储存实体词;匹配步骤,将语料与实体词进行匹配;筛选步骤,对匹配到实体词的语料进行筛选;筛选步骤包括歧义词识别步骤,歧义词识别步骤通过对匹配到的实体词在语料中前后是否存在歧义进行识别,从而筛选语料;标注步骤,对经过筛选步骤保留的语料和未匹配到实体词的语料分别进行标注。在一实施例中,还包括:实体词增量步骤,对实体词库中的实体词进行扩充。在一实施例中,其中,筛选步骤还包括:分词筛选步骤,通过分词器对语料进行筛选。在一实施例中,其中,筛选步骤还包括:完全重叠词判断步骤,对分词筛选步骤中排除的语料,根据是否存在匹配到的实体词被其它匹配到的实体词完全覆盖进行筛选。在一实施例中,其中,筛选步骤还包括:语境判断步骤,根据匹配到的实体词的类别与语料的语境是否相符进行筛选。在一实施例中,其中,筛选步骤还包括:实体词长度判断步骤,在语境判断步骤之前,对匹配到的实体词的长度进行判断,仅对匹配到的实体词的长度未达到词长预定值的语料进行语境判断步骤。在一实施例中,其中,筛选步骤还包括:分词筛选步骤,通过分词器对语料进行筛选;语境判断步骤,根据匹配到的实体词的类别与语料的语境是否相符进行筛选;实体词类别判断步骤,根据匹配到的实体词的类别决定采用分词筛选步骤或语境判断步骤。在一实施例中,其中,筛选步骤还包括:完全重叠词判断步骤,对分词筛选步骤排除的语料,根据是否存在匹配到的实体词被其它匹配到的实体词完全覆盖进行筛选。在一实施例中,其中,筛选步骤还包括:实体词长度判断步骤,在语境判断步骤之前,对匹配到的实体词的长度进行判断,仅对匹配到的实体词的长度未达到词长预定值的语料进行语境判断步骤。在一实施例中,其中,筛选步骤还包括:有效语料判断步骤,根据语料的长度与匹配到的实体词的长度差值是否大于差值预设值进行筛选。在一实施例中,其中,筛选步骤还包括:部分重叠词判断步骤,根据是否存在匹配到两个或两个以上的实体词部分重叠进行筛选。在一实施例中,其中,筛选步骤还包括:排除词过滤步骤,判断在匹配步骤中匹配到的实体词是否为预设排除词,放弃匹配为预设排除词的实体词。在一实施例中,其中,配置实体词库步骤还包括:配置排除词库步骤,构建排除词库,预设排除词存放于排除词库中。在一实施例中,其中,筛选步骤还包括:优先级判断步骤,在匹配到的一个或多个实体词被另外一个或多个实体词完全覆盖之际,根据预设条件进行判断仅保留匹配其中一个实体词。在一实施例中,其中,预设条件是匹配到的实体词的长度和/或类别。在一实施例中,其中,配置实体词库步骤中,根据实体词的类别构建一个或多个实体词库。在一实施例中,其中,匹配步骤中,将语料循环匹配在一个或多个实体词库中的实体词。在一实施例中,其中,配置实体词库步骤还包括:配置插入词库步骤,构建插入词库,用于增补实体词。在一实施例中,其中,还包括:标注计数步骤,根据实体词的类别,对经过标注的语料中匹配到的实体词进行统计。在一实施例中,其中,还包括:停止标注步骤,当标注计数步骤统计的一个类别中匹配到的实体词超过数量预定值时,停止对类别的实体词进行标注。第二方面,本专利技术实施例提供一种构造语料方法,其中,包括:语料收集步骤,将语料标注方法中筛选步骤筛选出的语料进行收集;待换实体词收集步骤,收集用于构造语料的待换实体词;替换步骤,根据实体词的类别,将语料收集步骤收集到的语料中匹配到的实体词,替换为待换实体词收集步骤收集到的相同类别的待换实体词;再标注步骤,对通过替换步骤得到的语料进行标注。在一实施例中,其中,语料收集步骤还包括:对仅匹配到一个实体词的语料进行收集。在一实施例中,其中,待换实体词收集步骤还包括:对语料标注方法中被标注的实体词的数量进行统计,将数量低于标注数量预定值的实体词进行收集。在一实施例中,其中,替换步骤还包括:标志替换步骤,将实体词替换为标志,标志能够表示实体词的类别;实体词替换步骤,根据标志的类别,将标志替换为与标志的类别相同的待换实体词。第三方面,本专利技术实施例提供一种语料标注装置,其中,包括:配置实体词库模块,用于构建实体词库,实体词库储存实体词;匹配模块,用于将语料与实体词进行匹配;筛选模块,用于对匹配到的实体词的语料进行筛选;筛选模块还包括歧义词识别模块,歧义词识别模块用于根据匹配到的实体词在语料中前后是否存在歧义,筛选语料;标注模块,用于对经过筛选模块保留的语料和未匹配到实体词的语料分别进行标注。在一实施例中,其中,还包括:实体词增量模块,用于对实体词库中的实体词进行扩充。在一实施例中,其中,筛选模块还包括:分词筛选模块,用于通过分词器对语料进行筛选。在一实施例中,其中,筛选模块还包括:完全重叠词判断模块,用于对分词筛选模块中排除的语料,根据是否存在匹配到的实体词被其它匹配到的实体词完全覆盖进行筛选。在一实施例中,其中,筛选模块还包括:语境判断模块,用于根据匹配到的实体词的类别与语料的语境是否相符进行筛选。在一实施例中,其中,筛选模块还包括:实体词长度判断模块,用于判断匹配到的实体词的长度,将匹配到的实体词的长度未达到词长预定值的语料通过语境判断模块进行筛选。在一实施例中,其中,筛选模块还包括:分词筛选模块,用于通过分词器对语料进行筛选;语境判断模块,用于根据匹配到的实体词的类别与语料的语境是否相符进行筛选;实体词类别判断模块,用于根据匹配到的实体词的类别,决定语料通过分词筛选模块或语境判断模块。在一实施例中,其中,筛选模块还包括:完全重叠词判断模块,用于对分词筛选模块中排除的语料,根据是否存在匹配到的实体词被其它匹配到的实体词完全覆盖进行筛选。在一实施例中,其中,筛选模块还包括:实体词长度判断模块,用于判断匹配到的实体词的长度,将匹配到的实体词的长度未达到词长预定值的语料通过语境判断模块筛选。在一实施例中,其中,筛选模块还包括:有效语料判断模块,用于根据语料的长度与匹配到的实体词的长度差值是否大于差值预设值进行筛选。在本文档来自技高网...

【技术保护点】
1.一种语料标注方法,其中,包括:配置实体词库步骤,构建实体词库,所述实体词库储存实体词;匹配步骤,将语料与所述实体词进行匹配;筛选步骤,对匹配到所述实体词的所述语料进行筛选;所述筛选步骤包括歧义词识别步骤,所述歧义词识别步骤通过对匹配到的所述实体词在所述语料中前后是否存在歧义进行识别,从而筛选所述语料;标注步骤,对经过所述筛选步骤保留的所述语料和未匹配到所述实体词的所述语料分别进行标注。

【技术特征摘要】
1.一种语料标注方法,其中,包括:配置实体词库步骤,构建实体词库,所述实体词库储存实体词;匹配步骤,将语料与所述实体词进行匹配;筛选步骤,对匹配到所述实体词的所述语料进行筛选;所述筛选步骤包括歧义词识别步骤,所述歧义词识别步骤通过对匹配到的所述实体词在所述语料中前后是否存在歧义进行识别,从而筛选所述语料;标注步骤,对经过所述筛选步骤保留的所述语料和未匹配到所述实体词的所述语料分别进行标注。2.根据权利要求1所述的方法,其中,还包括:实体词增量步骤,对所述实体词库中的所述实体词进行扩充。3.根据权利要求1或2所述的方法,其中,所述筛选步骤还包括:分词筛选步骤,通过分词器对所述语料进行筛选。4.根据权利要求3所述的方法,其中,所述筛选步骤还包括:完全重叠词判断步骤,对所述分词筛选步骤中排除的语料,根据是否存在匹配到的所述实体词被其它匹配到的所述实体词完全覆盖进行筛选。5.根据权利要求1或2所述的方法,其中,所述筛选步骤还包括:语境判断步骤,根据匹配到的所述实体词的类别与所述语料的语境是否相符进行筛选。6.根据权利要求5所述的方法,其中,所述筛选步骤还包括:实体词长度判断步骤,在所述语境判断步骤之前,对匹配到的所述实体词的长度进行判断,仅对匹配到的所述实体词的长度未达到词长预定值的所...

【专利技术属性】
技术研发人员:乔志军冯宇岩
申请(专利权)人:北京创鑫旅程网络技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1