高效且精确的命名实体识别方法和装置制造方法及图纸

技术编号:21176457 阅读:32 留言:0更新日期:2019-05-22 12:07
一种在自然语言输入文本处理中识别和提取命名实体的方法,包括:通过基于压缩命名实体识别(NER)模型的命名实体识别器,对输入文本执行第一阶段NER,以产生第一阶段确定,确定输入文本中是否存在至少一个命名实体;如果第一阶段NER确定输入文本中不存在命名实体,则通过基于规则的命名实体识别器,在输入文本上执行第二阶段NER,以产生第二阶段NER结果;如果第一阶段NER确定输入文本中存在至少一个命名实体,则由基于压缩NER模型的命名实体识别器产生第一阶段NER结果;并通过NER结果合并器对第一阶段NER结果和第二阶段NER结果进行合并,以产生最终NER结果。

Efficient and Accurate Named Entity Recognition Method and Device

A method for identifying and extracting named entities in natural language input text processing includes: performing the first stage of NER on input text through a named entity identifier based on compressed named entity recognition (NER) model to generate the first stage of determination and determine whether at least one named entity exists in input text; and if the first stage of NER determines that there is no life in input text Named entity, the second stage NER is executed on the input text through the rule-based named entity identifier to produce the second stage NER result; if the first stage NER determines that there is at least one named entity in the input text, the first stage NER result is generated by the named entity identifier based on the compressed NER model; and the first stage NER result is combined with the first stage NER result by the NER result merger. The two-stage NER results are merged to produce the final NER results.

【技术实现步骤摘要】
【国外来华专利技术】高效且精确的命名实体识别方法和装置
本专利技术涉及自然语言处理(NLP),尤其涉及用于文档中的命名实体(namedentity)识别和提取的方法、技术、装置和系统,其中命名实体可以被分为类别和类型。
技术介绍
用于识别命名实体的自动化系统的目标是能够从数字文档或文本中识别和提取命名实体,并将那些命名实体分类为一个或多个预定的类或类型,例如人、城市、汽车和其他等。命名实体识别和提取结果的下游应用是前景广阔的,包括改进信息检索系统和知识提取系统等。一种命名实体识别(NER)技术使用向量来模拟数字文档和文本中或上下文中的单词和字符。这些向量可以被视为多维空间中的单词、字符和上下文的数字表示,形成一个用于训练NER系统的训练数据集。单词的向量与其含义有直接关系。单词“in”的一个示例向量是:[0.330420.24995-0.608740.109230.0363720.151-0.55083-0.074239-0.092307-0.328210.09598-0.82269-0.36717-0.670090.429090.016496-0.235730.12864-1.09530.433340.57067-0.10360.204220.078308-0.42795-1.7984-0.278650.11954-0.126890.0317443.8631-0.17786-0.082434-0.626980.26497-0.057185-0.0735210.461030.308620.12498-0.48609-0.00802720.031184-0.36576-0.426990.42164-0.11666-0.50703-0.027273-0.53285]。图1显示这种包括单词向量、字符向量和上下文向量的训练数据集的逻辑构成。这种预先训练的NER系统可以实现高精度,但它需要大量的向量训练数据集,使其不适合在资源有限的移动设备中使用。例如,在流行的短消息服务(SMS)中交换文本消息上的NER非常受限于移动电话的计算能力和存储容量。大多数当前可用的实施只能使用正则表达式(regularexpressions)来检测电话号码或超链接。但是,电话号码和超链接并不是唯一有价值的命名实体。地理位置、名称、电话号码、日期和时间可能都是用户希望在其他应用程序中使用的重要信息。例如,用户可能想要对包含在SMS消息中的位置名称执行地图搜索。能够识别这些命名实体是第一步,然后才能允许这些数据与其他应用程序和/或系统进行交换,完全自动地或至少最小的用户干预。此外,识别某些实体(如人员、组织和场所)具有挑战性,但很有价值,因为这些类型的实体经常受到时间流逝的影响,同时又是文件和短信的主要组成部分。通常,为了构建具有高识别准确率的NER系统,需要一个较大的训练数据集,结果形成一个相当大尺寸的NER系统。因此,传统的NER可能不适合移动设备。需要一种NER系统,其只有较小存储器尺寸要求但仍能保持高识别准确率。
技术实现思路
本专利技术提供了一种从数字文档和文本中识别和提取命名实体的方法和装置。根据本专利技术的一个方面,提供了一种基于压缩NER模型的第一阶段命名实体识别器。根据本专利技术的另一方面,提供了一种基于规则的第二阶段命名实体识别器。根据优选实施例,提供了一种NER系统,其结合了基于压缩NER模型的命名实体识别器和基于规则的命名实体识别器。与传统的NER系统相比,这种NER系统具有较小的存储器占用空间,又不会牺牲识别精度。此外,由于NER系统减少了内存占用,运行速度也得以提高。根据替代实施例,仅使用基于压缩NER模型的命名实体识别器的NER系统也是可行的。根据另一个实施例,基于规则的命名实体识别器可以集成在其他NER系统或设备中并与其一起工作,以提高识别准确性。根据一个实施例,使用包括注释语料库的训练数据集来训练基于压缩NER模型的命名实体识别器,其中注释语料库是被向量表优化和参数优化而进行优化过的。向量表优化包括:通过单词向量对训练数据集中的句子进行聚类(clustering);从每个群集中选择语料库以包含在训练中,其中所选的语料库先前未被选择用于当前训练数据集;在训练数据集中省略某些数据。在一个实施例中,参数优化包括:至少使用较少消耗存储器的数据方案以代替多维字符向量,以简化字符的数据表示。在一个示例性实施例中,消耗最少内存的数据方案使用单个二进制位,其中值“1”用于以大写字母开头的单词,值“0”用于以小写字母开始的单词。这样,得到的基于压缩NER模型的命名实体识别器可以显著降低存储器的尺寸要求。根据一个实施例,基于规则的命名实体识别器包括公共规则模块和特定规则模块。文档和文本中存在命名实体通常表现出某些共同特征。这些共同特征包括最常用的单词以及单词的词性(POS,part-of-speech)标记,其中根据一个实施例,通过遗传算法确定最佳POS标记。公共规则模块是经过共同特征训练的分类器,用以发现和识别文档和文本中的命名实体。命名实体的不同类别或类型和语言,可以通过正则表达(regularexpression)方法具有不同的识别规则。正则表达的识别规则可以从命名实体的类别或类型和语言的命名字典中获得。例如,对于英语中命名实体的地理位置类型,正则表达的识别规则可以是“在介词之一(in,on,at,to,from和towards)之后以大写字母开头的所有单词是地理位置”。特定规则模块是另一个分类器,其通过正则表达命名实体的特定类别或类型和/或语言,使用这样的识别规则来训练。如果要识别和提取多个类别或类型和/或语言的命名实体,可以采用多个基于规则的命名实体识别器,每个命名实体识别器包含一个特定规则模块,专门针对一个类别或一个类型的命名实体训练。【附图说明】在下面将参考附图更详细地描述本专利技术的实施例,其中:图1显示多维空间中的单词向量、字符向量和上下文向量的NER系统训练数据集的逻辑构成;图2显示根据本专利技术一个实施例的NER系统的逻辑结构和数据流图;图3显示根据本专利技术一个实施例的基于压缩NER模型的命名实体识别器的训练策略;图4A显示根据本专利技术一个实施例的基于规则的命名实体识别器的逻辑结构和数据流图;图4B显示根据本专利技术另一实施例的基于规则的命名实体识别器的逻辑结构和数据流图。【具体实施方式】在以下描述中,作为优选示例阐述了从数字文档和文本等中识别和提取命名实体的方法和装置。在不脱离本专利技术范围和精神的情况下进行的修改,包括添加和/或替换,对于本领域技术人员都是显而易见的。为了不混淆本专利技术,省略了一些具体细节。但是,本披露能够使本领域普通技术人员在不进行过度实验的情况下实践本专利技术教义。参见图2。根据本专利技术的一个方面,图2提供了使用压缩NER模型202来训练第一阶段命名实体识别器204(基于压缩NER模型的命名实体识别器201)。根据本专利技术的另一方面,提供了一种基于规则的第二阶段命名实体识别器206。根据优选实施例,提供了一个包含基于压缩NER模型的命名实体识别器和基于规则的命名实体识别器的NER系统200。NER系统200的运行包括:基于压缩NER模型的命名实体识别器201接收输入文本203,输入文本203可以是数字文档、文本消息等;基本文档来自技高网
...

【技术保护点】
1.一种在自然语言输入文本处理中识别和提取命名实体的方法,包括:通过基于压缩命名实体识别NER模型的命名实体识别器,在所述输入文本上执行第一阶段NER,以生成第一阶段确定,确定所述输入文本中是否存在至少一个命名实体;如果所述第一阶段NER确定所述输入文本中不存在命名实体,则通过基于规则的命名实体识别器,在所述输入文本上执行第二阶段NER,以生成第二阶段NER结果,其中如果所述第二阶段NER确定在所述输入文本中至少存在一个命名实体,那么所述第二阶段NER结果包括一对或多对命名实体及其对应的类别或类型;如果所述第一阶段NER确定在所述输入文本中存在至少一个命名实体,则通过所述基于压缩NER模型的命名实体识别器,生成第一阶段NER结果,其中所述第一阶段NER结果包括一对或多对命名实体及其对应的类别或类型;通过NER结果合并器,合并所述第一阶段NER结果和所述第二阶段NER结果,以产生一个最终NER结果。

【技术特征摘要】
【国外来华专利技术】2018.12.13 US 16/219,8871.一种在自然语言输入文本处理中识别和提取命名实体的方法,包括:通过基于压缩命名实体识别NER模型的命名实体识别器,在所述输入文本上执行第一阶段NER,以生成第一阶段确定,确定所述输入文本中是否存在至少一个命名实体;如果所述第一阶段NER确定所述输入文本中不存在命名实体,则通过基于规则的命名实体识别器,在所述输入文本上执行第二阶段NER,以生成第二阶段NER结果,其中如果所述第二阶段NER确定在所述输入文本中至少存在一个命名实体,那么所述第二阶段NER结果包括一对或多对命名实体及其对应的类别或类型;如果所述第一阶段NER确定在所述输入文本中存在至少一个命名实体,则通过所述基于压缩NER模型的命名实体识别器,生成第一阶段NER结果,其中所述第一阶段NER结果包括一对或多对命名实体及其对应的类别或类型;通过NER结果合并器,合并所述第一阶段NER结果和所述第二阶段NER结果,以产生一个最终NER结果。2.根据权利要求1所述的方法,还包括:如果所述第一阶段NER确定在所述输入文本中存在至少一个命名实体,则通过所述基于压缩NER模型的命名实体识别器,产生一个精确识别概率;如果所述精确识别概率低于一个阈值,则通过所述基于规则的命名实体识别器,在所述输入文本上执行所述第二阶段NER,以生成所述第二阶段NER结果。3.根据权利要求1所述的方法,其中对所述第一阶段NER结果和所述第二阶段NER结果进行合并,以生成所述最终NER结果是一个并行运行,包括:如果所述第一阶段NER结果和所述第二阶段NER结果两者都非空,则从两者构建所述最终NER结果;如果所述第二阶段NER结果为空,则从所述第一阶段NER结果构建所述最终NER结果;如果所述第一阶段NER结果为空,则从所述第二阶段NER结果构建所述最终NER结果。4.根据权利要求1所述的方法,其中对所述第一阶段NER结果和所述第二阶段NER结果进行所述积分以生成所述最终NER结果是一个选择选项,包括:如果两者都非空,则从所述第二阶段NER结果构造所述最终NER结果;如果所述第二阶段NER结果为空,则从所述第一阶段NER结果构造所述最终NER结果;如果所述第一阶段NER结果为空,则从所述第二阶段NER结果构造所述最终NER结果。5.根据权利要求1所述的方法,其中所述基于压缩NER模型的命名实体识别器是使用一个压缩NER模型来训练的,所述压缩NER模型是从一个训练数据集生成的,而所述训练数据集是被一个向量表优化而优化的;其中所述向量表优化包括:通过单词向量,将所述训练数据集中的句子聚类成一个可配置数量的群集;从每个所述群集中选择语料库以包含在所述训练中,其中所选的语料库先前未被选择过用于所述训练数据集;在所述训练中省略一部分所述训练数据集。6.根据权利要求1所述的方法,其中所述基于压缩NER模型的命名实体识别器是使用一个压缩NER模型来训练的,所述压缩NER模型是从一个训练数据集生成的,而所述训练数据集是被一个参数优化而优化的;其中所述参数优化包括以下一个或多个:减少所述训练数据集的单词向量空间维度;减少所述训练数据集的字符向量空间维数;使用较少内存消耗的数据方案代替所述训练数据集中的多维字符向量,来简化字符的数据表示。7.根据权利要求1所述的方法,其中所述基于规则的命名实体识别器包括公共规则模块和特定规则模块;其中所述公共规则模块是使用一个或多个共同特征来训练的NER分类器,所述一个或多个共同特征包括用于所述公共规则模块的训练数据集中的前N个最常使用的单词和每个单词的词性POS标记;其中所述共同特征是从所述公共规则模块的所述训练数据集中获得,通过:将所述公共规则模块的所述训练数据集中的句子分成单个单词;提取最常出现在所述公共规则模块的所述训练数据集中的前N个单词作为所述前N个最常用单词;为所述每个单词分配一个POS标记;其中所述特定规则模块被配置为,通过对命名实体的类别或类型以及语言进行具体正则表达标识,在所述输入文本上执行NER,从而生成第二NER结果;其中所述第一和所述第二NER结果在合并运算中合并,以产生所述生成的第二阶段NER结果。8.根据权利要求1所述的方法,其中所述基于规则的命名实体识别器包括公共规则模块和特定规则模块;其中所述公共规则模块是使用一个或多个共同特征来训练的NER分类器,所述一个或多个共同特征包括用于所述公共规则模块的训练数据集中的前N个最常使用的单词和每个单词的词性POS标记;其中所述共同特征是从所述公共规则模块的所述训练数据集中获得,通过:将所述公共规则模块的所述训练数据集中的句子分成单个单词;提取最常出现在所述公共规则模块的所述训练数据集中的前N个单词作为所述前N个最常用单词;为所述每个单词分配一个POS标记;其中所述特定规则模块被配置为,通过对命名实体的类别或类型以及语言进行具体正则表达标识,在所述输入文本上执行NER;其中所述公共规则模块和特定规则模块首先通过所述公共规则模块在所述输入文本上串行地执行相应的NER,以生成一个确定,确定所述输入文本是否包含至少一个命名实体;如果是这样,则由所述特定规则模块来生成所述第二阶段NER结果。9.一种在自然语言输入文本处理中识别和提取命名实体的装置,包括:基于压缩命名实体识别NER模型的命名实体识别器,其被配置为在所述输入文本上执行第一阶段NER,生成第一阶段确定,确定所述输入文本中是否存在至少一个命名实体,其中如果所述第一阶段NER确定所述输入文本中存在至少一个命名实体,则生成第一阶段NER结果,所述第一阶段NER结果包括一对或多对命名实体及其对应的类别或类型;基于规则的命名实体识别器,其被配置为在所述输入文本执行第二阶段NER,以在所述第一阶段NER确定所述输入文本中不存在命名实体时生成第二阶段NER结果,其中如果所述第二阶段NER确定所述输入文本中存在至少一个命名实体,则生成第二阶段NER结果,所述第二阶段NER结果包括一对或多对命名实体及其对应的类别或类型;NER结果合并器,其被配置为对所述第一阶段NER结果和所述第二阶段NER结果进行合并,以生成一个最终NER结果。10.根据权利要求9所述的装置:其中所述...

【专利技术属性】
技术研发人员:刘扬李芝喜冯超谢谊乒雷志斌
申请(专利权)人:香港应用科技研究院有限公司
类型:发明
国别省市:中国香港,81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1