A method for identifying and extracting named entities in natural language input text processing includes: performing the first stage of NER on input text through a named entity identifier based on compressed named entity recognition (NER) model to generate the first stage of determination and determine whether at least one named entity exists in input text; and if the first stage of NER determines that there is no life in input text Named entity, the second stage NER is executed on the input text through the rule-based named entity identifier to produce the second stage NER result; if the first stage NER determines that there is at least one named entity in the input text, the first stage NER result is generated by the named entity identifier based on the compressed NER model; and the first stage NER result is combined with the first stage NER result by the NER result merger. The two-stage NER results are merged to produce the final NER results.
【技术实现步骤摘要】
【国外来华专利技术】高效且精确的命名实体识别方法和装置
本专利技术涉及自然语言处理(NLP),尤其涉及用于文档中的命名实体(namedentity)识别和提取的方法、技术、装置和系统,其中命名实体可以被分为类别和类型。
技术介绍
用于识别命名实体的自动化系统的目标是能够从数字文档或文本中识别和提取命名实体,并将那些命名实体分类为一个或多个预定的类或类型,例如人、城市、汽车和其他等。命名实体识别和提取结果的下游应用是前景广阔的,包括改进信息检索系统和知识提取系统等。一种命名实体识别(NER)技术使用向量来模拟数字文档和文本中或上下文中的单词和字符。这些向量可以被视为多维空间中的单词、字符和上下文的数字表示,形成一个用于训练NER系统的训练数据集。单词的向量与其含义有直接关系。单词“in”的一个示例向量是:[0.330420.24995-0.608740.109230.0363720.151-0.55083-0.074239-0.092307-0.328210.09598-0.82269-0.36717-0.670090.429090.016496-0.235730.12864-1.09530.433340.57067-0.10360.204220.078308-0.42795-1.7984-0.278650.11954-0.126890.0317443.8631-0.17786-0.082434-0.626980.26497-0.057185-0.0735210.461030.308620.12498-0.48609-0.00802720.031184-0.36576- ...
【技术保护点】
1.一种在自然语言输入文本处理中识别和提取命名实体的方法,包括:通过基于压缩命名实体识别NER模型的命名实体识别器,在所述输入文本上执行第一阶段NER,以生成第一阶段确定,确定所述输入文本中是否存在至少一个命名实体;如果所述第一阶段NER确定所述输入文本中不存在命名实体,则通过基于规则的命名实体识别器,在所述输入文本上执行第二阶段NER,以生成第二阶段NER结果,其中如果所述第二阶段NER确定在所述输入文本中至少存在一个命名实体,那么所述第二阶段NER结果包括一对或多对命名实体及其对应的类别或类型;如果所述第一阶段NER确定在所述输入文本中存在至少一个命名实体,则通过所述基于压缩NER模型的命名实体识别器,生成第一阶段NER结果,其中所述第一阶段NER结果包括一对或多对命名实体及其对应的类别或类型;通过NER结果合并器,合并所述第一阶段NER结果和所述第二阶段NER结果,以产生一个最终NER结果。
【技术特征摘要】
【国外来华专利技术】2018.12.13 US 16/219,8871.一种在自然语言输入文本处理中识别和提取命名实体的方法,包括:通过基于压缩命名实体识别NER模型的命名实体识别器,在所述输入文本上执行第一阶段NER,以生成第一阶段确定,确定所述输入文本中是否存在至少一个命名实体;如果所述第一阶段NER确定所述输入文本中不存在命名实体,则通过基于规则的命名实体识别器,在所述输入文本上执行第二阶段NER,以生成第二阶段NER结果,其中如果所述第二阶段NER确定在所述输入文本中至少存在一个命名实体,那么所述第二阶段NER结果包括一对或多对命名实体及其对应的类别或类型;如果所述第一阶段NER确定在所述输入文本中存在至少一个命名实体,则通过所述基于压缩NER模型的命名实体识别器,生成第一阶段NER结果,其中所述第一阶段NER结果包括一对或多对命名实体及其对应的类别或类型;通过NER结果合并器,合并所述第一阶段NER结果和所述第二阶段NER结果,以产生一个最终NER结果。2.根据权利要求1所述的方法,还包括:如果所述第一阶段NER确定在所述输入文本中存在至少一个命名实体,则通过所述基于压缩NER模型的命名实体识别器,产生一个精确识别概率;如果所述精确识别概率低于一个阈值,则通过所述基于规则的命名实体识别器,在所述输入文本上执行所述第二阶段NER,以生成所述第二阶段NER结果。3.根据权利要求1所述的方法,其中对所述第一阶段NER结果和所述第二阶段NER结果进行合并,以生成所述最终NER结果是一个并行运行,包括:如果所述第一阶段NER结果和所述第二阶段NER结果两者都非空,则从两者构建所述最终NER结果;如果所述第二阶段NER结果为空,则从所述第一阶段NER结果构建所述最终NER结果;如果所述第一阶段NER结果为空,则从所述第二阶段NER结果构建所述最终NER结果。4.根据权利要求1所述的方法,其中对所述第一阶段NER结果和所述第二阶段NER结果进行所述积分以生成所述最终NER结果是一个选择选项,包括:如果两者都非空,则从所述第二阶段NER结果构造所述最终NER结果;如果所述第二阶段NER结果为空,则从所述第一阶段NER结果构造所述最终NER结果;如果所述第一阶段NER结果为空,则从所述第二阶段NER结果构造所述最终NER结果。5.根据权利要求1所述的方法,其中所述基于压缩NER模型的命名实体识别器是使用一个压缩NER模型来训练的,所述压缩NER模型是从一个训练数据集生成的,而所述训练数据集是被一个向量表优化而优化的;其中所述向量表优化包括:通过单词向量,将所述训练数据集中的句子聚类成一个可配置数量的群集;从每个所述群集中选择语料库以包含在所述训练中,其中所选的语料库先前未被选择过用于所述训练数据集;在所述训练中省略一部分所述训练数据集。6.根据权利要求1所述的方法,其中所述基于压缩NER模型的命名实体识别器是使用一个压缩NER模型来训练的,所述压缩NER模型是从一个训练数据集生成的,而所述训练数据集是被一个参数优化而优化的;其中所述参数优化包括以下一个或多个:减少所述训练数据集的单词向量空间维度;减少所述训练数据集的字符向量空间维数;使用较少内存消耗的数据方案代替所述训练数据集中的多维字符向量,来简化字符的数据表示。7.根据权利要求1所述的方法,其中所述基于规则的命名实体识别器包括公共规则模块和特定规则模块;其中所述公共规则模块是使用一个或多个共同特征来训练的NER分类器,所述一个或多个共同特征包括用于所述公共规则模块的训练数据集中的前N个最常使用的单词和每个单词的词性POS标记;其中所述共同特征是从所述公共规则模块的所述训练数据集中获得,通过:将所述公共规则模块的所述训练数据集中的句子分成单个单词;提取最常出现在所述公共规则模块的所述训练数据集中的前N个单词作为所述前N个最常用单词;为所述每个单词分配一个POS标记;其中所述特定规则模块被配置为,通过对命名实体的类别或类型以及语言进行具体正则表达标识,在所述输入文本上执行NER,从而生成第二NER结果;其中所述第一和所述第二NER结果在合并运算中合并,以产生所述生成的第二阶段NER结果。8.根据权利要求1所述的方法,其中所述基于规则的命名实体识别器包括公共规则模块和特定规则模块;其中所述公共规则模块是使用一个或多个共同特征来训练的NER分类器,所述一个或多个共同特征包括用于所述公共规则模块的训练数据集中的前N个最常使用的单词和每个单词的词性POS标记;其中所述共同特征是从所述公共规则模块的所述训练数据集中获得,通过:将所述公共规则模块的所述训练数据集中的句子分成单个单词;提取最常出现在所述公共规则模块的所述训练数据集中的前N个单词作为所述前N个最常用单词;为所述每个单词分配一个POS标记;其中所述特定规则模块被配置为,通过对命名实体的类别或类型以及语言进行具体正则表达标识,在所述输入文本上执行NER;其中所述公共规则模块和特定规则模块首先通过所述公共规则模块在所述输入文本上串行地执行相应的NER,以生成一个确定,确定所述输入文本是否包含至少一个命名实体;如果是这样,则由所述特定规则模块来生成所述第二阶段NER结果。9.一种在自然语言输入文本处理中识别和提取命名实体的装置,包括:基于压缩命名实体识别NER模型的命名实体识别器,其被配置为在所述输入文本上执行第一阶段NER,生成第一阶段确定,确定所述输入文本中是否存在至少一个命名实体,其中如果所述第一阶段NER确定所述输入文本中存在至少一个命名实体,则生成第一阶段NER结果,所述第一阶段NER结果包括一对或多对命名实体及其对应的类别或类型;基于规则的命名实体识别器,其被配置为在所述输入文本执行第二阶段NER,以在所述第一阶段NER确定所述输入文本中不存在命名实体时生成第二阶段NER结果,其中如果所述第二阶段NER确定所述输入文本中存在至少一个命名实体,则生成第二阶段NER结果,所述第二阶段NER结果包括一对或多对命名实体及其对应的类别或类型;NER结果合并器,其被配置为对所述第一阶段NER结果和所述第二阶段NER结果进行合并,以生成一个最终NER结果。10.根据权利要求9所述的装置:其中所述...
【专利技术属性】
技术研发人员:刘扬,李芝喜,冯超,谢谊乒,雷志斌,
申请(专利权)人:香港应用科技研究院有限公司,
类型:发明
国别省市:中国香港,81
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。