命名实体识别方法和系统技术方案

技术编号:15039437 阅读:688 留言:0更新日期:2017-04-05 13:10
本发明专利技术技术方案公开了一种命名实体识别方法和系统,所述命名实体识别方法包括:合并特征向量,所述特征向量包括预训练的词向量、自训练的词向量和词性标注向量,所述神经网络为卷积神经网络或深度置信神经网络;以合并得到的特征向量为输入,经神经网络的隐藏层、缩减层和输出分类层处理,得到分类输出结果;采用多模式匹配算法识别所述分类输出结果,以得到目标实体。本发明专利技术技术方案合并多个特征向量作为神经网络的输入特征,经神经网络处理和多模式匹配,使其能够很好的应用于具体的分类场景。

【技术实现步骤摘要】

本专利技术属于语言数据处理
,具体涉及一种命名实体识别方法和系统。
技术介绍
命名实体识别(NER,NamedEntityRecognition)是指识别文本或字符串中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。这些识别出来的实体可以应用于其它自然语言处理任务,如:依存句法、关系抽取、事件抽取等。因此命名实体识别结果的好坏直接影响后续自然语言处理任务。现有的命名实体识别方法主要有词典匹配、概率图模型、神经网络等方法。词典匹配采用人工添加用户词典的方法,现有的开源分词工具包都提供用户添加词典的接口。概率图模型用于命名实体识别的性能较好的主要有隐马尔可夫模型(HMM,HiddenMarkovModel)和条件随机场(CRF,ConditionalRandomField)。隐马尔可夫模型由状态序列(statesequence)和观测序列(observationsequence)组成,在命名实体任务中观测序列指的是分好词的字符串,状态序列就是我们需要的标注信息,依据事先统计好的信息,利用条件概率和维特比(Viterbi)算法就可以求得出现概率最大的状态序列。条件随机场与隐马尔可夫类似,也是包含状态序列和观测序列,但其并不需要输出独立性假设和马尔可夫假设,具有表达长距离依赖性和交叠特征的能力,能够较好地解决标注(分类)偏置等问题。神经网络应用于命名实体识别的主要有多层感知机模型和递归神经网络(RNN,RecurrentNeuralNetwork)模型。前者主要采用窗口的方式选择目标词的上下文信息,然后用每一个词的词向量或者结合字向量作为神经网络的输入;后者同样使用词向量结合字向量作为神经网络的输入,不同的是使用RNN结构结合长短型记忆(LSTM,LongShortTermMemory)能够更好的保留上下文信息。基于用户词典的方法虽然能够取得较好的结果,但是维护词典的成本太高;隐马尔可夫模型建立在严格的输出独立性和马尔可夫独立性基础之上,不符合大多数的命名实体场景;条件随机场并不需要输出独立性假设和马尔可夫假设,但是依赖于训练数据集,对未登录词(训练集中未出现的词)预测能力较差;多层感知机模型使用预训练得到的词向量作为特征,解决了部分未登录词的预测能力,但是特征单一,并且无法使词的特征跟随网络模型“学习”;递归神经网络模型虽然适合应用于序列分类问题,但是由于误差的延迟传播,依然无法使词的特征跟随网络模型继续“学习”。
技术实现思路
本专利技术技术方案要解决的技术问题是现有的命名实体识别方案成本高、预测能力差、特征单一且无法跟随网络模型训练。为解决上述技术问题,本专利技术技术方案提供一种命名实体识别方法,包括:合并特征向量,所述特征向量包括预训练的词向量、自训练的词向量和词性标注向量,所述神经网络为卷积神经网络或深度置信神经网络;以合并得到的特征向量为输入,经神经网络的隐藏层、缩减层和输出分类层处理,得到分类输出结果;采用多模式匹配算法识别所述分类输出结果,以得到目标实体。可选的,所述特征向量还包括经神经网络提取的字向量。为解决上述技术问题,本专利技术技术方案还提供一种命名实体识别系统,包括:合并单元,用于合并特征向量,所述特征向量包括预训练的词向量、自训练的词向量和词性标注向量,所述神经网络为卷积神经网络或深度置信神经网络;神经网络,用于以合并得到的特征向量为输入,经隐藏层、缩减层和输出分类层处理,得到分类输出结果;匹配单元,用于采用多模式匹配算法识别所述分类输出结果,以得到目标实体。可选的,所述特征向量还包括经神经网络提取的字向量。与现有技术相比,本专利技术技术方案合并多个特征向量作为神经网络的输入特征,再经神经网络处理和多模式匹配,使其能够很好的应用于具体的分类场景。具体来说,合并特征向量不仅使用预训练的词向量,而且使用随神经网络模型自训练的词向量和分词器标注的词性向量作为神经网络的输入特征,不仅能够解决部分未登录词的预测能力,而且能够充分利用现有分词器的“先验知识”,并且还能够得到随网络模型训练的词向量。进一步地,本专利技术技术方案合并预训练的词向量,随神经网络模型自训练的词向量、分词器标注的词性向量以及经神经网络提取的字向量作为神经网络的输入特征,依据这四个特征,能够更好的应用于具体的分类场景,进一步提高命名实体识别的精确度。附图说明图1为本专利技术实施方式的命名实体识别方法的流程示意图;图2和图3为本专利技术实施方式的命名实体识别方法的实例示意图;图4为本专利技术实施方式的命名实体识别系统的结构示意图;图5为本专利技术实施方式的命名实体识别系统的实例示意图。具体实施方式本专利技术实施方式的命名实体识别方法请参考图1,包括:步骤S1,合并特征向量;步骤S2,以合并得到的特征向量为输入,经神经网络的隐藏层、缩减层和输出分类层处理,得到分类输出结果;步骤S3,采用多模式匹配算法识别所述分类输出结果,以得到目标实体。下面结合图2和图3所示的实例进行详细说明。步骤S1,合并特征向量。请结合参考图1和图2,这里一共输入5个词,目标实体即预测的是最中间的词,长度不足的使用空白符号填充,本实例中,使用到了4个特征向量:预训练的词向量wordvecpretrain,自训练的词向量wordvecrandom,词性标注向量posvec,经神经网络提取的字向量charactervec,合并得到的特征向量features可以用公式(1)表示,其中,Concat()为合并函数,是将矩阵按行进行合并,如公式(2)所示。features=Concat(wordvecpretrain,wordvecrandom,posvec,charactervec)(1)所述预训练的词向量wordvecpretrain可以使用word2vec(WordToVector),word2vec由谷歌专利技术的一种结构简单性能较好的神经网络语言模型(NNLM,NeuralNetworkLanguageModel),采用无监督的学习方法,依据上下文信息可以将每一个词映射成一个向量,从而语义相近的词的词向量的距离更近。所述词性特征向量posvec是经分词器分词得到的词性标注映射成的词性向量,分词器可以使用handlp分词器。具体地,分完词后得到的词性是一个具体的字符,比如n表示名词、v表示动词等等,然后会把这些词性映射成向量的表示形式,比如n[0.5,0.2,0.7,…]、v[0.8,0.3,0.4,….],这个在神经网络领域叫做embedding,其实就是一种映射,这个映射的初始值是随机初始化的(0~1之间的随机数),然后这些得到的映射向量会随着神经网络继续训练,从而就会修改这些向量的值。所述自训练的词向量wordvecrandom和词性特征向量posvec首先会被随机初始化,然后随着神经网络模型一起训练调节参数。本实例中,选取交叉熵代价函数作为神经网络模型的目标函数,并使用梯度下降法调节模型参数,如公式(3)-(5)所示,其中,m是每次训练输入的样本数目,k是分类的标签数目,θ是模型参数(权值、偏置),||θ||2是第二范式,λ是正则化参数(一般取0.01),η是学习率(一般取0至1之间的小数)。请参考图3,本实例中,所述神经网络为卷积神经网络(CNN,Convoluti本文档来自技高网
...

【技术保护点】
一种命名实体识别方法,其特征在于,包括:合并特征向量,所述特征向量包括预训练的词向量、自训练的词向量和词性标注向量,所述神经网络为卷积神经网络或深度置信神经网络;以合并得到的特征向量为输入,经神经网络的隐藏层、缩减层和输出分类层处理,得到分类输出结果;采用多模式匹配算法识别所述分类输出结果,以得到目标实体。

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,包括:合并特征向量,所述特征向量包括预训练的词向量、自训练的词向量和词性标注向量,所述神经网络为卷积神经网络或深度置信神经网络;以合并得到的特征向量为输入,经神经网络的隐藏层、缩减层和输出分类层处理,得到分类输出结果;采用多模式匹配算法识别所述分类输出结果,以得到目标实体。2.如权利要求1所述的命名实体识别方法,其特征在于,所述合并特征向量表示为:features=Concat(wordvecpretrain,wordvecrandom,posvec),其中,wordvecpretrain为预训练的词向量,wordvecrandom为自训练的词向量,posvec为词性标注向量,Concat()为合并函数,features为合并得到的特征向量。3.如权利要求1所述的命名实体...

【专利技术属性】
技术研发人员:张洛阳夏磊
申请(专利权)人:数库上海科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1