【技术实现步骤摘要】
一种嵌套命名实体识别方法、系统、计算机和存储介质
[0001]本专利技术涉及自然语言处理
,特别是涉及一种基于长短期记忆网络的嵌套命名实体的识别方法、系统、计算机设备和存储介质。
技术介绍
[0002]命名实体识别(NER,Named Entity Recognition),也称为专名识别,是指识别文本中具有特定意义的实体(如人名,地名,组织等),是自然语言处理领域构造知识图过程中一个重要的基础任务,其作用在于定位实体的边界并预测其类别。自然语言序列中存在一个实体中包含一个或多个实体的嵌套实体现象,如英文文本“Activation of the cd28surface receptor provides”,“cd28 surface”是一个Protein类型的实体,而“cd28 surface receptor”也是一个Protein类型的实体;同理,中文文本序列“广州大学”中,“广州”是一个地名,而“广州大学”则是一个学校名。然而,基于非嵌套命名实体展开的识别应用在嵌套实体现象的处理上并不能取得预期结果,针对嵌套实体 ...
【技术保护点】
【技术特征摘要】
1.一种嵌套命名实体识别方法,其特征在于,所述方法包括以下步骤:获取待识别文本的第一文本词向量表示;所述待识别文本包括中文文本和英文文本;对所述第一文本词向量表示进行边界检测,得到对应的边界词概率和边界文本向量表示;对所述边界文本向量表示进行解码和标注,得到第一实体识别结果;根据所述边界词概率和预设概率阈值,判断所述边界文本向量表示中是否存在嵌套命名实体边界词;若所述边界文本向量表示中存在嵌套命名实体边界词,则将相邻所述嵌套命名实体边界词之间的所述边界文本向量表示进行合并,得到第二文本词向量表示,并对所述第二文本词向量表示进行边界检测,开始下一轮实体识别迭代,反之,则停止迭代,将所述第一实体识别结果作为所述待识别文本的实体识别结果。2.如权利要求1所述的嵌套命名实体识别方法,其特征在于,所述获取待识别文本的第一文本词向量表示的步骤包括:当所述待识别文本为中文文本时,采用分词词库得到所述中文文本的文本词语列表,并将所述文本词语列表输入Word2Vec模型,得到所述第一文本词向量表示;当所述待识别文本为英文文本时,采用双向LSTM网络编码器得到所述英文文本的字符向量表示和单词向量表示,并将所述字符向量表示和单词向量表示拼接,得到所述第一文本词向量表示。3.如权利要求1所述的嵌套命名实体识别方法,其特征在于,所述对所述第一文本词向量表示进行边界检测,得到对应的边界词概率和边界文本向量表示的步骤包括:将所述文本词向量表示输入LSTM单元,得到文本词特征向量;所述LSTM单元为长短期记忆网络模型的基本单元;将所述文本词特征向量输入多层感知机MLP,得到所述边界词概率;所述边界词概率的公式为:式中,为待识别文本中第t个文本词对应的边界词概率;f
t
为经过2个非线性激活函数求和线性变换后的词向量表示,w
i
和b
i
分别为第i个非线性激活函数对应的权重系数和偏置参数;h
′
t
=LSTM(x
′
t
),h
′
t
、x
′
t
分别为待识别文本中第t个文本词对应文本词特征向量和第一文本词向量表示;将所述第一文本词向量表示与对应的所述边界词概率融合,得到所述边界文本向量表示;所述边界文本向量表示的公式为:式中,x
′
t
、分别为待识别文本中第t个文本词对应的边界文本向量表示、第一文本词向量表示和边界词概率;w为边界融合权重系数。4.如权利要求1所述的嵌...
【专利技术属性】
技术研发人员:周玲,仇晶,丁杰,李鉴明,方滨兴,顾钊铨,田志宏,韩伟红,王乐,李树栋,唐可可,王海燕,
申请(专利权)人:鹏城实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。