【技术实现步骤摘要】
一种命名实体识别方法、装置及终端设备
本专利技术涉及数据处理
,尤其涉及一种命名实体识别方法、装置及终端设备。
技术介绍
命名实体识别(NamedEntityRecognition,NER)是指识别出文本或字符串中具有特定意义的实体,主要包括人名、地名、机构名和专有名词等。评判一个命名实体是否被正确识别主要包括两个方面,分别为:实体的边界是否正确,和实体的类型是否标注正确。现有的命名实体识别方法主要包括:基于规则(rule-based)的方法,和基于统计(statistic-based)的方法。该基于统计的方法中,目前普遍使用的网络结构是BI-LSTM-CRF(Bi-directionalLongShort-TermMemory-ConditionalRandomField,双向长短期记忆神经网络和条件随机场),该BI-LSTM-CRF可以将BI-LSTM捕获长远的上下文信息、神经网络拟合非线性的能力和CRF灵活应用局部上下文特征的能力结合一起,将识别性能提升到最大。在网络结构BI-LSTM-CRF中,基于字的BI-LSTM-CRF模型的命名实体识别方法是常常用到的命名实体识别方法。然而,现有基于字的命名实体识别模型比如BI-LSTM-CRF模型中,常常存在实体边界问题,造成命名实体识别时的准确率低。
技术实现思路
本专利技术实施例提供一种命名实体识别方法、装置及终端设备,以解决现有基于字的命名实体识别模型因存在实体边界问题,造成命名实体识别时的准确率低的问题。为了解 ...
【技术保护点】
1.一种命名实体识别方法,其特征在于,包括:/n获取待识别数据;/n对所述待识别数据进行预处理,获得所述待识别数据的字符向量;/n将所述字符向量输入至预先训练的基于字的命名实体识别模型中,输出表示所述待识别数据的命名实体信息的识别结果;/n根据所述识别结果,确定所述待识别数据的命名实体;/n其中,所述命名实体识别模型的训练特征向量包括训练数据的实体边界特征向量,用于提取训练数据的特征时,将同一命名实体的多个字符特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练。/n
【技术特征摘要】
1.一种命名实体识别方法,其特征在于,包括:
获取待识别数据;
对所述待识别数据进行预处理,获得所述待识别数据的字符向量;
将所述字符向量输入至预先训练的基于字的命名实体识别模型中,输出表示所述待识别数据的命名实体信息的识别结果;
根据所述识别结果,确定所述待识别数据的命名实体;
其中,所述命名实体识别模型的训练特征向量包括训练数据的实体边界特征向量,用于提取训练数据的特征时,将同一命名实体的多个字符特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别数据之前,所述方法还包括:
获取训练数据,其中,所述训练数据为字符级数据,所述训练数据中包括命名实体标签信息;
对所述训练数据进行预处理,获得所述训练数据的字符向量和命名实体标签向量;
通过注意力机制,构建所述训练数据的实体边界特征向量,所述实体边界特征向量包括实体起始位置标记向量和实体长度标记向量;
将所述字符向量、所述命名实体标签向量、所述实体起始位置标记向量和所述实体长度标记向量拼接后输入至预先构建的模型中,训练所述预先构建的模型的参数,直至达到预设迭代次数或者模型损失值满足预设条件,得到所述命名实体识别模型。
3.根据权利要求2所述的方法,其特征在于,所述预先构建的模型为基于BI-LSTM-CRF的深度学习模型。
4.根据权利要求1所述的方法,其特征在于,所述根据所述识别结果,确定所述待识别数据的命名实体,包括:
根据所述识别结果,对所述待识别数据的字符级数据进行命名实体的标记,得到所述待识别数据的命名实体标签信息;
当所述字符级数据中预设字符的平行位置上,一个位置存在命名实体标签信息,另一个位置不存在命名实体标签信息时,利用所述一个位置上存在的命名实体标签信息,对所述另一个位置进行标记,以更新所述待识别数据的命名实体标签信息;
根据更新后的所述待识别数据的命名实体标签信息,确定所述待识别数据的命名实体。
5.根据权利要求1所述的方法,其特征在于,所述根据所述识别结果,确定所述待识别数据的命名实体,包括:
根据所述识别结果,对所述待识别数据的字符级数据进行命名实体的标记,得到所述待识别数据的命名实体标签信息;
根据所述待识别数据的命名实体标签信息,确定所述待识别数据的每一个命名实体;
对所述待识别数据进行分词,获得分词结果;
利用所述分词结果,对所述每一个命名实体进行字补齐处理,以更新所述待识别数据的命名实体标签信息;
根据更新后的所述待识别数据的命名实体标签信息,确定所述待识别数据的命名实体。
6.根据权利要求5所述的方法,其特征在于,所述利用所述分词结果,对所述每一个命名实体进行字补齐处理,包括:
确定所述每一个命名实体对应的分...
【专利技术属性】
技术研发人员:王惠欣,胡珉,
申请(专利权)人:中国移动通信有限公司研究院,中国移动通信集团有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。