命名实体识别方法、装置及计算机可读存储介质制造方法及图纸

技术编号：23099678 阅读：15 留言：0更新日期：2020-01-14 20:42

本发明专利技术涉及一种人工智能技术领域，揭露了一种命名实体识别方法，包括：接收由待识别的原始语句组成的第一文本数据，并对所述第一文本数据进行预处理得到文本向量数据；获取具有多层结构的神经实体推理机识别模型，并对所述神经实体推理机识别模型进行训练；将所述文本向量数据输入训练后的所述神经实体推理机识别模型进行训练得到命名实体集合；将所述文本向量数据和所述命名实体集合输入所述神经实体推理机识别模型中的推理机进行推理，得到命名实体。本发明专利技术还提出一种命名实体识别装置以及一种计算机可读存储介质。本发明专利技术可以实现精准高效的命名实体识别。

Named entity recognition method, device and computer readable storage medium

全部详细技术资料下载

【技术实现步骤摘要】
命名实体识别方法、装置及计算机可读存储介质
本专利技术涉及人工智能
，尤其涉及一种文本数据集中的命名实体识别方法、装置及计算机可读存储介质。
技术介绍
随着当今互联网的发展，人们生活中的信息量也越来越多，而其中大部分是文本信息。因此，如何对文本信息进行处理，识别出其中的人名、机构名、地名等命名实体，从而简化人们对文本信息的提取是一大难题。然而，目前识别实体的主要方法是基于传统神经实体推理方法，但由于此方法过于依赖局部和底层的语言特征，当出现有歧义的说法或者少见的人名时，这类方法往往会遇到困难。
技术实现思路
本专利技术提供一种命名实体识别方法、装置及计算机可读存储介质，其主要目的在于对原始文本数据集进行深度学习从而得到命名实体的方法。为实现上述目的，本专利技术提供的一种命名实体识别方法，包括：接收由待识别的原始语句组成的第一文本数据，并对所述第一文本数据进行预处理得到文本向量数据；获取具有多层结构的神经实体推理机识别模型；将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合；将所述文本向量数据和所述命名实体集合输入所述神经实体推理机识别模型中的推理机进行推理，得到命名实体。优选地，所述神经实体推理机识别模型的每一层结构通过Bi-LSTM模型通过Bi-LSTM模型进行编码，并通过解码器进行解码，，解码完成后的数据进入下一层结构再次进行编码和解码。优选地，所述将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命...

【技术保护点】
1.一种命名实体识别方法，其特征在于，所述方法包括：/n接收由待识别的原始语句组成的第一文本数据，并对所述第一文本数据进行预处理得到文本向量数据；/n获取具有多层结构的神经实体推理机识别模型；/n将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合；/n将所述文本向量数据和所述命名实体集合输入所述神经实体推理机识别模型中的推理机进行推理，得到命名实体。/n

【技术特征摘要】
1.一种命名实体识别方法，其特征在于，所述方法包括：
接收由待识别的原始语句组成的第一文本数据，并对所述第一文本数据进行预处理得到文本向量数据；
获取具有多层结构的神经实体推理机识别模型；
将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合；
将所述文本向量数据和所述命名实体集合输入所述神经实体推理机识别模型中的推理机进行推理，得到命名实体。

2.如权利要求1所述的命名实体识别方法，其特征在于，所述神经实体推理机识别模型的每一层结构通过Bi-LSTM模型进行编码，并通过解码器进行解码，解码完成后的数据进入下一层结构再次进行编码和解码。

3.如权利要求2所述的命名实体识别方法，其特征在于，所述将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合包括：
输入经过预处理的所述文本向量数据；
利用所述Bi-LSTM模型对所述文本向量数据进行编码，得到编码表示序列和初始命名实体，将所述初始命名实体加入候选池；
将所述编码表示序列和所述候选池中的所述初始命名实体输入所述推理机中进行处理，得到引用信息；
将所述编码表示序列和所述引用信息输入解码器，得到预测标签，根据所述预测标签更新所述候选池，得到所述命名实体集合。

4.如权利要求3所述的命名实体识别方法，其特征在于，所述解码器包括：

其中，X表示经过上述预处理的所述文本向量数据，y表示经过所述神经实体推理机识别模型训练后得到的所述预测标签，yi表示所述神经实体推理机识别模型中第i层的预测标签，xt表示在t时刻文本向量x的值。

5.如权利要求1～4中任一项所述的命名实体识别方法，其特征在于，所述对所述第一文本数据进行预处理得到文本向量数据包括：
对所述第一文本数据进行分词操作得到第二文本数据，对所述第二文本数据进行去停用词操作得到第三文本数据，对所述第三文本数据进行去重操作得到第四文本数据；
对所述第四文本数据利用TF-IDF算法进行词向量形式转化，得到所述文本...

【专利技术属性】
技术研发人员：金戈，徐亮，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人