命名实体识别方法、装置及计算机可读存储介质制造方法及图纸

技术编号:23099678 阅读:15 留言:0更新日期:2020-01-14 20:42
本发明专利技术涉及一种人工智能技术领域,揭露了一种命名实体识别方法,包括:接收由待识别的原始语句组成的第一文本数据,并对所述第一文本数据进行预处理得到文本向量数据;获取具有多层结构的神经实体推理机识别模型,并对所述神经实体推理机识别模型进行训练;将所述文本向量数据输入训练后的所述神经实体推理机识别模型进行训练得到命名实体集合;将所述文本向量数据和所述命名实体集合输入所述神经实体推理机识别模型中的推理机进行推理,得到命名实体。本发明专利技术还提出一种命名实体识别装置以及一种计算机可读存储介质。本发明专利技术可以实现精准高效的命名实体识别。

Named entity recognition method, device and computer readable storage medium

【技术实现步骤摘要】
命名实体识别方法、装置及计算机可读存储介质
本专利技术涉及人工智能
,尤其涉及一种文本数据集中的命名实体识别方法、装置及计算机可读存储介质。
技术介绍
随着当今互联网的发展,人们生活中的信息量也越来越多,而其中大部分是文本信息。因此,如何对文本信息进行处理,识别出其中的人名、机构名、地名等命名实体,从而简化人们对文本信息的提取是一大难题。然而,目前识别实体的主要方法是基于传统神经实体推理方法,但由于此方法过于依赖局部和底层的语言特征,当出现有歧义的说法或者少见的人名时,这类方法往往会遇到困难。
技术实现思路
本专利技术提供一种命名实体识别方法、装置及计算机可读存储介质,其主要目的在于对原始文本数据集进行深度学习从而得到命名实体的方法。为实现上述目的,本专利技术提供的一种命名实体识别方法,包括:接收由待识别的原始语句组成的第一文本数据,并对所述第一文本数据进行预处理得到文本向量数据;获取具有多层结构的神经实体推理机识别模型;将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合;将所述文本向量数据和所述命名实体集合输入所述神经实体推理机识别模型中的推理机进行推理,得到命名实体。优选地,所述神经实体推理机识别模型的每一层结构通过Bi-LSTM模型通过Bi-LSTM模型进行编码,并通过解码器进行解码,,解码完成后的数据进入下一层结构再次进行编码和解码。优选地,所述将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合包括:输入经过预处理的所述文本向量数据;利用所述Bi-LSTM模型对所述文本向量数据进行编码,得到编码表示序列和初始命名实体,将所述初始命名实体加入候选池;将所述编码表示序列和所述候选池中的所述初始命名实体输入所述推理机中进行处理,得到引用信息;将所述编码表示序列和所述引用信息输入解码器,得到预测标签,根据所述预测标签更新所述候选池,得到所述命名实体集合。优选地,所述解码器包括:其中,X表示经过上述预处理的所述文本向量数据,y表示经过所述神经实体推理机识别模型训练后得到的所述预测标签,yi表示所述神经实体推理机识别模型中第i层的预测标签,xt表示在t时刻文本向量x的值。优选地,所述对所述第一文本数据进行预处理得到文本向量数据包括:对所述第一文本数据进行分词操作得到第二文本数据,对所述第二文本数据进行去停用词操作得到第三文本数据,对所述第三文本数据进行去重操作得到第四文本数据;对所述第四文本数据利用TF-IDF算法进行词向量形式转化,得到所述文本向量数据。此外,为实现上述目的,本专利技术还提供一种命名实体识别装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的命名实体识别程序,所述命名实体识别程序被所述处理器执行时实现如下步骤:接收由待识别的原始语句组成的第一文本数据,并对所述第一文本数据进行预处理得到文本向量数据;获取具有多层结构的神经实体推理机识别模型;将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合;将所述文本向量数据和所述命名实体集合输入所述神经实体推理机识别模型中的推理机进行推理,得到命名实体。优选地,所述神经实体推理机识别模型的每一层结构通过Bi-LSTM模型通过Bi-LSTM模型进行编码,并通过解码器进行解码,,解码完成后的数据进入下一层结构再次进行编码和解码。优选地,所述将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合包括:输入经过预处理的的文本向量数据:利用所述Bi-LSTM模型对所述文本向量数据进行编码,得到编码表示序列和初始命名实体,将所述初始命名实体加入候选池;将所述编码表示序列和所述候选池中的所述初始命名实体输入所述推理机中进行处理,得到引用信息;将所述编码表示序列和所述引用信息输入解码器,得到预测标签,根据所述预测标签更新所述候选池,得到所述命名实体集合。优选地,所述解码器包括:其中,X表示经过上述预处理的所述文本向量数据,y表示经过所述神经实体推理机识别模型训练后得到的所述预测标签,yi表示所述神经实体推理机识别模型中第i层的预测标签,xt表示在t时刻文本向量x的值。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有命名实体识别程序,所述命名实体识别程序可被一个或者多个处理器执行,以实现如上所述的命名实体识别方法的步骤。本专利技术所述命名实体识别方法、装置及计算机可读存储介质应用了深度学习技术,其中神经实体推理机识别模型包括多层结构,每一层都可以独立完成一次命名实体识别,而每层的命名实体识别结果作为下一层的参考,此时通过推理机便能得到最优的识别结果;每个层的命名实体识别在大多数情况下都可以共享参数。因此本专利技术提出的一种命名实体识别方法、装置及计算机可读存储介质,可以实现精准高效且连贯的进行命名实体识别。附图说明图1为本专利技术一实施例提供的命名实体识别法的流程示意图;图2为本专利技术一实施例提供的命名实体识别装置的内部结构示意图;图3为本专利技术一实施例提供的命名实体识别方法程序的模块示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种命名实体识别方法。参照图1所示,为本专利技术一实施例提供的命名实体识别方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。在本实施例中,命名实体识别方法包括:S1、接收由待识别的原始语句组成的第一文本数据,并对所述第一文本数据进行预处理得到文本向量数据。本专利技术较佳实施例中,所述预处理包括对所述第一文本数据进行分词、去停用词、去重等操作。具体地,本专利技术对所述第一文本数据进行分词操作得到第二文本数据,对所述第二文本数据进行去停用词操作得到第三文本数据,对所述第三文本数据进行去重操作得到第四文本数据,对所述第四文本数据利用TF-IDF算法进行词向量形式转化,从而得到预处理完成后的所述文本向量数据。本专利技术收集大量待识别的原始语句,组成所述第一文本数据。文本数据是非结构化或半结构化的数据,不能被分类算法直接识别,而预处理的目的是将文本数据转化为向量空间模型:di=(w1,w2,...,wn),其中,wj为第j个特征词的权重。所述分词是对原始语句中的每句话进行切分得到单个的词,因为在汉语表示中,词和词之间没有明确的分隔标识,所以分词是必不可少的。对于中文文本,词语具有真实反映文档内容的能力,因此通常将词语作为向量空间模型中的文本特征词。但是中文文本不像英文文本那样词和词之间采用空格分开,因此需要首先对中文文本进行分词操作。较佳地,本文档来自技高网...

【技术保护点】
1.一种命名实体识别方法,其特征在于,所述方法包括:/n接收由待识别的原始语句组成的第一文本数据,并对所述第一文本数据进行预处理得到文本向量数据;/n获取具有多层结构的神经实体推理机识别模型;/n将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合;/n将所述文本向量数据和所述命名实体集合输入所述神经实体推理机识别模型中的推理机进行推理,得到命名实体。/n

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,所述方法包括:
接收由待识别的原始语句组成的第一文本数据,并对所述第一文本数据进行预处理得到文本向量数据;
获取具有多层结构的神经实体推理机识别模型;
将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合;
将所述文本向量数据和所述命名实体集合输入所述神经实体推理机识别模型中的推理机进行推理,得到命名实体。


2.如权利要求1所述的命名实体识别方法,其特征在于,所述神经实体推理机识别模型的每一层结构通过Bi-LSTM模型进行编码,并通过解码器进行解码,解码完成后的数据进入下一层结构再次进行编码和解码。


3.如权利要求2所述的命名实体识别方法,其特征在于,所述将所述文本向量数据输入所述神经实体推理机识别模型进行训练得到命名实体集合包括:
输入经过预处理的所述文本向量数据;
利用所述Bi-LSTM模型对所述文本向量数据进行编码,得到编码表示序列和初始命名实体,将所述初始命名实体加入候选池;
将所述编码表示序列和所述候选池中的所述初始命名实体输入所述推理机中进行处理,得到引用信息;
将所述编码表示序列和所述引用信息输入解码器,得到预测标签,根据所述预测标签更新所述候选池,得到所述命名实体集合。


4.如权利要求3所述的命名实体识别方法,其特征在于,所述解码器包括:



其中,X表示经过上述预处理的所述文本向量数据,y表示经过所述神经实体推理机识别模型训练后得到的所述预测标签,yi表示所述神经实体推理机识别模型中第i层的预测标签,xt表示在t时刻文本向量x的值。


5.如权利要求1~4中任一项所述的命名实体识别方法,其特征在于,所述对所述第一文本数据进行预处理得到文本向量数据包括:
对所述第一文本数据进行分词操作得到第二文本数据,对所述第二文本数据进行去停用词操作得到第三文本数据,对所述第三文本数据进行去重操作得到第四文本数据;
对所述第四文本数据利用TF-IDF算法进行词向量形式转化,得到所述文本...

【专利技术属性】
技术研发人员:金戈徐亮
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1