文本复合实体识别的方法和系统技术方案

技术编号:39814906 阅读:6 留言:0更新日期:2023-12-22 19:33
本发明专利技术涉及自然语言处理技术领域,公开一种文本复合实体识别的方法和系统,方法包括获取待识别的复合实体文本并进行预处理,对预处理后的文本进行分词处理;获取分词处理后的单词的词性,生成单词的词向量,根据所述单词的词性生成单词的词性向量;将词向量输入双向循环神经网络,将词性向量输入单向循环神经网络,融合双向循环神经网络和单向循环神经网络的输出得到识别结果;系统包括数据获取模块、分词模块、向量生成模块和识别模块。本发明专利技术可以充分挖掘词语和词性两种信息、提高复合实体识别的准确性。识别的准确性。识别的准确性。

【技术实现步骤摘要】
文本复合实体识别的方法和系统


[0001]本专利技术涉及自然语言处理
,尤其是指一种文本复合实体识别的方法和系统。

技术介绍

[0002]在自然语言中,文本信息中含有很多有价值和值得发掘的有效信息,如何发掘并提取出这些有效信息一直是自然语言处理领域中一个非常重要的研究方向。命名实体识别(Named Entity Recognition,NER)识别文本中具有特定意义的实体,是自然语言处理中的一项重要任务,有效挖掘文本中的实体信息对于自然语言处理中的其他任务例如信息提取、关系抽取等具有重要的意义。处理命名实体识别任务时,不仅要识别出实体属于哪一种类别,还要识别出实体的边界、即还需要确定实体包含哪些词语,目前主要通过神经网络模型来进行命名实体识别。
[0003]复合实体,是指除主实体词以外还包含其他实体修饰词的实体,例如:hematopoietic stem cell(造血干细胞),其中主实体词为“stem cell(干细胞)”,“hematopoietic(造血的)”为修饰词,二者共同组成了一个复合实体。相对于传统的命名实体识别,复合实体的识别边界更难以确定。对于英文文本复合实体的识别,通常使用的方法是对实体进行最小细粒度的划分,再将主实体词和对应修饰词打包,相应地,这种方法给打包技术提出了较高的要求。但是,现有技术中通过神经网络模型实现复合实体识别的研究不多,并且识别效果有限。
[0004]在现有的英文文本的命名实体识别方法中,主要有基于词的模型结构、基于词和字符的模型结构两种。在基于词的模型结构中,用词向量来表示词语;在基于词和字符的模型结构中,在用词向量来表示词语的基础上加入了词语的字符序列信息。在复合实体识别任务中,复合实体的结构通常为词性为形容词加上名词的组合,但是现有的基于词的模型结构、或者基于词和字符的模型结构这两种方法都忽略了词语本身的词性信息,而词语本身的词性信息是一个非常重要的信息。

技术实现思路

[0005]为此,本专利技术所要解决的技术问题在于克服现有技术中的不足,提供一种文本复合实体识别的方法和系统,可以充分挖掘词语和词性两种信息、提高复合实体识别的准确性。
[0006]为解决上述技术问题,本专利技术提供了一种文本复合实体识别的方法,包括:
[0007]获取待识别的复合实体文本并进行预处理,对预处理后的文本进行分词处理;
[0008]获取分词处理后的单词的词性,生成单词的词向量,根据所述单词的词性生成单词的词性向量;
[0009]将所述词向量输入双向循环神经网络,将所述词性向量输入单向循环神经网络,融合所述双向循环神经网络的输出和单向循环神经网络的输出得到识别结果。
[0010]在本专利技术的一个实施例中,所述对预处理后的文本进行分词处理时,使用NLTK的tokenize分词工具包进行分词。
[0011]在本专利技术的一个实施例中,所述获取分词处理后的单词的词性时,使用NLTK的tag工具包对单词进行词性标注。
[0012]在本专利技术的一个实施例中,所述生成单词的词向量时,使用word2vec生成单词的词向量。
[0013]在本专利技术的一个实施例中,根据所述单词的词性生成单词的词性向量时,对单词的词性进行one

hot编码得到词性向量。
[0014]在本专利技术的一个实施例中,将所述词向量输入双向循环神经网络时,所述双向循环神经网络在两个方向的输出和为:
[0015][0016][0017]式中,U1、U2分别表示双向循环神经网络的两个方向的输入层到隐藏层的权重矩阵,x
t
表示时刻t的单词的词向量,W1、W2分别表示双向循环神经网络的两个方向的上一时刻t

1隐藏层到当前时刻t隐藏层的权重矩阵,1隐藏层到当前时刻t隐藏层的权重矩阵,分别表示双向循环神经网络的两个方向的上一时刻t

1的双向循环神经网络的隐藏层的输出值,b1、b2分别表示双向循环神经网络的两个方向的偏置向量。
[0018]在本专利技术的一个实施例中,将所述词性向量输入单向循环神经网络,所述单向循环神经网络的输出为:
[0019][0020]式中,U3表示单向循环神经网络的输入层到隐藏层的权重矩阵,x
t

表示时刻t的单词的词性向量,W3表示单向循环神经网络的上一时刻t

1隐藏层到当前时刻t隐藏层的权重矩阵,表示单向循环神经网络的上一时刻t

1的单向循环神经网络的隐藏层的输出值,b3表示单向循环神经网络的偏置向量。
[0021]在本专利技术的一个实施例中,融合所述双向循环神经网络的输出和单向循环神经网络的输出得到识别结果,具体为:
[0022]拼接所述双向循环神经网络的输出和单向循环神经网络的输出得到o
t
为:
[0023][0024]式中,softmax()表示softmax函数操作,V表示拼接层到输出层的权重矩阵,c表示偏置向量;
[0025]根据所述o
t
得到待识别的复合实体文本的实体标签。
[0026]本专利技术还提供了一种文本复合实体识别的系统,包括数据获取模块、分词模块、向量生成模块和识别模块,
[0027]所述数据获取模块获取待识别的复合实体文本并进行预处理,将预处理后的文本传送给所述分词模块;
[0028]所述分词模块对预处理后的文本进行分词处理,将分词处理后的单词传送给所述
向量生成模块;
[0029]所述向量生成模块生成单词的词向量,根据所述单词的词性生成单词的词性向量,将所述词向量和所述词性向量传送给所述识别模块;
[0030]所述识别模块将所述词向量输入双向循环神经网络,将所述词性向量输入单向循环神经网络,融合所述双向循环神经网络的输出和单向循环神经网络的输出得到识别结果。
[0031]本专利技术还提供了一种文本复合实体识别的设备,包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的文本复合实体识别的方法的步骤。
[0032]本专利技术的上述技术方案相比现有技术具有以下优点:
[0033]本专利技术结合了词语和词性两种数据特征,分别使用双向循环网络和单向循环网络对文本的词语和词性进行特征训练,在此基础上融合训练结果得到复合实体的识别结果,充分挖掘了词语和词性两种信息,可以有效提高复合实体识别的准确性。
附图说明
[0034]为了使本专利技术的内容更容易被清楚的理解,下面根据本专利技术的具体实施例并结合附图,对本专利技术作进一步详细的说明,其中:
[0035]图1是本专利技术方法的流程图,
[0036]图2是本专利技术中的网络模型的结构示意图。
具体实施方式
[0037]下面结合附图和具体实施例对本专利技术作进一步说明,以使本领域的技术人员可以更好地理解本专利技术并能予以实施,但所举实施例不作为对本专利技术的限定。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本复合实体识别的方法,其特征在于,包括:获取待识别的复合实体文本并进行预处理,对预处理后的文本进行分词处理;获取分词处理后的单词的词性,生成单词的词向量,根据所述单词的词性生成单词的词性向量;将所述词向量输入双向循环神经网络,将所述词性向量输入单向循环神经网络,融合所述双向循环神经网络的输出和单向循环神经网络的输出得到识别结果。2.根据权利要求1所述的文本复合实体识别的方法,其特征在于:所述对预处理后的文本进行分词处理时,使用NLTK的tokenize分词工具包进行分词。3.根据权利要求1所述的文本复合实体识别的方法,其特征在于:所述获取分词处理后的单词的词性时,使用NLTK的tag工具包对单词进行词性标注。4.根据权利要求1所述的文本复合实体识别的方法,其特征在于:所述生成单词的词向量时,使用word2vec生成单词的词向量。5.根据权利要求1所述的文本复合实体识别的方法,其特征在于:根据所述单词的词性生成单词的词性向量时,对单词的词性进行one

hot编码得到词性向量。6.根据权利要求1

5任一项所述的文本复合实体识别的方法,其特征在于:将所述词向量输入双向循环神经网络时,所述双向循环神经网络在两个方向的输出和为:为:式中,U1、U2分别表示双向循环神经网络的两个方向的输入层到隐藏层的权重矩阵,x
t
表示时刻t的单词的词向量,W1、W2分别表示双向循环神经网络的两个方向的上一时刻t

1隐藏层到当前时刻t隐藏层的权重矩阵,藏层到当前时刻t隐藏层的权重矩阵,分别表示双向循环神经网络的两个方向的上一时刻t

1的双向循环神经网络的隐藏层的输出值,b1、b2分别表示双向循环神经网络的两个方向的偏置向量。7.根据权利要求6所述的文本复合实体识别的方法,其特征在于:将所述词...

【专利技术属性】
技术研发人员:张坤陈建平傅启明陆珏萦李华康
申请(专利权)人:苏州派维斯信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1