一种英文文本的命名实体识别方法技术

技术编号:24996901 阅读:97 留言:0更新日期:2020-07-24 17:59
本发明专利技术公开了一种英文文本的命名实体识别方法,包括步骤:收集英文文本的命名实体识别的数据集;对收集的数据集进行预处理,标注数据集中每个词语的词性;对于输入到模型的语句,获得语句中的词语信息,包括词语的词向量、字符序列信息、词性序列信息;将获得的三种词语信息拼接起来,输入到LSTM网络中,获得LSTM网络的输出的特征;将得到的LSTM网络的输出特征输入到CRF中,获得最终预测的实体。本发明专利技术考虑了输入文本中词语的词性信息,通过在模型中加入词性信息,可以提升模型的性能。

【技术实现步骤摘要】
一种英文文本的命名实体识别方法
本专利技术涉及自然语言处理
,尤其涉及一一种英文文本的命名实体识别方法。
技术介绍
在自然语言中,文本信息中含有很多有价值和值得发掘的有效信息。因此如何发掘并提取出这些有效信息一直是自然语言处理领域中一个非常重要的研究任务。如果可以很好的发掘出这些有效信息,就能够很好地促进自然语言处理中的其他任务,例如对话系统和问答系统等。命名实体识别是自然语言处理中一个非常重要的任务,挖掘文本中的实体信息对于问答系统、信息提取以及关系抽取等任务而言有着重要意义。命名实体识别任务中,需要定位和标注文本中提及的具有一定意义的实体,对于这些实体,不仅仅要识别出实体属于哪一种类别,还要识别出实体的边界,即对于某个实体,还需要确定其包含哪些词语。而且,在命名实体识别研究中,还面临训练数据少、对于可以组成实体的词语约束少等问题,使得命名实体识别任务面临很大的挑战。另外,在早期命名实体识别任务的研究中,很多研究方法是基于机器学习方法提出的,例如:使用支持向量机、条件随机场和决策树等,这些研究方法需要依赖手工构建的特征,且很难取得令人满意的性能。近些年来,主要方法主要是利用神经网络模型来处理命名实体识别任务。最近,很多研究都提出了使用长短期记忆网络(LSTM)来处理命名实体识别任务,后来,又在LSTM层之上加入了条件随机场(CRF)层,使得模型性能进一步得到提高。在之前英文的命名实体识别方法中,有基于词(Word)的模型结构,在这种模型中,用词向量来表示词语,也有基于词和字符(Character+Word)的模型结构,在这种模型结构中加入了词语的字符序列信息。但是对于词语而言,词语本身的词性信息也是一个非常重要的信息。在命名实体识别任务中,词性为名词的词语相较于其他词性的词语,更有可能成为一个实体,因此考虑词性信息是非常有必要的。如果可以在模型中加入这个重要的信息,能够提升模型性能。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种英文文本的命名实体识别方法。本专利技术在处理英文命名实体识别任务时,在考虑词语表示时,不仅仅考虑词向量和词语的字符序列信息,还会考虑词语本身的词性信息。本专利技术通过LSTM来提取输入语句序列的词性信息并加入到模型中。本专利技术相较于现有技术,能够得到含有更加丰富信息的词语表示,从而使得识别文本中的实体的能力得到增强,算法性能也得到了提升。本专利技术的目的能够通过以下技术方案实现:一种英文文本的命名实体识别方法,包括步骤:收集英文文本的命名实体识别的数据集;对收集的数据集进行预处理,标注数据集中每个词语的词性;对于输入到模型的语句,获取语句中的词语信息,词语信息包括词语的词向量、字符序列信息和词性序列信息;将获得的三种词语信息拼接起来,输入到LSTM网络中,获得LSTM网络的输出特征;将得到的输出特征输入到CRF中,获得最终预测的实体。本专利技术相较于现有技术,具有以下的有益效果:1、本专利技术通过LSTM提取词性信息后,加入了词语的词性信息,能够丰富词语的表示信息,并能够更好地识别出文本中的实体信息,提高了算法性能。附图说明图1为本专利技术实施例中提取词语字符序列信息的模型结构示意图。图2为本专利技术实施例中提取词性标签序列信息的模型结构示意图。图3为本专利技术实施例中识别实体的模型结构示意图。具体实施方式下面结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。实施例本实施例提供了一种适用于英文文本的基于词性信息的命名实体识别方法,所述方法包括以下步骤:(1)收集英文文本的命名实体识别的数据集;(2)对收集的数据集进行预处理,预处理为标注数据集中每个词语的词性;(3)对于输入到模型的语句,获得语句中的词语信息,包括词语的词向量、字符序列信息、词性序列信息;(4)将获得的三种词语信息拼接起来,输入到LSTM网络中,获得LSTM网络的输出的特征;(5)将得到的LSTM网络的输出特征输入到CRF中,获得最终预测的实体。在本专利技术中,所述模型为LSTM-CRF模型,模型如图3所示,第一层是词表示层,用于将词嵌入、字符序列表示以及词性标签表示进行拼接,第二层是LSTM网络,用于提取输入语句的特征。第三层是CRF层,用于输出预测结果。具体地,所述步骤(2)中标注数据集中每个词语的词性的方法为:利用现有的词性标注工具,例如StanfordLog-linearPart-Of-SpeechTagger,对收集的英文数据集中的词语进行词性标注工作,从而获得每个词语的词性信息。具体地,所述步骤(3)中获得语句中词语的词向量、字符序列信息、词性序列信息,包括:词语的词向量的获取方法为:统计出数据集中出现的所有词语,将其存储在一个列表中,列表中统计的词语是不重复的;依次遍历列表中的词语,将其存储在字典Dw中,其中字典的键为词语本身,字典的值为词语在列表中的下标;建立一个词语的词向量矩阵,矩阵的行数为字典中词语的数量,矩阵的列数为词向量的维度;依次遍历字典中的所有词语,对于某个词语,如果在预训练的词向量文件中含有该词语相应的向量表示,则在词向量矩阵中加入该词语的向量表示;如果预训练的词向量文件中不含该词语的向量表示,则随机初始化该词语的向量表示,并将该随机初始化的向量表示加入到词向量矩阵中。其中,预训练的词向量文件采用现有的预训练词向量文件,如word2vec或glove。得到的词语的词向量矩阵表示为:其中,r为矩阵的行数(字典中词语的数量),t为矩阵的列数(词向量的维度),矩阵中每一行都是一个词语对应的词向量表示,并且矩阵的行按照词语下标顺序进行排列。因此对于输入模型的语句X,由词序列(x1,x2,…,xn)构成,语句中的词语xi可以在字典Dw中找到其相应的下标值,根据找到的下标值,在词向量矩阵为W中找到该词语的相应的词向量表示。具体地,字符序列信息的获取方法为:统计出数据集中出现的所有字符,将其存储在一个列表中,列表中统计的字符是不重复的;依次遍历列表中的字符,将其存储在字典Dc中,其中字典的键为字符本身,字典的值为字符在列表中的下标;建立一个随机初始化的字符向量矩阵,矩阵的行数为字典中字符的数量,矩阵的列数为字符向量的维度。得到的字符向量矩阵表示为:其中,j为矩阵的行数(字典中字符的数量),l为矩阵的列数(字符向量的维度),矩阵中每一行都是一个字符对应的字符向量表示,并且矩阵的行按照字符向量下标顺序进行排列。因此对于输入模型的词语x,由字符序列(c1,c2,…,cn)构成,词语x中的字符ci可以在Dc中找到其相应的下标值,根据找到的下标值,可以在字符向量矩阵C中找到该字符的相应的字符向量表示。对于词语x,将其字符序列中的每个字符转换为其向量表示后输入到双向LSTM网络中,本文档来自技高网
...

【技术保护点】
1.一种英文文本的命名实体识别方法,其特征在于,包括步骤:/n收集英文文本的命名实体识别的数据集;/n对收集的数据集进行预处理,标注数据集中每个词语的词性;/n对于输入到模型的语句,获得语句中的词语信息,包括词语的词向量、字符序列信息、词性序列信息;/n将获得的三种词语信息拼接起来,输入到LSTM网络中,获得LSTM网络的输出的特征;/n将得到的LSTM网络的输出特征输入到CRF中,获得最终预测的实体。/n

【技术特征摘要】
1.一种英文文本的命名实体识别方法,其特征在于,包括步骤:
收集英文文本的命名实体识别的数据集;
对收集的数据集进行预处理,标注数据集中每个词语的词性;
对于输入到模型的语句,获得语句中的词语信息,包括词语的词向量、字符序列信息、词性序列信息;
将获得的三种词语信息拼接起来,输入到LSTM网络中,获得LSTM网络的输出的特征;
将得到的LSTM网络的输出特征输入到CRF中,获得最终预测的实体。


2.根据权利要求1所述的方法,其特征在于,标注数据集中每个词语的词性通过利用现有的词性标注工具对收集的英文数据集中的词语进行词性标注工作,从而获得每个词语的词性信息。


3.根据权利要求1所述的方法,其特征在于,所述词语的词向量的获取方法为:
统计出数据集中出现的所有词语,将其存储在一个列表中,列表中统计的词语是不重复的;
依次遍历列表中的词语,将其存储在字典Dw中,其中字典的键为词语本身,字典的值为词语在列表中的下标;
建立一个词语的词向量矩阵,矩阵的行数为字典中词语的数量,矩阵的列数为词向量的维度;
依次遍历字典中的所有词语,对于某个词语,如果在预训练的词向量文件中含有该词语相应的向量表示,则在词向量矩阵中加入该词语的向量表示;如果预训练的词向量文件中不含该词语的向量表示,则随机初始化该词语的向量表示,并将该随机初始化的向量表示加入到词向量矩阵中;
获得的词语的词向量矩阵表示为:



其中,r为矩阵的行数,即字典中词语的数量,t为矩阵的列数,即词向量的维度,矩阵中每一行都是一个词语对应的词向量表示;
因此对于输入模型的语句X,由词序列(x1,x2,…,xn)构成,语句中的词语xi可以在Dw中找到其相应的下标值,根据找到的下标值,在词向量矩阵为W中找到该词语的相应的词向量表示。


4.根据权利要求1所述的方法,其特征在于,所述字符序列信息的获取方法为:
统计出数据集中出现的所有字符,将其存储在一个列表中,列表中统计的字符是不重复的;
依次遍历列表中的字符,将其存储在字典Dc中,其中字典的键为字符本身,字典的值为字符在列表中的下标;
建立一个随机初始化的字符向量矩阵,矩阵的行数为字典中字符的数量,矩阵的列数为字符向量的维度;
字符的字符向量矩阵表示为:



其中,j为矩阵的行数,l为矩阵的列数,矩阵中每一行都是一个字符对应的字符向量表示;因此对于输入模型的词语x,由字符序列(c1,c2,…,cn)构成,词语x中的字符ci可以在Dc中找到其相应的下标值,根据找到的下标值,可以在字符向量矩阵C中找到该字符的相应的字符向量表示;
对于词语x,将其字符序列中的每个字符转换为其向量表示后输入到双向LSTM网络中,对于前向LSTM,得到隐藏状态序列为:



对于后向LSTM,得到隐藏状态序列为:



然后将前向LSTM和后向LSTM获得的最后一个隐藏状态表示拼接起来,得到词语的字符序列表示信息:



因此zc即为词语的字符序列表示信息。


5.根据权利要求1所述的方法,其特征在于,所述词性序列信息的获取方法为:
统计出数据集中...

【专利技术属性】
技术研发人员:蔡毅曹晋
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1