一种英文文本的命名实体识别方法技术

技术编号：24996901 阅读：106 留言：0更新日期：2020-07-24 17:59

本发明专利技术公开了一种英文文本的命名实体识别方法，包括步骤：收集英文文本的命名实体识别的数据集；对收集的数据集进行预处理，标注数据集中每个词语的词性；对于输入到模型的语句，获得语句中的词语信息，包括词语的词向量、字符序列信息、词性序列信息；将获得的三种词语信息拼接起来，输入到LSTM网络中，获得LSTM网络的输出的特征；将得到的LSTM网络的输出特征输入到CRF中，获得最终预测的实体。本发明专利技术考虑了输入文本中词语的词性信息，通过在模型中加入词性信息，可以提升模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种英文文本的命名实体识别方法
本专利技术涉及自然语言处理
，尤其涉及一一种英文文本的命名实体识别方法。
技术介绍
在自然语言中，文本信息中含有很多有价值和值得发掘的有效信息。因此如何发掘并提取出这些有效信息一直是自然语言处理领域中一个非常重要的研究任务。如果可以很好的发掘出这些有效信息，就能够很好地促进自然语言处理中的其他任务，例如对话系统和问答系统等。命名实体识别是自然语言处理中一个非常重要的任务，挖掘文本中的实体信息对于问答系统、信息提取以及关系抽取等任务而言有着重要意义。命名实体识别任务中，需要定位和标注文本中提及的具有一定意义的实体，对于这些实体，不仅仅要识别出实体属于哪一种类别，还要识别出实体的边界，即对于某个实体，还需要确定其包含哪些词语。而且，在命名实体识别研究中，还面临训练数据少、对于可以组成实体的词语约束少等问题，使得命名实体识别任务面临很大的挑战。另外，在早期命名实体识别任务的研究中，很多研究方法是基于机器学习方法提出的，例如：使用支持向量机、条件随机场和决策树等，这些研究方法需要依赖手工...

【技术保护点】
1.一种英文文本的命名实体识别方法，其特征在于，包括步骤：/n收集英文文本的命名实体识别的数据集；/n对收集的数据集进行预处理，标注数据集中每个词语的词性；/n对于输入到模型的语句，获得语句中的词语信息，包括词语的词向量、字符序列信息、词性序列信息；/n将获得的三种词语信息拼接起来，输入到LSTM网络中，获得LSTM网络的输出的特征；/n将得到的LSTM网络的输出特征输入到CRF中，获得最终预测的实体。/n

【技术特征摘要】
1.一种英文文本的命名实体识别方法，其特征在于，包括步骤：
收集英文文本的命名实体识别的数据集；
对收集的数据集进行预处理，标注数据集中每个词语的词性；
对于输入到模型的语句，获得语句中的词语信息，包括词语的词向量、字符序列信息、词性序列信息；
将获得的三种词语信息拼接起来，输入到LSTM网络中，获得LSTM网络的输出的特征；
将得到的LSTM网络的输出特征输入到CRF中，获得最终预测的实体。

2.根据权利要求1所述的方法，其特征在于，标注数据集中每个词语的词性通过利用现有的词性标注工具对收集的英文数据集中的词语进行词性标注工作，从而获得每个词语的词性信息。

3.根据权利要求1所述的方法，其特征在于，所述词语的词向量的获取方法为：
统计出数据集中出现的所有词语，将其存储在一个列表中，列表中统计的词语是不重复的；
依次遍历列表中的词语，将其存储在字典Dw中，其中字典的键为词语本身，字典的值为词语在列表中的下标；
建立一个词语的词向量矩阵，矩阵的行数为字典中词语的数量，矩阵的列数为词向量的维度；
依次遍历字典中的所有词语，对于某个词语，如果在预训练的词向量文件中含有该词语相应的向量表示，则在词向量矩阵中加入该词语的向量表示；如果预训练的词向量文件中不含该词语的向量表示，则随机初始化该词语的向量表示，并将该随机初始化的向量表示加入到词向量矩阵中；
获得的词语的词向量矩阵表示为：

其中，r为矩阵的行数，即字典中词语的数量，t为矩阵的列数，即词向量的维度，矩阵中每一行都是一个词语对应的词向量表示；
因此对于输入模型的语句X，由词序列(x1,x2,…,xn)构成，语句中的词语xi可以在Dw中找到其相应的下标值，根据找到的下标值，在词向量矩阵为W中找到该词语的相应的词向量表示。

4.根据权利要求1所述的方法，其特征在于，所述字符序列信息的获取方法为：
统计出数据集中出现的所有字符，将其存储在一个列表中，列表中统计的字符是不重复的；
依次遍历列表中的字符，将其存储在字典Dc中，其中字典的键为字符本身，字典的值为字符在列表中的下标；
建立一个随机初始化的字符向量矩阵，矩阵的行数为字典中字符的数量，矩阵的列数为字符向量的维度；
字符的字符向量矩阵表示为：

其中，j为矩阵的行数，l为矩阵的列数，矩阵中每一行都是一个字符对应的字符向量表示；因此对于输入模型的词语x，由字符序列(c1,c2,…,cn)构成，词语x中的字符ci可以在Dc中找到其相应的下标值，根据找到的下标值，可以在字符向量矩阵C中找到该字符的相应的字符向量表示；
对于词语x，将其字符序列中的每个字符转换为其向量表示后输入到双向LSTM网络中，对于前向LSTM，得到隐藏状态序列为：

对于后向LSTM，得到隐藏状态序列为：

然后将前向LSTM和后向LSTM获得的最后一个隐藏状态表示拼接起来，得到词语的字符序列表示信息：

因此zc即为词语的字符序列表示信息。

5.根据权利要求1所述的方法，其特征在于，所述词性序列信息的获取方法为：
统计出数据集中...

【专利技术属性】
技术研发人员：蔡毅，曹晋，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人