文本复合实体识别的方法和系统技术方案

技术编号：39814906 阅读：20 留言：0更新日期：2023-12-22 19:33

本发明专利技术涉及自然语言处理技术领域，公开一种文本复合实体识别的方法和系统，方法包括获取待识别的复合实体文本并进行预处理，对预处理后的文本进行分词处理；获取分词处理后的单词的词性，生成单词的词向量，根据所述单词的词性生成单词的词性向量；将词向量输入双向循环神经网络，将词性向量输入单向循环神经网络，融合双向循环神经网络和单向循环神经网络的输出得到识别结果；系统包括数据获取模块、分词模块、向量生成模块和识别模块。本发明专利技术可以充分挖掘词语和词性两种信息、提高复合实体识别的准确性。识别的准确性。识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本复合实体识别的方法和系统

[0001]本专利技术涉及自然语言处理
，尤其是指一种文本复合实体识别的方法和系统。

技术介绍

[0002]在自然语言中，文本信息中含有很多有价值和值得发掘的有效信息，如何发掘并提取出这些有效信息一直是自然语言处理领域中一个非常重要的研究方向。命名实体识别(Named Entity Recognition，NER)识别文本中具有特定意义的实体，是自然语言处理中的一项重要任务，有效挖掘文本中的实体信息对于自然语言处理中的其他任务例如信息提取、关系抽取等具有重要的意义。处理命名实体识别任务时，不仅要识别出实体属于哪一种类别，还要识别出实体的边界、即还需要确定实体包含哪些词语，目前主要通过神经网络模型来进行命名实体识别。
[0003]复合实体，是指除主实体词以外还包含其他实体修饰词的实体，例如：hematopoietic stem cell(造血干细胞)，其中主实体词为“stem cell(干细胞)”，“hematopoietic(造血的)”为修饰词，二者共同组成了一个复合实体。相对于传...

【技术保护点】

【技术特征摘要】
1.一种文本复合实体识别的方法，其特征在于，包括：获取待识别的复合实体文本并进行预处理，对预处理后的文本进行分词处理；获取分词处理后的单词的词性，生成单词的词向量，根据所述单词的词性生成单词的词性向量；将所述词向量输入双向循环神经网络，将所述词性向量输入单向循环神经网络，融合所述双向循环神经网络的输出和单向循环神经网络的输出得到识别结果。2.根据权利要求1所述的文本复合实体识别的方法，其特征在于：所述对预处理后的文本进行分词处理时，使用NLTK的tokenize分词工具包进行分词。3.根据权利要求1所述的文本复合实体识别的方法，其特征在于：所述获取分词处理后的单词的词性时，使用NLTK的tag工具包对单词进行词性标注。4.根据权利要求1所述的文本复合实体识别的方法，其特征在于：所述生成单词的词向量时，使用word2vec生成单词的词向量。5.根据权利要求1所述的文本复合实体识别的方法，其特征在于：根据所述单词的词性生成单词的词性向量时，对单词的词性进行one
‑
hot编码得到词性向量。6.根据权利要求1
‑
5任一项所述的文本复合实体识别的方法，其特征在于：将所述词向量输入双向循环神经网络时，所述双向循环神经网络在两个方向的输出和为：为：式中，U1、U2分别表示双向循环神经网络的两个方向的输入层到隐藏层的权重矩阵，x
t
表示时刻t的单词的词向量，W1、W2分别表示双向循环神经网络的两个方向的上一时刻t
‑
1隐藏层到当前时刻t隐藏层的权重矩阵，藏层到当前时刻t隐藏层的权重矩阵，分别表示双向循环神经网络的两个方向的上一时刻t
‑
1的双向循环神经网络的隐藏层的输出值，b1、b2分别表示双向循环神经网络的两个方向的偏置向量。7.根据权利要求6所述的文本复合实体识别的方法，其特征在于：将所述词...

【专利技术属性】
技术研发人员：张坤，陈建平，傅启明，陆珏萦，李华康，
申请(专利权)人：苏州派维斯信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人