【技术实现步骤摘要】
一种基于动态图卷积的嵌套命名实体识别方法
[0001]本专利技术涉及计算机语料识别处理
,尤其涉及到嵌套命名实体识别技术。
技术介绍
[0002]嵌套命名实体识别任务是问答系统、信息检索、文本摘要等自然语言处理任务的主要组成部分之一,其目标在于识别出存在嵌套情况的长实体中的短实体,在新闻广播语料中37%的句子存在嵌套实体情况,在生物医学文献语料库中大约17%的实体嵌入在另一个实体中,可见实体嵌套情况在现有语料中占有不可忽视的份额。嵌套实体的识别可用于捕获更细粒度的语义信息,能够更好的服务涉及检索的自然语言应用。
[0003]命名实体识别研究所采用的主要方法是基于序列标记的模型,采用序列特征模型如长短时记忆网络等结合条件随机场模型对输入文本的每一个英文字符串或中文字符输出一个最大概率的序列标签,但这些方法在处理嵌套情况时取得效果并不理想。
[0004]近年来针对嵌套实体现象,也提出了相应的模型结构。如早期提出基于规则的模型,该模型通过领域专家制定相应的实体结构规则进行实体预测。但是,基于规则的方法因个体认 ...
【技术保护点】
【技术特征摘要】
1.一种基于动态图卷积的嵌套命名实体识别方法,其特征在于,包括以下步骤:S1:针对自然语言文本,采用知识表示技术,进行文本特征的映射与表征;S2:依据文本的词性依赖信息,利用图结构建模语法关系图;S3:采用动态图卷积方式,抽取文本本体属性特征及语义相似性特征;S4:使用两阶段识别策略进行实体的定位和分类。2.根据权利要求1所述的基于动态图卷积的嵌套命名实体识别方法,其特征在于,所述步骤S1包括如下步骤:S11:以数据集中每一条给定序列为单位,数据集为文本数据,序列是以句号结尾的完整句子,对序列中的每个单词,通过卷积神经网络表示为字符向量构成的词矩阵,然后对词矩阵进行常规的一层卷积操作,并采用最大池化的方式获得字符级向量;S12:采用BERT预训练词向量表得到词级向量;S13:将得到的字符级及词级向量进行拼接,再通过双向长短时记忆网络进行上下文特征抽取,得到完成初始化的向量表示;S14:将输入的单词序列逆序输入到长短时记忆LSTM网络中,得到反向词向量表示,将前向单词编码和反向单词编码结果进行拼接,得到单词上下文特征编码的输出。3.根据权利要求2所述基于动态图卷积的嵌套命名实体识别方法,其特征在于,所述步骤S2包括:S21:句子序列中每个单词将作为图中一个节点,依据顺序关系,为上下文中的前后单词节点构建顺序边,得到顺序图邻接矩阵;边不具有方向性,表示正反两个方向的信息均可传递;S22:采用NLTK库中的词性解析器解码得到词性关系,为具有高频词性依赖关系单词节点构建边,并将依赖强度作为权重值赋予边,由此得到词性依赖图邻接矩阵,所谓高频词性依赖关系是指词性之间的依赖组合关系满足一定的统计频率...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。