当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于深度学习的中文命名实体识别方法技术

技术编号:24207948 阅读:57 留言:0更新日期:2020-05-20 15:30
本发明专利技术涉及一种基于深度学习的中文命名实体识别方法,其特征在于:所述识别方法的步骤为:1)将数据文本进行字词位置信息混合向量嵌入;2)将步骤所得到的向量输入到Bi‑LSTM层进行向量编码,模拟时间序列捕获向量之间的长期关系;3)将Bi‑LSTM层输出的向量输入到自注意力层,明确学习句子中任意两个字符之间的依赖关系,并捕捉句子的内部结构信息;4)将输出的向量序列输入到CRF层,做出独立的标记决策,并进行标签解码。本发明专利技术设计科学合理,能够运行多数据集,同时适用性强、准确率高、且能够应用于多领域文本的命名实体识别模型。

A Chinese named entity recognition method based on deep learning

【技术实现步骤摘要】
一种基于深度学习的中文命名实体识别方法
本专利技术属于自然语言处理、知识图谱及序列标记
,涉及深度学习技术和序列标记技术,尤其是一种基于深度学习的中文命名实体识别方法。
技术介绍
命名实体识别属于序列标注领域的一种,是自然语言处理的基础任务,主要是指找出文本中的具有特定意义的实体,包括人名、地名、机构名以及一些特定的专有名词。识别的任务主要包括两部分:实体边界识别和确定其实体类别(人名、地名和组织机构名等),其中命名实体作为文本的基本元素,也是作为理解文章内容的基本单元。更多的,命名实体识别更是作为知识图谱等文本数据处理的上层基础任务,其中,命名实体识别的准确性直接影响到知识图谱构建最终的效果。知识图谱是建立在实体与实体之间的关系上的,如若实体抽取出现错误,必将导致后续实体关系的确定无法进行;自动文摘和问答系统也是同理,当要对句子进行语义分析时,必须找出文中的相关命名实体。因而,命名实体识别对于文本数据处理特别是自然语言处理极其关键和重要。目前,普遍适用的命名实体识别方法包括目前较为流行的命名实体识别模型有CRF模型,LSTM模型以及LSTM与CRF相结合的模型。相比于独立的单一模型,LSTM结合CRF的混合模型结合了两者的优势,既可以记忆长距离的序列之间的依赖关系,又利用了CRF标注的优势,所以在命名实体识别领域应用较广,本方法也是在其基础上进行优化改进的。Zhang等人在2019年研究了一种新的动态元嵌入方法,并将其应用到中文NER任务中。该方法创建动态的、特定于数据的和特定于任务的元嵌入,因为不同句子序列中的相同字符的元嵌入是不同的。在MSRA和LiteratureNER数据集上的实验验证了该模型的有效性,并在LiteratureNER上取得了最新的结果。虽然近年来的研究比较提出了比较多的方法,但是这些普遍没有在多数据集上产生好的结果,同时也没有适用性强、准确率高、能够应用于多领域的通用命名实体识别模型。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于深度学习的中文命名实体识别方法,能够运行多数据集,同时适用性强、准确率高、且能够应用于多领域文本的命名实体识别模型。本专利技术解决其技术问题是通过以下技术方案实现的:一种基于深度学习的中文命名实体识别方法,其特征在于:所述识别方法的步骤为:1)将数据文本进行字词位置信息混合向量嵌入;2)将步骤所得到的向量输入到Bi-LSTM层进行向量编码,模拟时间序列捕获向量之间的长期关系;3)将Bi-LSTM层输出的向量输入到自注意力层,明确学习句子中任意两个字符之间的依赖关系,并捕捉句子的内部结构信息;4)将输出的向量序列输入到CRF层,做出独立的标记决策,并进行标签解码。而且,所述步骤1)的具体操作为:a、根据训练数据集建立字典,可以得到每个字的one-hot向量,长度为字典长度V,然后通过一个look-up层,利用预训练的单字位置向量矩阵,将one-ho向量映射为低维稠密的向量;b、将词向量的三部分字符向量、分割为词的“字符”向量和字位置向量进行进行向量拼接,向量作为网络模型的输入,对于一个中文令牌序列X=(x1,x2,x3,…xn,)将检查在单词查找表和字符查找表中是否存在令牌X,当X存在于所有两个表中,即令牌由一个字符组成,将取两种嵌入项的向量组合作为令牌的分布式表示;否则,将只使用一个查找表中的嵌入作为嵌入层的输出,字位置向量初始化为该字所在词语的词向量。而且,所述步骤2)的具体操作为:将一个输入序列中各个字的字词混合向量作为网络的各个时间步输入到Bi-LSTM层,提取全局特征,通过双向LSTM网络,得到正向LSTM的隐含输出序列(h1,h2...hn)及反向LSTM的隐含输出序列将两组隐含序列按位置拼接获得完整的隐含序列将此隐含序列作为下一层的输入。而且,所述步骤3)的具体操作为:对于每一个时间步的输入,H=h1,h3,...hn表示B-iLSTM隐藏层的输出,根据多头注意力机制的原理,将输入向量经过一次线性变换后,并按比例缩放的dotproduct,注意力公式为:其中:为查询矩阵;为键矩阵;为值矩阵;d为Bi-LSTM的隐藏单位的维数,数值上等于2dh;设定Q=K=V=H,多头注意力首先通过使用不同的线性投影,将查询、键和值h进行线性投影,然后h投影并行执行缩放的点积注意,最后,将这些注意结果连接起来,并再次投影得到新的表示。而且,所述步骤4)的具体操作为:将结果接入CRF层,CRF层中包含一个转移矩阵,代表着各个标签之间的转移得分,CRF层中对每个字对应的标签的得分由两部分构成:LSTM模型输出的一元发射得分和CRF中的二元转移得分之和,通过CRF层中的转移矩阵,使得预测的标签之间添加合法的约束,增加标签语法的合理性,最后对标签的预测使用维特比解码推断出得分最高的标签序列。本专利技术的优点和有益效果为:本专利技术一种基于深度学习的中文命名实体识别方法,能够运行多数据集,同时适用性强、准确率高、且能够应用于多领域文本的命名实体识别模型中。附图说明图1为本专利技术的流程图;图2为本专利技术在MSRA数据集上迭代次数与模型F1值变化曲线图;图3为本专利技术在LiteratureNER数据集上迭代次数与模型F1值变化曲线图;图4为本专利技术在MSRA数据集上迭代次数与模型Accuracy值变化曲线图;图5为本专利技术在LiteratureNER数据集上迭代次数与模型Accuracy值变化曲线图。具体实施方式下面通过具体实施例对本专利技术作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本专利技术的保护范围。如图1所示,一种基于深度学习的中文命名实体识别方法,其特征在于:所述识别方法的步骤为:1)将数据文本进行字词位置信息混合向量嵌入;a、根据训练数据集建立字典,可以得到每个字的one-hot向量,长度为字典长度V,然后通过一个look-up层,利用预训练的单字位置向量矩阵,将one-ho向量映射为低维稠密的向量;b、将词向量的三部分字符向量、分割为词的“字符”向量和字位置向量进行进行向量拼接,向量作为网络模型的输入,对于一个中文令牌序列X=(x1,x2,x3,…xn,)将检查在单词查找表和字符查找表中是否存在令牌X,当X存在于所有两个表中,即令牌由一个字符组成,将取两种嵌入项的向量组合作为令牌的分布式表示;否则,将只使用一个查找表中的嵌入作为嵌入层的输出,字位置向量初始化为该字所在词语的词向量;2)将步骤所得到的向量输入到Bi-LSTM层进行向量编码,模拟时间序列捕获向量之间的长期关系;将一个输入序列中各个字的字词混合向量作为网络的各个时间步输入到Bi-LSTM层,提取全局特征,通过双向LSTM网络,得到正向LSTM的隐含输出序列(h1,h2...hn)及反本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的中文命名实体识别方法,其特征在于:所述识别方法的步骤为:/n1)将数据文本进行字词位置信息混合向量嵌入;/n2)将步骤所得到的向量输入到Bi-LSTM层进行向量编码,模拟时间序列捕获向量之间的长期关系;/n3)将Bi-LSTM层输出的向量输入到自注意力层,明确学习句子中任意两个字符之间的依赖关系,并捕捉句子的内部结构信息;/n4)将输出的向量序列输入到CRF层,做出独立的标记决策,并进行标签解码。/n

【技术特征摘要】
1.一种基于深度学习的中文命名实体识别方法,其特征在于:所述识别方法的步骤为:
1)将数据文本进行字词位置信息混合向量嵌入;
2)将步骤所得到的向量输入到Bi-LSTM层进行向量编码,模拟时间序列捕获向量之间的长期关系;
3)将Bi-LSTM层输出的向量输入到自注意力层,明确学习句子中任意两个字符之间的依赖关系,并捕捉句子的内部结构信息;
4)将输出的向量序列输入到CRF层,做出独立的标记决策,并进行标签解码。


2.根据权利要求1所述的基于深度学习的中文命名实体识别方法,其特征在于:所述步骤1)的具体操作为:
a、根据训练数据集建立字典,可以得到每个字的one-hot向量,长度为字典长度V,然后通过一个look-up层,利用预训练的单字位置向量矩阵,将one-ho向量映射为低维稠密的向量;
b、将词向量的三部分字符向量、分割为词的“字符”向量和字位置向量进行进行向量拼接,向量作为网络模型的输入,对于一个中文令牌序列
X=(x1,x2,x3,...xn,)
将检查在单词查找表和字符查找表中是否存在令牌X,当X存在于所有两个表中,即令牌由一个字符组成,将取两种嵌入项的向量组合作为令牌的分布式表示;否则,将只使用一个查找表中的嵌入作为嵌入层的输出,字位置向量初始化为该字所在词语的词向量。


3.根据权利要求1所述的基于深度学习的中文命名实体识别方法,其特征在于:所述步骤2)的具体操作为:将一个输入序列中各个字的字词混合向量作为网络的各个...

【专利技术属性】
技术研发人员:罗韬冯爽徐天一赵满坤于健喻梅于瑞国李雪威
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1