一种基于细粒度词表示模型的序列标注模型制造技术

技术编号：18783599 阅读：25 留言：0更新日期：2018-08-29 06:53

本发明专利技术提供了一种基于细粒度词表示模型的序列标注模型，用于进行序列标注任务，属于计算机应用及自然语言处理领域。本发明专利技术的模型结构主要由特征表示层、BiLSTM和CRF层3部分构成。利用该模型进行序列标注任务时，首先提出一种基于注意力机制的字符级词表示模型Finger来融合形态学信息和单词的字符信息，然后由Finger与BiLSTM‑CRF模型共同完成序列标注任务，最终该方法以端到端、无任何特征工程形式在CoNLL 2003数据集上取得了F1为91.09％的结果。实验表明本发明专利技术设计的Finger模型显著提升序列标注系统的召回率，从而使得模型的识别能力显著提升。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于细粒度词表示模型的序列标注模型
本专利技术属于计算机应用及自然语言处理领域，涉及一种基于注意力机制的字符级模型及其在序列标注任务的应用。本专利技术提出了一种基于细粒度词表示模型的序列标注模型。主要创新在于设计了一种基于注意力机制的细粒度词表示模型来更精准、全局、动态地刻画单词的形态学信息，进而提出了基于该词表示模型的序列标注模型。该模型不仅具有较高的序列标注能力，而且无需特征工程，同时具有很强的可解释性。
技术介绍
词性标注(Part-of-SpeechTagging)、命名实体识别(NamedEntityRecognition，NER)等序列标注任务是自然语言处理领域的基础工作。以NER为例，其主要任务是识别文本中的人名、地名、组织机构名等专有名词和有意义的时间、日期等短语。序列标注任务作为信息抽取中重要的组成部分，其识别效果对于后续的机器翻译等任务有很大影响。目前序列标注任务主要模型分为传统的统计机器学习模型和神经网络模型两类。常见的统计模型主要有隐马尔可夫模型(HiddenMarkovModel，HMM)和条件随机场(ConditionalRandomField，CRF)等浅层模型，其中CRF模型广泛应用于各种序列标注任务中，并取得了不错的效果。近年来，深度学习在自然语言处理领域中取得了重大的突破。与传统机器学习方法相比，神经网络模型在序列标注任务中取得了更好的结果。神经网络方法在使用大规模的未标注语料进行词向量训练，通过将预训练词向量输入到卷积神经网络(ConvolutionalNeuralNetwork，CNN)、循环神经网络(Recur...

【技术保护点】
1.一种基于细粒度词表示模型的序列标注模型，其特征在于，一种完全基于Attention机制的字符级词表示模型Finger来替代BiLSTM、CNN字符级模型，将Finger作为BiLSTM‑CRF模型的扩展，构造了新的命名实体识别模型Finger‑BiLSTM‑CRF；该模型主要由特征表示层、BiLSTM和CRF层3部分构成；(1)特征表示层：主要由词向量层和字符特征层组成；字符特征层由字符向量层和构建在字符向量层之上的基于注意力机制的Finger模型组成；词向量层和字符向量层分别接受单词和字符作为输入，分别将离散高维的独热表示映射到各自的稠密连续的低维特征空间中；Finger则将单词转换为字符序列表示，通过Attention机制建立形态学信息与字符信息间的关联，构成与词内结构相关的字符级向量；最后，将词向量和字符级向量进行拼接以表示单词在特定语义空间下的特征；(2)BiLSTM：由正向和反向的长短时记忆网络LSTM组成；正向和反向LSTM接收特征表示层的输出特征作为输入，分别编码当前时刻的上文和下文信息；两者的编码信息合并构成待解码的得分信息；(3)CRF：CRF层接受BiLSTM的...

【技术特征摘要】
1.一种基于细粒度词表示模型的序列标注模型，其特征在于，一种完全基于Attention机制的字符级词表示模型Finger来替代BiLSTM、CNN字符级模型，将Finger作为BiLSTM-CRF模型的扩展，构造了新的命名实体识别模型Finger-BiLSTM-CRF；该模型主要由特征表示层、BiLSTM和CRF层3部分构成；(1)特征表示层：主要由词向量层和字符特征层组成；字符特征层由字符向量层和构建在字符向量层之上的基于注意力机制的Finger模型组成；词向量层和字符向量层分别接受单词和字符作为输入，分别将离散高维的独热表示映射到各自的稠密连续的低维特征空间中；Finger则将单词转换为字符序列表示，通过Attention机制建立形态学信息与字符信息间的关联，构成与词内结构相关的字符级向量；最后，将词向量和字符级向量进行拼接以表示单词在特定语义空间下的特征；(2)BiLSTM：由正向和反向的长短时记忆网络LSTM组成；正向和反向LSTM接收特征表示层的输出特征作为输入，分别编码当前时刻的上文和下文信息；两者的编码信息合并构成待解码的得分信息；(3)CRF：CRF层接受BiLSTM的输出得分作为输入，同时引入转移得分矩阵，根据序列得分选择全局最优的标签序列。2.一种根据权利要求1所述的序列标注模型进行序列标注任务的方法，其特征在于，步骤如下：第一步，特征表示阶段特征表示层将输入的单词序列映射为实值的特征向量，特征向量捕获单词的句法信息、语义信息和形态学信息；定义一个固定大小的词典Vwrd和一个固定大小的字符集Vchr；给定长度为N的句子{w1,w2,...,wN}，将句子中每个单词wn映射为由词向量和字符级向量拼接而成的词表示其中词向量捕获单词的句法信息和语义信息，字符级向量表达词形信息；1)词向量层词向量矩阵中的第i列代表词典中第i个单词的词向量；如公式(1)所示，通过矩阵-向量乘法将单词wn映射为向量其中，向量是维数为|Vwrd|的独热表示；矩阵Wwrd为待学习参数，词向量维度dwrd为超参数；2)字符向量层给定一个由M个字符{c1,c2,...,cM}构成的单词wn，先将每个字符cm映射为字符向量和词向量层的表示过程是相同的，字符向量矩阵中的第j列代表字符集中的第j个字符的字符向量；如公式(2)所示，通过矩阵-向量乘法将字符cm映射为向量其中，向量是长度为|Vchr|的独热表示；矩阵Wchr为待学习参数，词向量维度dchr为超参数；单词的字符序列经过上述的线性映射，生成字符向量序列作为后续模型的输入；3)...

【专利技术属性】
技术研发人员：张绍武，林广和，杨亮，林鸿飞，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人