一种基于细粒度词表示模型的序列标注模型制造技术

技术编号:18783599 阅读:25 留言:0更新日期:2018-08-29 06:53
本发明专利技术提供了一种基于细粒度词表示模型的序列标注模型,用于进行序列标注任务,属于计算机应用及自然语言处理领域。本发明专利技术的模型结构主要由特征表示层、BiLSTM和CRF层3部分构成。利用该模型进行序列标注任务时,首先提出一种基于注意力机制的字符级词表示模型Finger来融合形态学信息和单词的字符信息,然后由Finger与BiLSTM‑CRF模型共同完成序列标注任务,最终该方法以端到端、无任何特征工程形式在CoNLL 2003数据集上取得了F1为91.09%的结果。实验表明本发明专利技术设计的Finger模型显著提升序列标注系统的召回率,从而使得模型的识别能力显著提升。

【技术实现步骤摘要】
一种基于细粒度词表示模型的序列标注模型
本专利技术属于计算机应用及自然语言处理领域,涉及一种基于注意力机制的字符级模型及其在序列标注任务的应用。本专利技术提出了一种基于细粒度词表示模型的序列标注模型。主要创新在于设计了一种基于注意力机制的细粒度词表示模型来更精准、全局、动态地刻画单词的形态学信息,进而提出了基于该词表示模型的序列标注模型。该模型不仅具有较高的序列标注能力,而且无需特征工程,同时具有很强的可解释性。
技术介绍
词性标注(Part-of-SpeechTagging)、命名实体识别(NamedEntityRecognition,NER)等序列标注任务是自然语言处理领域的基础工作。以NER为例,其主要任务是识别文本中的人名、地名、组织机构名等专有名词和有意义的时间、日期等短语。序列标注任务作为信息抽取中重要的组成部分,其识别效果对于后续的机器翻译等任务有很大影响。目前序列标注任务主要模型分为传统的统计机器学习模型和神经网络模型两类。常见的统计模型主要有隐马尔可夫模型(HiddenMarkovModel,HMM)和条件随机场(ConditionalRandomField,CRF)等浅层模型,其中CRF模型广泛应用于各种序列标注任务中,并取得了不错的效果。近年来,深度学习在自然语言处理领域中取得了重大的突破。与传统机器学习方法相比,神经网络模型在序列标注任务中取得了更好的结果。神经网络方法在使用大规模的未标注语料进行词向量训练,通过将预训练词向量输入到卷积神经网络(ConvolutionalNeuralNetwork,CNN)、循环神经网络(RecurrentNeuralNetwork,RNN)等模型,实现了端到端的训练。在基于神经网络方法的NER任务中,Collobert等人采用CNN进行特征抽取,同时提出了一种句级对数似然函数(Sentence-levellog-likelihood),通过融合其它特征取得了不错的结果。Huang等人提出了BiLSTM-CRF模型,同时还融合了其他语言学特征以提升模型性能。在上述方法中,浅层模型采用了特征工程,但在其他领域和语言中泛化能力不佳;大部分神经网络模型尽管采用了语义丰富的词向量,自动学习任务相关的特征表示,但是没有考虑单词的结构信息,导致形态学信息缺失的问题。如何使模型能根据当前的任务自动学习形态学上的信息,从而提升实体识别性能成为近期研究的热点。在目前的序列标注任务中,研究自动学习词形信息的工作主要有Lample等人的双向长短时记忆网络(Bi-directionalLongShort-TermMemorynetwork,BiLSTM)和Chiu等人的CNN。Lample等人采用两个BiLSTM分别自动学习词级和字符级表示,在命名实体识别任务中取得了与先进水平可比的结果。Chiu等人提出采用CNN自动学习字符级表示,在一定程度上缓解了模型对于特征工程的依赖,同时还融合了由两个公开的外部资源构造的词典特征,在CoNLL2003英文NER语料上取得了F1为91.62%的目前最先进结果。尽管上述字符级表示模型在命名实体识别任务中取得了较好的进展,但是两者在理论上均无法全局、动态地定量表示单词内各字符在字符级词向量中的贡献。如何能全局、动态地定量刻画词内各字符的贡献以期产生一种更好的字符级表达方式是本专利技术的核心内容。近年来,注意力(Attention)机制广泛应用于机器翻译等自然语言处理领域中。在NER任务中,Rei等人采用一种类似门机制的Attention模型动态地选择词级信息和字符级信息作为模型的输入,相比于仅有词向量作为输入的方法,该方法在多个数据集上有了显著提升。Bharadwaj等人通过Attention机制针对输入单词的语义信息与词内字符信息之间的关联性进行全局性地建模,从而得到该单词的上下文表示。尽管Attention机制开始在NER任务中取得了一定的进展,但如何将Attention机制的动态性和全局性有效地融入字符级模型有待进一步探索。综合上述情况和近期Attention机制在自然语言处理领域上取得的进展,本专利技术提出了一种基于Attention机制的细粒度字符级词表示模型(Fine-grainedcharacter-levelwordrepresentationmodel,Finger)。Finger根据Attention机制产生的概率分布,重点关注对于单词的形态学信息表示起到关键作用的个别字符,从而充分捕获词内的结构信息,进而有助于提升系统的识别效果。在此基础上,我们结合BiLSTM-CRF模型构建了Finger-BiLSTM-CRF模型进行实体识别任务。该模型是基于BiLSTM-CRF模型的改进,结合解释性极强的Attention机制,构成了一种完全端到端、无任何特征工程的序列标注系统。
技术实现思路
本专利技术要解决的技术问题是如何通过字符级表示模型自动地、动态地、全局地学习形态学信息,其关键点在于如何合理利用注意力机制,从而得到细粒度的字符级词表示,进而联合BiLSTM-CRF模型进行序列标注任务。本专利技术的技术方案:一种基于细粒度词表示模型的序列标注模型,一种完全基于Attention机制的字符级词表示模型Finger来替代BiLSTM、CNN字符级模型,将Finger作为BiLSTM-CRF模型的扩展,构造了新的命名实体识别模型Finger-BiLSTM-CRF;该模型的结构见图1所示,主要由特征表示层、BiLSTM和CRF层3部分构成;(1)特征表示层:主要由词向量层和字符特征层组成;字符特征层由字符向量层和构建在字符向量层之上的基于注意力机制的Finger模型组成;词向量层和字符向量层分别接受单词和字符作为输入,分别将离散高维的独热表示映射到各自的稠密连续的低维特征空间中;Finger则将单词转换为字符序列表示,通过Attention机制建立形态学信息与字符信息间的关联,构成与词内结构相关的字符级向量;最后,将词向量和字符级向量进行拼接以表示单词在特定语义空间下的特征;(2)BiLSTM:由正向和反向的长短时记忆网络(LongShort-TermMemory,LSTM)组成;正向和反向LSTM接收特征表示层的输出特征作为输入,分别编码当前时刻的上文和下文信息;两者的编码信息合并构成待解码的得分信息;(3)CRF:CRF层接受BiLSTM的输出得分作为输入,同时引入转移得分矩阵,根据序列得分选择全局最优的标签序列;整个模型既融合了序列标注任务所需的词形信息,有助于模型对于实体的判断,又结合了BiLSTM对于单词的上下文信息的表示能力,还保留CRF层求解标签序列的全局最优解的能力,从而为模型产生最优结果创造了可能。一种采用序列标注模型进行序列标注任务的方法,步骤如下:第一步,特征表示阶段特征表示层将输入的单词序列映射为实值的特征向量,特征向量捕获单词的句法信息、语义信息和形态学信息;定义一个固定大小的词典Vwrd和一个固定大小的字符集Vchr;给定长度为N的句子{w1,w2,...,wN},将句子中每个单词wn映射为由词向量和字符级向量拼接而成的词表示其中词向量捕获单词的句法信息和语义信息,字符级向量表达词形信息;1)词向量层词向量矩本文档来自技高网
...

【技术保护点】
1.一种基于细粒度词表示模型的序列标注模型,其特征在于,一种完全基于Attention机制的字符级词表示模型Finger来替代BiLSTM、CNN字符级模型,将Finger作为BiLSTM‑CRF模型的扩展,构造了新的命名实体识别模型Finger‑BiLSTM‑CRF;该模型主要由特征表示层、BiLSTM和CRF层3部分构成;(1)特征表示层:主要由词向量层和字符特征层组成;字符特征层由字符向量层和构建在字符向量层之上的基于注意力机制的Finger模型组成;词向量层和字符向量层分别接受单词和字符作为输入,分别将离散高维的独热表示映射到各自的稠密连续的低维特征空间中;Finger则将单词转换为字符序列表示,通过Attention机制建立形态学信息与字符信息间的关联,构成与词内结构相关的字符级向量;最后,将词向量和字符级向量进行拼接以表示单词在特定语义空间下的特征;(2)BiLSTM:由正向和反向的长短时记忆网络LSTM组成;正向和反向LSTM接收特征表示层的输出特征作为输入,分别编码当前时刻的上文和下文信息;两者的编码信息合并构成待解码的得分信息;(3)CRF:CRF层接受BiLSTM的输出得分作为输入,同时引入转移得分矩阵,根据序列得分选择全局最优的标签序列。...

【技术特征摘要】
1.一种基于细粒度词表示模型的序列标注模型,其特征在于,一种完全基于Attention机制的字符级词表示模型Finger来替代BiLSTM、CNN字符级模型,将Finger作为BiLSTM-CRF模型的扩展,构造了新的命名实体识别模型Finger-BiLSTM-CRF;该模型主要由特征表示层、BiLSTM和CRF层3部分构成;(1)特征表示层:主要由词向量层和字符特征层组成;字符特征层由字符向量层和构建在字符向量层之上的基于注意力机制的Finger模型组成;词向量层和字符向量层分别接受单词和字符作为输入,分别将离散高维的独热表示映射到各自的稠密连续的低维特征空间中;Finger则将单词转换为字符序列表示,通过Attention机制建立形态学信息与字符信息间的关联,构成与词内结构相关的字符级向量;最后,将词向量和字符级向量进行拼接以表示单词在特定语义空间下的特征;(2)BiLSTM:由正向和反向的长短时记忆网络LSTM组成;正向和反向LSTM接收特征表示层的输出特征作为输入,分别编码当前时刻的上文和下文信息;两者的编码信息合并构成待解码的得分信息;(3)CRF:CRF层接受BiLSTM的输出得分作为输入,同时引入转移得分矩阵,根据序列得分选择全局最优的标签序列。2.一种根据权利要求1所述的序列标注模型进行序列标注任务的方法,其特征在于,步骤如下:第一步,特征表示阶段特征表示层将输入的单词序列映射为实值的特征向量,特征向量捕获单词的句法信息、语义信息和形态学信息;定义一个固定大小的词典Vwrd和一个固定大小的字符集Vchr;给定长度为N的句子{w1,w2,...,wN},将句子中每个单词wn映射为由词向量和字符级向量拼接而成的词表示其中词向量捕获单词的句法信息和语义信息,字符级向量表达词形信息;1)词向量层词向量矩阵中的第i列代表词典中第i个单词的词向量;如公式(1)所示,通过矩阵-向量乘法将单词wn映射为向量其中,向量是维数为|Vwrd|的独热表示;矩阵Wwrd为待学习参数,词向量维度dwrd为超参数;2)字符向量层给定一个由M个字符{c1,c2,...,cM}构成的单词wn,先将每个字符cm映射为字符向量和词向量层的表示过程是相同的,字符向量矩阵中的第j列代表字符集中的第j个字符的字符向量;如公式(2)所示,通过矩阵-向量乘法将字符cm映射为向量其中,向量是长度为|Vchr|的独热表示;矩阵Wchr为待学习参数,词向量维度dchr为超参数;单词的字符序列经过上述的线性映射,生成字符向量序列作为后续模型的输入;3)...

【专利技术属性】
技术研发人员:张绍武林广和杨亮林鸿飞
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1