一种利用跨语言信息的序列标注方法技术

技术编号:24498795 阅读:32 留言:0更新日期:2020-06-13 04:09
本发明专利技术公开了一种利用跨语言信息的序列标注方法,通过翻译模型作为纽带将目标语言(高资源语言)下序列标注模型提取的特征迁移到源语言(低资源语言)下序列标注模型中,同时采用反向注意力的机制,通过翻译模型自动学得的注意力参数用来将不同语言间的单词对齐,并通过该机制迁移在目标语言下抽取出来的语言特征。该方法采用端到端模式,模型输入为自然语言句子,输出为标记结果,使用该发明专利技术无需进行其他额外处理,方便实际研究与使用,在当前的主流数据集上取得了很好的标注效果。

A sequence annotation method using cross language information

【技术实现步骤摘要】
一种利用跨语言信息的序列标注方法
本专利技术涉及序列标注
,尤其涉及一种利用跨语言信息的序列标注方法。
技术介绍
随着互联网技术的快速发展,网络信息开始呈现爆炸性的发展态势。其中以自然语言为载体的各种信息占据着主要成分。在这个背景下,如何利用机器对这些海量文本信息进行分析理解成了亟待解决的问题。其中,使用计算机理解词语的词性,识别句子中的实体等问题显得尤为关键,因为将会对舆情分析、问答系统等更深层次的其他相关研究提供重要帮助。这些问题可以归纳为一个问题,也就是序列标注问题。序列标注问题包括自然语言处理中的分词,词性标注,命名实体识别,关键词抽取,词义角色标注等等。只要在做序列标注时给定特定的标签集合,就可以进行序列标注。让机器理解自然语言,标注数据必不可少。过少的标注数据导致模型训练不充分,标注结果不能保证。由于语言的多样性和复杂性,以及许多自然语言的使用人群有限,对每种语言进行大量的标注显然耗费人力资源的。利用标注数据较多的语言(如英语)来提升标注数据较少的语言(如汉语、西班牙语)的序列标注结果,对于更好的理解不同语言间的差异以及如何突破数据不足限制具有重要意义。定义标注数据多的语言为高资源语言(如英语),标注数据不足的语言为低资源语言(如汉语、西班牙语)。跨语言的序列标注方法,目前主要的方法有以下几种:1、基于标注投影的算法:大部分的标注投影算法依赖于平行语料和不同语言间句子内对应单词的位置信息。该方法通过将高资源语料下的标注信息通过语言间的词语的对应关系投影到低资源语料中,用来增加低资源语料标注结果的准确性。这种方法需要精确的平行标注语料。如果两种语言间对应词语之间的关系错误,那么在高资源语料中抽取的特征将会投影到错误的低资源语料的词语上。所以高度依赖平行语料间对应关系的准确度以及需要对平行语料进行标注都是该类型方法在实际应用中的困难。2、基于共享表示的算法:共享表示算法主要依靠不同语言间的相同特点作为纽带进行语言间的信息迁移。该类方法使用去词汇化特征,也就是与特定语言无关的特征。通过使用部分共同特征的方式间接扩充低资源语料。这种方法的优势是对于平行语料的依赖度较低,适应能力强。但是需要人为的定义不同语言间的通用特征,这对于专业研究人员提出了很高的要求。如果使用这种方法的人员不具备运用多种语言的能力,那么也无法找到多种语言间的共同特征。综合来看,不管是基于标注投影的算法还是基于共享表示的算法,使用的框架都是LSTM-CRF模型或其变种,只是在获取信息的时候采用了不同的方式将高资源语料特征与低资源语料特征结合。所以目前的序列标注架构基本已经确定,研究偏向如何更好地保留以及转换来自高资源模型抽取的信息。之前的方法,一方面需要平行标注数据,这本身就需要很大成本,在许多情况下,由于标注数据不足会导致模型效果过差;另一方面需要熟悉多种语言的专业人员寻找不同语言间的通用特征,这也十分困难。
技术实现思路
本专利技术的目的是提供一种利用跨语言信息的序列标注方法,不需要平行标注数据,也不需要使用方法人员具备一定的多语言知识,即可实现序列标注。本专利技术的目的是通过以下技术方案实现的:一种利用跨语言信息的序列标注方法,包括:通过翻译模型将源语言句子S翻译为目标语言句子S',并记录翻译过程中的注意力权重矩阵;将翻译得到的目标语言句子S'输入至利用目标语言数据训练好的序列标注模型中,获得目标语言句子S'的特征矩阵;基于翻译过程中的注意力权重矩阵与目标语言句子S'的特征矩阵,利用反向注意力机制进行知识迁移,获得投影后的源语言特征矩阵,其包含了语义信息与标注信息;利用语言句子S与投影后的源语言特征矩阵训练源语言序列标注模型;利用训练好的源语言序列标注模型对源语言句子进行序列标注。由上述本专利技术提供的技术方案可以看出,通过翻译模型作为纽带将目标语言(高资源语言)下序列标注模型提取的特征迁移到源语言(低资源语言)下序列标注模型中,同时采用反向注意力的机制,通过翻译模型自动学得的注意力参数用来将不同语言间的单词对齐,并通过该机制迁移在目标语言下抽取出来的语言特征。该方法采用端到端模式,模型输入为自然语言句子,输出为标记结果,使用该专利技术无需进行其他额外处理,方便实际研究与使用,在当前的主流数据集上取得了很好的标注效果。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种利用跨语言信息的序列标注方法的流程图;图2为本专利技术实施例提供的一种利用跨语言信息的序列标注方法的框架图;图3为本专利技术实施例提供的序列标注的示例图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种利用跨语言信息的序列标注方法,图1、图2分别为该方法的流程图、框架图,该方法主要包括如下步骤:步骤1、通过翻译模型将源语言句子S翻译为目标语言句子S',并记录翻译过程中的注意力权重矩阵。设源语言句子S长度为n,目标语言句子S'长度为m。本专利技术中可以选择字或者单词作为处理的最小原子单元,字也可属于广义中的单词,处理时并不需要额外操作。以下均使用单词代替原子单元表示。本专利技术实施例中,注意力权重矩阵表示在生成目标语言句子S'的过程中,每个生成单词与源语言句子S中每个单词的相关度;注意力权重矩阵A中第i行第j列元素Aij表示源语言句子第i个单词与目标语言句子第j个单词的相关度。注意力机制类似于人类在翻译句子过程中,对于当前生成的单词并不是对源句子每个单词都需要考虑,而是注意在与当前翻译的单词相关的单词上。本专利技术实施例中,目标语言为高资源语言,也即标注数据较多的语言(如英语),源语言为低资源语言,也即标注数据不足的语言(如汉语、西班牙语)。本领域技术人员可以理解,此处的高与低、较多与不足,都是相对应的概念;即,两种语言中,资源较多者(标注数据较多者),称为高资源语言(标注数据较多的语言),资源较少者(标注数据不足),称为低资源语言(标注数据不足的语言)。步骤2、将翻译得到的目标语言句子S'输入至利用目标语言数据训练好的序列标注模型中,获得目标语言句子S'的特征矩阵,包含了语义信息与标注信息。本专利技术实施例中,利用目标语言数据训练好的序列标注模型可以是目前较为成熟、较为先进的BiLSTM-CRF模型;通过训练好的BiLSTM-CRF模型对输入的目标语言句子S'进行预测;在预测过程中,先将目标语言句子S'中的单词进行向量化(即图2中嵌入操作),再输本文档来自技高网
...

【技术保护点】
1.一种利用跨语言信息的序列标注方法,其特征在于,包括:/n通过翻译模型将源语言句子S翻译为目标语言句子S′,并记录翻译过程中的注意力权重矩阵;/n将翻译得到的目标语言句子S′输入至利用目标语言数据训练好的序列标注模型中,获得目标语言句子S′的特征矩阵;/n基于翻译过程中的注意力权重矩阵与目标语言句子S′的特征矩阵,利用反向注意力机制进行知识迁移,获得投影后的源语言特征矩阵,其包含了语义信息与标注信息;/n利用语言句子S与投影后的源语言特征矩阵训练源语言序列标注模型;/n利用训练好的源语言序列标注模型对源语言句子进行序列标注。/n

【技术特征摘要】
1.一种利用跨语言信息的序列标注方法,其特征在于,包括:
通过翻译模型将源语言句子S翻译为目标语言句子S′,并记录翻译过程中的注意力权重矩阵;
将翻译得到的目标语言句子S′输入至利用目标语言数据训练好的序列标注模型中,获得目标语言句子S′的特征矩阵;
基于翻译过程中的注意力权重矩阵与目标语言句子S′的特征矩阵,利用反向注意力机制进行知识迁移,获得投影后的源语言特征矩阵,其包含了语义信息与标注信息;
利用语言句子S与投影后的源语言特征矩阵训练源语言序列标注模型;
利用训练好的源语言序列标注模型对源语言句子进行序列标注。


2.根据权利要求1所述的一种利用跨语言信息的序列标注方法,其特征在于,注意力权重矩阵表示在生成目标语言句子S′的过程中,每个生成单词与源语言句子S中每个单词的相关度;
注意力权重矩阵A中第i行第j列元素Aij表示源语言句子第i个单词与目标语言句子第j个单词的相关度。


3.根据权利要求1所述的一种利用跨语言信息的序列标注方法,其特征在于,所述训练好的序列标注模型包括:训练好的BiLSTM-CRF模型;
通过训练好的BiLSTM-CRF模型对输入的目标语言句子S′进行预测;先将目标语言句子S′中的单词进行向量化,再输入至训练好的BiLSTM-CRF模型中;
BiLSTM的正向与反向操作的步骤相同,正向操作时从句子第一个单词开始到最后一个单词结束,反向操作时从句子最后一个单词开始到第一个单词结束;
输入为单词向量wt,正向操作的输出记为过程如下:















ct=ct-1⊙ft+ut⊙it



其中,σ表示神经网络激活函数,⊙表示向量点乘,是归一化之前输入门,遗忘门的值,ii,fi,oi表示输入门,遗忘门和输出门的值,Wi,Wf,Wo,Wu,Ui,Uf,Uo,Uu均为需要学习的权重参数,bi,bf,bo,bu为偏置项,ut表示第t个时间步骤处理过的信息,也就是第t个时间步骤模型新加入的信息,ct表示LSTM在第t个时间步骤的记忆状态,是由第t-1个时间步骤的记忆状态ci-1和第t个时间步骤遗忘门fi的点乘,以及第t个时间步骤的处理信息ui和输入门ii的点乘相加得到;下标t表示在第t个时间步骤,每一时间步骤输入一个单词向量,t=1,...,m,m为目标语言句子S′的长度;
BiLSTM输出为正向输出与反向输出的结合为反向操作的输出;
之后,BiLSTM层输出当做目标语言句子S′的特征矩阵Rt=[r1,......,rm],包含了目标语言下的语义信息与标注信息。
...

【专利技术属性】
技术研发人员:陈欢欢孙凌浩
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1