【技术实现步骤摘要】
一种利用跨语言信息的序列标注方法
本专利技术涉及序列标注
,尤其涉及一种利用跨语言信息的序列标注方法。
技术介绍
随着互联网技术的快速发展,网络信息开始呈现爆炸性的发展态势。其中以自然语言为载体的各种信息占据着主要成分。在这个背景下,如何利用机器对这些海量文本信息进行分析理解成了亟待解决的问题。其中,使用计算机理解词语的词性,识别句子中的实体等问题显得尤为关键,因为将会对舆情分析、问答系统等更深层次的其他相关研究提供重要帮助。这些问题可以归纳为一个问题,也就是序列标注问题。序列标注问题包括自然语言处理中的分词,词性标注,命名实体识别,关键词抽取,词义角色标注等等。只要在做序列标注时给定特定的标签集合,就可以进行序列标注。让机器理解自然语言,标注数据必不可少。过少的标注数据导致模型训练不充分,标注结果不能保证。由于语言的多样性和复杂性,以及许多自然语言的使用人群有限,对每种语言进行大量的标注显然耗费人力资源的。利用标注数据较多的语言(如英语)来提升标注数据较少的语言(如汉语、西班牙语)的序列标注结果,对于更好的理解不同语言间的差异以及如何突破数据不足限制具有重要意义。定义标注数据多的语言为高资源语言(如英语),标注数据不足的语言为低资源语言(如汉语、西班牙语)。跨语言的序列标注方法,目前主要的方法有以下几种:1、基于标注投影的算法:大部分的标注投影算法依赖于平行语料和不同语言间句子内对应单词的位置信息。该方法通过将高资源语料下的标注信息通过语言间的词语的对应关系投影到低资源语料中,用来增加 ...
【技术保护点】
1.一种利用跨语言信息的序列标注方法,其特征在于,包括:/n通过翻译模型将源语言句子S翻译为目标语言句子S′,并记录翻译过程中的注意力权重矩阵;/n将翻译得到的目标语言句子S′输入至利用目标语言数据训练好的序列标注模型中,获得目标语言句子S′的特征矩阵;/n基于翻译过程中的注意力权重矩阵与目标语言句子S′的特征矩阵,利用反向注意力机制进行知识迁移,获得投影后的源语言特征矩阵,其包含了语义信息与标注信息;/n利用语言句子S与投影后的源语言特征矩阵训练源语言序列标注模型;/n利用训练好的源语言序列标注模型对源语言句子进行序列标注。/n
【技术特征摘要】
1.一种利用跨语言信息的序列标注方法,其特征在于,包括:
通过翻译模型将源语言句子S翻译为目标语言句子S′,并记录翻译过程中的注意力权重矩阵;
将翻译得到的目标语言句子S′输入至利用目标语言数据训练好的序列标注模型中,获得目标语言句子S′的特征矩阵;
基于翻译过程中的注意力权重矩阵与目标语言句子S′的特征矩阵,利用反向注意力机制进行知识迁移,获得投影后的源语言特征矩阵,其包含了语义信息与标注信息;
利用语言句子S与投影后的源语言特征矩阵训练源语言序列标注模型;
利用训练好的源语言序列标注模型对源语言句子进行序列标注。
2.根据权利要求1所述的一种利用跨语言信息的序列标注方法,其特征在于,注意力权重矩阵表示在生成目标语言句子S′的过程中,每个生成单词与源语言句子S中每个单词的相关度;
注意力权重矩阵A中第i行第j列元素Aij表示源语言句子第i个单词与目标语言句子第j个单词的相关度。
3.根据权利要求1所述的一种利用跨语言信息的序列标注方法,其特征在于,所述训练好的序列标注模型包括:训练好的BiLSTM-CRF模型;
通过训练好的BiLSTM-CRF模型对输入的目标语言句子S′进行预测;先将目标语言句子S′中的单词进行向量化,再输入至训练好的BiLSTM-CRF模型中;
BiLSTM的正向与反向操作的步骤相同,正向操作时从句子第一个单词开始到最后一个单词结束,反向操作时从句子最后一个单词开始到第一个单词结束;
输入为单词向量wt,正向操作的输出记为过程如下:
ct=ct-1⊙ft+ut⊙it
其中,σ表示神经网络激活函数,⊙表示向量点乘,是归一化之前输入门,遗忘门的值,ii,fi,oi表示输入门,遗忘门和输出门的值,Wi,Wf,Wo,Wu,Ui,Uf,Uo,Uu均为需要学习的权重参数,bi,bf,bo,bu为偏置项,ut表示第t个时间步骤处理过的信息,也就是第t个时间步骤模型新加入的信息,ct表示LSTM在第t个时间步骤的记忆状态,是由第t-1个时间步骤的记忆状态ci-1和第t个时间步骤遗忘门fi的点乘,以及第t个时间步骤的处理信息ui和输入门ii的点乘相加得到;下标t表示在第t个时间步骤,每一时间步骤输入一个单词向量,t=1,...,m,m为目标语言句子S′的长度;
BiLSTM输出为正向输出与反向输出的结合为反向操作的输出;
之后,BiLSTM层输出当做目标语言句子S′的特征矩阵Rt=[r1,......,rm],包含了目标语言下的语义信息与标注信息。
...
【专利技术属性】
技术研发人员:陈欢欢,孙凌浩,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。