当前位置: 首页 > 专利查询>厦门大学专利>正文

一种基于可随机访问的点互信息的词表示学习方法技术

技术编号:37169973 阅读:8 留言:0更新日期:2023-04-20 22:41
一种基于可随机访问的点互信息的词表示学习方法,涉及自然语言处理。A.准备大规模无标注文本语料库;B.扫描所述语料库并统计词对得到词共现矩阵;C.用基于GloVe模型的大规模矩阵随机访问方法实现对词共现矩阵的随机访问,得到该矩阵的元素的近似值;D.用随机访问得到的词共现矩阵的元素的近似值计算点互信息;E.基于点互信息计算注意力权重,将注意力权重应用于Skip

【技术实现步骤摘要】
一种基于可随机访问的点互信息的词表示学习方法


[0001]本专利技术涉及自然语言处理,具体是涉及一种基于可随机访问的点互信息的词表示学习方法。

技术介绍

[0002]词表示在基于深度学习的自然语言处理系统中是极其重要的,因为各项自然语言处理任务,比如问答系统、机器翻译、文本摘要、情感分类、命名实体识别等,都需要将词表示作为输入,词表示的质量高低将直接影响到这些任务的结果。为了探寻单词之间的内在关系,Harris(Harris Z S.Distributional structure[J].Word,1954,10(2

3):146

162.)首次提出分布式假说(Distributional Hypothesis),该假说认为,具有相似上下文的词,语义也是相似的。Firth(Firth J R.A synopsis oflinguistic theory,1930

1955[J].Studies in Linguistic Analysis,1957.)进一步地对Harris的分布式假说进行阐述与相关说明,认为单词的语义信息是由其上下文决定的。在此之后,Hinton(Hinton G E.Learning distributed representations ofconcepts[C]//Proceedings of the Eighth Annual Conference of the Cognitive Science Society.1986,],1:12.)提出分布式表示(Distributed Representation)的想法,把词汇表中的所有单词映射到一个连续、低维的向量空间,也就是所说的词表示。
[0003]现有的词表示方法通常使用固定大小的滑动窗口来遍历语料库,选取窗口内除中心词以外的所有单词作为上下文,且将上下文中的各个单词同等对待。这一策略存在着以下不足:
[0004](1)首先,窗口内的单词不一定都对中心词语义有贡献。特别是在Word2Vec(Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv:1301.3781,2013.与Mikolov T,Sutskever I,Chen K,et al.Distributed representations ofwords and phrases and their compositionality[J].Advances in Neural Information Processing Systems,2013,26.)中的Skip

gram模型和GloVe(Pennington J,Socher R,Manning CD.Glove:Global vectors for word representation[C]//Proceedings of the 2014Conference on Empirical Methods in Natural Language Processing(EMNLP).2014:1532

1543.)模型中使用中心词与窗口内单词组成的词对作为训练样例,将会存在大量的词对,其中两个单词之间没有任何依存关系。依存树内父子结点间的依存关系是一个句子中单词之间最主要的依存关系。对于一个含有个单词的句子,其依存树中共有个双向的词对关系(父子结点构成的词对)。对一个单词个数为n的句子,其依存树存在n

1个双向的依存关系。假设使用中心词前后各10个单词作为上下文,那么一个窗口中将有20个词对,一个句子中具有依存关系的词对的个数与训练使用的所有词对的个数的比例约为2*(n

1)/(20*n)≈1/10,这说明了大部分训练样例是无效的错误样例。(实际上,在句子两端的窗口中词对的数目会少于20,且依存树中的依存关系不一定都被窗口包含,因此该比
例为估计值。)
[0005](2)其次,上下文中的各个单词对于中心词的语义贡献存在差异。上下文中某些单词与中心词之间的相关性较强,相比之下,其他单词与中心词的相关性较弱。因此,在词表示学习的过程中,不能将上下文中的所有单词同等对待。
[0006]一些研究表明(Levy O,GoldbergY.Dependency

based word embeddings[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics(Volume 2:Short Papers).2014:302

308.与Komninos A,Manandhar S.Dependency based embeddings for sentence classification tasks[C]//Proceedings of the 2016Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.2016:1490

1500.),在词表示模型中引入依存关系,根据单词之间的依存关系选取上下文,可以有效地提高模型性能。但是该方法在一定程度上依赖于依存分析的质量,如果依存分析的准确率较低,那么将会直接影响到词表示模型的性能,且该方法仍然没有对选出的上下文的语义贡献进行量化,忽略上下文中各个单词与中心词之间的相关性差异。
[0007]针对上下文中各个单词与中心词之间的相关性差异问题,一些研究工作在词表示模型中使用注意力机制对不同上下文的重要性进行区分。此类模型都是对CBOW模型进行改进,对上下文中各个单词赋予不同的注意力权重,然后将词表示加权求和获取上下文向量。Ling等人(Ling W,Tsvetkov Y,Amir S,et al.Not all contexts are created equal:Better word representations with variable attention[C]//Proceedings of the 2015Conference on Empirical Methods in Natural Language Processing.2015:1367

1372.)在对CBOW模型的改进中,依据与中心词的相对位置不同给上下文赋予不同的权重。Liu等人(Liu Q,Ling Z H,Jiang H,et al.Part

of

speech 本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于可随机访问的点互信息的词表示学习方法,其特征在于包括以下步骤:步骤A.准备大规模无标注文本语料库;步骤B.扫描所述语料库并统计词对,得到词共现矩阵;步骤C.用基于GloVe模型的大规模矩阵随机访问方法实现对词共现矩阵的随机访问,得到该矩阵的元素的近似值;步骤D.用随机访问得到的词共现矩阵的元素的近似值计算点互信息;步骤E.基于点互信息计算注意力权重,将注意力权重应用于Skip

gram或GloVe模型进行词表示学习,得到目标词表示。2.如权利要求1所述一种基于可随机访问的点互信息的词表示学习方法,其特征在于在步骤C中,用基于GloVe模型的大规模矩阵随机访问方法实现对词共现矩阵的随机访问,得到该矩阵的元素的近似值,包括:C1.使用所述词共现矩阵、GloVe模型以及公式1训练得到词向量和词向量偏置;训练GloVe模型的损失函数,如下所示:其中,v
i
、b
i
表示第i个词的词向量和词向量偏置,分别表示第j个词的上下文词向量和上下文词向量偏置,v
i
、b
i
、都是训练参数,Value为要随机访问的矩阵,该矩阵为非负方阵,Value
ij
表示要随机访问的矩阵的第i行j列的值;Freq为频数矩阵,Freq
ij
为元素Value
ij
的频数;因为当前要随机访问的矩阵Value是词共现矩阵,该词共现矩阵就是频数矩阵Freq,因此本方法在训练GloVe模型的时候使用的是Freq
ij
=Value
ij
;C2.通过公式2或公式3计算所述词共现矩阵中词w
i
和词w
j
共现频数的近似值;因为模型训练的目标是让损失函数J极小化且函数J的取值是非负的,所以训练时会让函数J的值趋向于0,得到以下等式:在所述步骤B统计词共现矩阵时,若未忽略单词的先后顺序,则使用公式2计算Value
ij
,若选择了忽略单词的先后顺序,则统计获得的共现矩阵将是对称的,此时用如下公式3计算Value
ij
:当基于GloVe模型训练出v
i
、b
i
、这些参数后,用公式2或公式3来计算Value
ij
,从而达到快速随机访问Value矩阵中的元素,Value矩阵因过于巨大不能载入内存,但是这些训练出的参数是可以完全载入到内存的。3.如权利要求1所述一种基于可随机访问的点互信息的词表示学习方法,其特征在于在步骤C中,用基于GloVe模型的大规模矩阵随机访问方法实现对词共现矩阵的随机访问,得到该矩阵的元素的近似值,还包括:权利要求2中是将基于GloVe模型的大规模矩阵随机访问方法用于访问词共现矩阵,此处的词共现矩阵是非负方阵;
基于GloVe模型的大规模矩阵随机访问方法还应用于访问其他任意的大规模矩阵,访问方法如下:(1)先将所述大规模矩阵中的所有元素加上相同常数,使其成为非负矩阵Value

;(2)让非负矩阵Value

添加零元,进一步扩展成非负方阵Value”;(3)将非负方阵Value”作为要随机访问的矩阵,按照所述步骤C1、C2处理;其中,对于步骤C1中的公式1,若无法获得频数矩阵Freq,则将Freq
ij
都设置为1。4.如权利要求1所述一种基于可随机访问的点互信息的词表示学习方法,其特征在于在步骤D中,所述用随机访问得到的词共现矩阵的元素的近似值计算点互信息,该计算参见如下公式:其中,PMI为词w
i
和词w
c
之间的点互信息,u
i
、b
i
表示词w
i
的词向量和词向量偏置,的词向量和词向量偏置,分别表示词w
i
的上下文词向量和上下文词向量偏置,u
c
、b
c
表示词w
c
的词向量和词向量偏置,分别表示词w
c
的上下文词向量和上下文词向量偏置;Freq
i
表示语料库中词w
i
的出现次数,Freq
c
表示语料库中词w
c
的出现次数;当语料库确定时,|C|是一个常量,具体计算公式如下:其中,Freq
ic
表示语料库中词w
i
与词w
c
的共现频次。5.如权利要求1所述一种基于可随机访问的点互信息的词表示学习方法,其特征在于在步骤E中,基于点互信息计算注意力权重,将注意力权重应用于Skip

gram或GloVe模型进行词表示学习,得到目标词表示,包括:E1.获取...

【专利技术属性】
技术研发人员:陈怡疆林海苏畅
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1