一种基于可随机访问的点互信息的词表示学习方法技术

技术编号：37169973 阅读：8 留言：0更新日期：2023-04-20 22:41

一种基于可随机访问的点互信息的词表示学习方法，涉及自然语言处理。A.准备大规模无标注文本语料库；B.扫描所述语料库并统计词对得到词共现矩阵；C.用基于GloVe模型的大规模矩阵随机访问方法实现对词共现矩阵的随机访问，得到该矩阵的元素的近似值；D.用随机访问得到的词共现矩阵的元素的近似值计算点互信息；E.基于点互信息计算注意力权重，将注意力权重应用于Skip

全部详细技术资料下载

【技术实现步骤摘要】
一种基于可随机访问的点互信息的词表示学习方法

[0001]本专利技术涉及自然语言处理，具体是涉及一种基于可随机访问的点互信息的词表示学习方法。

技术介绍

[0002]词表示在基于深度学习的自然语言处理系统中是极其重要的，因为各项自然语言处理任务，比如问答系统、机器翻译、文本摘要、情感分类、命名实体识别等，都需要将词表示作为输入，词表示的质量高低将直接影响到这些任务的结果。为了探寻单词之间的内在关系，Harris(Harris Z S.Distributional structure[J].Word,1954,10(2
‑
3):146
‑
162.)首次提出分布式假说(Distributional Hypothesis)，该假说认为，具有相似上下文的词，语义也是相似的。Firth(Firth J R.A synopsis oflinguistic theory,1930
‑
1955[J].Studies in Linguistic Analysis,1957.)进一步地对Harris的分布式假说进行阐述与相关说明，认为单词的语义信息是由其上下文决定的。在此之后，Hinton(Hinton G E.Learning distributed representations ofconcepts[C]//Proceedings of the Eighth Annual Conference of the Cognitive Science Society.1986,],1:...

【技术保护点】

【技术特征摘要】
1.一种基于可随机访问的点互信息的词表示学习方法，其特征在于包括以下步骤：步骤A.准备大规模无标注文本语料库；步骤B.扫描所述语料库并统计词对，得到词共现矩阵；步骤C.用基于GloVe模型的大规模矩阵随机访问方法实现对词共现矩阵的随机访问，得到该矩阵的元素的近似值；步骤D.用随机访问得到的词共现矩阵的元素的近似值计算点互信息；步骤E.基于点互信息计算注意力权重，将注意力权重应用于Skip
‑
gram或GloVe模型进行词表示学习，得到目标词表示。2.如权利要求1所述一种基于可随机访问的点互信息的词表示学习方法，其特征在于在步骤C中，用基于GloVe模型的大规模矩阵随机访问方法实现对词共现矩阵的随机访问，得到该矩阵的元素的近似值，包括：C1.使用所述词共现矩阵、GloVe模型以及公式1训练得到词向量和词向量偏置；训练GloVe模型的损失函数，如下所示：其中，v
i
、b
i
表示第i个词的词向量和词向量偏置，分别表示第j个词的上下文词向量和上下文词向量偏置，v
i
、b
i
、都是训练参数，Value为要随机访问的矩阵，该矩阵为非负方阵，Value
ij
表示要随机访问的矩阵的第i行j列的值；Freq为频数矩阵，Freq
ij
为元素Value
ij
的频数；因为当前要随机访问的矩阵Value是词共现矩阵，该词共现矩阵就是频数矩阵Freq，因此本方法在训练GloVe模型的时候使用的是Freq
ij
＝Value
ij
；C2.通过公式2或公式3计算所述词共现矩阵中词w
i
和词w
j
共现频数的近似值；因为模型训练的目标是让损失函数J极小化且函数J的取值是非负的，所以训练时会让函数J的值趋向于0，得到以下等式：在所述步骤B统计词共现矩阵时，若未忽略单词的先后顺序，则使用公式2计算Value
ij
，若选择了忽略单词的先后顺序，则统计获得的共现矩阵将是对称的，此时用如下公式3计算Value
ij
：当基于GloVe模型训练出v
i
、b
i
、这些参数后，用公式2或公式3来计算Value
ij
，从而达到快速随机访问Value矩阵中的元素，Value矩阵因过于巨大不能载入内存，但是这些训练出的参数是可以完全载入到内存的。3.如权利要求1所述一种基于可随机访问的点互信息的词表示学习方法，其特征在于在步骤C中，用基于GloVe模型的大规模矩阵随机访问方法实现对词共现矩阵的随机访问，得到该矩阵的元素的近似值，还包括：权利要求2中是将基于GloVe模型的大规模矩阵随机访问方法用于访问词共现矩阵，此处的词共现矩阵是非负方阵；
基于GloVe模型的大规模矩阵随机访问方法还应用于访问其他任意的大规模矩阵，访问方法如下：(1)先将所述大规模矩阵中的所有元素加上相同常数，使其成为非负矩阵Value
’
；(2)让非负矩阵Value
’
添加零元，进一步扩展成非负方阵Value”；(3)将非负方阵Value”作为要随机访问的矩阵，按照所述步骤C1、C2处理；其中，对于步骤C1中的公式1，若无法获得频数矩阵Freq，则将Freq
ij
都设置为1。4.如权利要求1所述一种基于可随机访问的点互信息的词表示学习方法，其特征在于在步骤D中，所述用随机访问得到的词共现矩阵的元素的近似值计算点互信息，该计算参见如下公式：其中，PMI为词w
i
和词w
c
之间的点互信息，u
i
、b
i
表示词w
i
的词向量和词向量偏置，的词向量和词向量偏置，分别表示词w
i
的上下文词向量和上下文词向量偏置，u
c
、b
c
表示词w
c
的词向量和词向量偏置，分别表示词w
c
的上下文词向量和上下文词向量偏置；Freq
i
表示语料库中词w
i
的出现次数，Freq
c
表示语料库中词w
c
的出现次数；当语料库确定时，|C|是一个常量，具体计算公式如下：其中，Freq
ic
表示语料库中词w
i
与词w
c
的共现频次。5.如权利要求1所述一种基于可随机访问的点互信息的词表示学习方法，其特征在于在步骤E中，基于点互信息计算注意力权重，将注意力权重应用于Skip
‑
gram或GloVe模型进行词表示学习，得到目标词表示，包括：E1.获取...

【专利技术属性】
技术研发人员：陈怡疆，林海，苏畅，
申请(专利权)人：厦门大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人