一种中文词向量压缩方法、系统和存储介质技术方案

技术编号：34720413 阅读：29 留言：0更新日期：2022-08-31 18:05

本发明专利技术提出一种端到端的大规模中文词向量压缩方法，包括：S1，根据原始的词向量的词性分布，构建词性到编码长度的映射表；S2，对原始的词向量特征进行压缩生成压缩编码，通过所述压缩编码和编码书重构词向量，获得重构的词向量特征，其中编码书为压缩编码矩阵。上述方案利用中文词性保留了语义信息，属于同一词性的压缩编码共用同一本码书，实现相同词性间的语义信息共享，保持模型语义分析性能的同时进一步缩减了大规模词表的压缩编码，提高模型的压缩率，实现了对大规模中文词向量模型的有效压缩。本发明专利技术还提出了对应的中文词向量压缩系统和存储介质。和存储介质。和存储介质。

全部详细技术资料下载

【技术实现步骤摘要】
一种中文词向量压缩方法、系统和存储介质

[0001]本申请属于自然语言处理
，具体的涉及一种中文词向量压缩方法。

技术介绍

[0002]词向量表示方法被广泛应用于机器翻译、文本分类、阅读理解等任务中。随着训练样本的增加和网络层数的加深，词向量模型能够拥有更为丰富的语义信息，与普通规模的词向量模型相比，大规模词向量能够在下游任务中取得更好的性能表现。然而，内存消耗也在加剧，一个词向量模型的大小可能达到十几GB甚至更高。在面对如此大规模的词向量模型时，其词表大小的内存占用也不可忽视，词表数量可能有几十万甚至上百万。词向量模型的规模不断增大，使其难以应用于内存受限的小型化设备，如手机、便携式设备等。
[0003]现有技术中，压缩词向量模型最直接的方法是进行特征降维，将高维空间的词向量特征变换到低维空间进行表示，常用方法有主成分分析(Principal Component Analysis,PCA)、线性判别分析(Linear Discriminant Analysis,LDA)等。然而在降维过程中会不可避免的损失掉大...

【技术保护点】

【技术特征摘要】
1.一种中文词向量压缩方法，其特征在于，包括以下步骤：S1，根据原始的词向量的词性分布，构建词性到编码长度的映射表；S2，对原始的词向量特征进行压缩生成压缩编码，通过所述压缩编码和编码书重构词向量，获得重构的词向量特征，所述编码书为压缩编码矩阵。2.根据权利要求1所述的一种中文词向量压缩方法，其特征在于，S1具体包括：S11，输入原始词向量模型Mod和原始词向量词表V；S12，获取所述原始词向量词表中每个词语w的词性；S13，统计所述词性类别，获得所述词性类别的第一集合P＝{p1，p2，..，p
n
}，其中n为词性类别个数；S14，计算每类词性中的词语数量和数量占比m
i
，获得M＝{m1，m2，..，m
n
}，其中S15，根据所述数量占比将词性重新划分，将数量占比小于p
c
的类别归为同一类，获得所述词性类别的第二集合每一类的划分方法如下：其中i＝1，2，...，n，i
*
＝1，2，...，n
*
；S16，将所述第二集合C映射到编码长度映射函数如下：其中I
max
＝64。3.根据权利要求2所述的一种中文词向量压缩方法，其特征在于，S12中所述词性采用Jieba中的词性分析器获取。4.根据权利要求2所述的一种中文词向量压缩方法，其特征在于，S14中M按照所述词语数量占比从高到低排序获得。5.根据权利要求1所述的一种中文词向量压缩方法，其特征在于，S2具体包括：S21，遍历原始词向量词表V中的每个词语w和特征向量v
w
，通过编码器得到编码输出层的压缩编码o
w
和隐藏层的输出向量h
w
：：其中，w1、w2和b1、b2分别是隐藏层和编码输出...

【专利技术属性】
技术研发人员：陈思萌，赵建强，陈诚，彭闯，张辉极，
申请(专利权)人：厦门市美亚柏科信息股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人