【技术实现步骤摘要】
一种中文词向量压缩方法、系统和存储介质
[0001]本申请属于自然语言处理
,具体的涉及一种中文词向量压缩方法。
技术介绍
[0002]词向量表示方法被广泛应用于机器翻译、文本分类、阅读理解等任务中。随着训练样本的增加和网络层数的加深,词向量模型能够拥有更为丰富的语义信息,与普通规模的词向量模型相比,大规模词向量能够在下游任务中取得更好的性能表现。然而,内存消耗也在加剧,一个词向量模型的大小可能达到十几GB甚至更高。在面对如此大规模的词向量模型时,其词表大小的内存占用也不可忽视,词表数量可能有几十万甚至上百万。词向量模型的规模不断增大,使其难以应用于内存受限的小型化设备,如手机、便携式设备等。
[0003]现有技术中,压缩词向量模型最直接的方法是进行特征降维,将高维空间的词向量特征变换到低维空间进行表示,常用方法有主成分分析(Principal Component Analysis,PCA)、线性判别分析(Linear Discriminant Analysis,LDA)等。然而在降维过程中会不可避免的损失掉大 ...
【技术保护点】
【技术特征摘要】
1.一种中文词向量压缩方法,其特征在于,包括以下步骤:S1,根据原始的词向量的词性分布,构建词性到编码长度的映射表;S2,对原始的词向量特征进行压缩生成压缩编码,通过所述压缩编码和编码书重构词向量,获得重构的词向量特征,所述编码书为压缩编码矩阵。2.根据权利要求1所述的一种中文词向量压缩方法,其特征在于,S1具体包括:S11,输入原始词向量模型Mod和原始词向量词表V;S12,获取所述原始词向量词表中每个词语w的词性;S13,统计所述词性类别,获得所述词性类别的第一集合P={p1,p2,..,p
n
},其中n为词性类别个数;S14,计算每类词性中的词语数量和数量占比m
i
,获得M={m1,m2,..,m
n
},其中S15,根据所述数量占比将词性重新划分,将数量占比小于p
c
的类别归为同一类,获得所述词性类别的第二集合每一类的划分方法如下:其中i=1,2,...,n,i
*
=1,2,...,n
*
;S16,将所述第二集合C映射到编码长度映射函数如下:其中I
max
=64。3.根据权利要求2所述的一种中文词向量压缩方法,其特征在于,S12中所述词性采用Jieba中的词性分析器获取。4.根据权利要求2所述的一种中文词向量压缩方法,其特征在于,S14中M按照所述词语数量占比从高到低排序获得。5.根据权利要求1所述的一种中文词向量压缩方法,其特征在于,S2具体包括:S21,遍历原始词向量词表V中的每个词语w和特征向量v
w
,通过编码器得到编码输出层的压缩编码o
w
和隐藏层的输出向量h
w
::其中,w1、w2和b1、b2分别是隐藏层和编码输出...
【专利技术属性】
技术研发人员:陈思萌,赵建强,陈诚,彭闯,张辉极,
申请(专利权)人:厦门市美亚柏科信息股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。