一种中文词向量压缩方法、系统和存储介质技术方案

技术编号:34720413 阅读:29 留言:0更新日期:2022-08-31 18:05
本发明专利技术提出一种端到端的大规模中文词向量压缩方法,包括:S1,根据原始的词向量的词性分布,构建词性到编码长度的映射表;S2,对原始的词向量特征进行压缩生成压缩编码,通过所述压缩编码和编码书重构词向量,获得重构的词向量特征,其中编码书为压缩编码矩阵。上述方案利用中文词性保留了语义信息,属于同一词性的压缩编码共用同一本码书,实现相同词性间的语义信息共享,保持模型语义分析性能的同时进一步缩减了大规模词表的压缩编码,提高模型的压缩率,实现了对大规模中文词向量模型的有效压缩。本发明专利技术还提出了对应的中文词向量压缩系统和存储介质。和存储介质。和存储介质。

【技术实现步骤摘要】
一种中文词向量压缩方法、系统和存储介质


[0001]本申请属于自然语言处理
,具体的涉及一种中文词向量压缩方法。

技术介绍

[0002]词向量表示方法被广泛应用于机器翻译、文本分类、阅读理解等任务中。随着训练样本的增加和网络层数的加深,词向量模型能够拥有更为丰富的语义信息,与普通规模的词向量模型相比,大规模词向量能够在下游任务中取得更好的性能表现。然而,内存消耗也在加剧,一个词向量模型的大小可能达到十几GB甚至更高。在面对如此大规模的词向量模型时,其词表大小的内存占用也不可忽视,词表数量可能有几十万甚至上百万。词向量模型的规模不断增大,使其难以应用于内存受限的小型化设备,如手机、便携式设备等。
[0003]现有技术中,压缩词向量模型最直接的方法是进行特征降维,将高维空间的词向量特征变换到低维空间进行表示,常用方法有主成分分析(Principal Component Analysis,PCA)、线性判别分析(Linear Discriminant Analysis,LDA)等。然而在降维过程中会不可避免的损失掉大部分语义信息,这对模本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种中文词向量压缩方法,其特征在于,包括以下步骤:S1,根据原始的词向量的词性分布,构建词性到编码长度的映射表;S2,对原始的词向量特征进行压缩生成压缩编码,通过所述压缩编码和编码书重构词向量,获得重构的词向量特征,所述编码书为压缩编码矩阵。2.根据权利要求1所述的一种中文词向量压缩方法,其特征在于,S1具体包括:S11,输入原始词向量模型Mod和原始词向量词表V;S12,获取所述原始词向量词表中每个词语w的词性;S13,统计所述词性类别,获得所述词性类别的第一集合P={p1,p2,..,p
n
},其中n为词性类别个数;S14,计算每类词性中的词语数量和数量占比m
i
,获得M={m1,m2,..,m
n
},其中S15,根据所述数量占比将词性重新划分,将数量占比小于p
c
的类别归为同一类,获得所述词性类别的第二集合每一类的划分方法如下:其中i=1,2,...,n,i
*
=1,2,...,n
*
;S16,将所述第二集合C映射到编码长度映射函数如下:其中I
max
=64。3.根据权利要求2所述的一种中文词向量压缩方法,其特征在于,S12中所述词性采用Jieba中的词性分析器获取。4.根据权利要求2所述的一种中文词向量压缩方法,其特征在于,S14中M按照所述词语数量占比从高到低排序获得。5.根据权利要求1所述的一种中文词向量压缩方法,其特征在于,S2具体包括:S21,遍历原始词向量词表V中的每个词语w和特征向量v
w
,通过编码器得到编码输出层的压缩编码o
w
和隐藏层的输出向量h
w
::其中,w1、w2和b1、b2分别是隐藏层和编码输出...

【专利技术属性】
技术研发人员:陈思萌赵建强陈诚彭闯张辉极
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1