【技术实现步骤摘要】
一种生成词向量的方法和装置
本专利技术涉及计算机
,尤其涉及一种生成词向量的方法和装置。
技术介绍
近几年自然语言处理在众多领域取得了突飞猛进的进展,极大地推动了智能语音识别技术的发展。由于语言具有高度抽象的特征,因此会存在语义鸿沟现象(两个词只要字面不同,就难以刻画它们之间的联系,即使是“麦克风”和“话筒”这样的同义词,从字面上也难以看出这两者意思相同),故而需结合上下文内容来具体确定词的含义及表示。自然语言处理即依赖于词嵌入算法来将每个词用一个向量表示出来。而目前的词嵌入算法生成的词向量缺乏可解释性,不知道向量的每个维度的具体含义,并且生成词向量的过程很复杂,需要大量的时间及内存空间。为此,现有方案中提出了采用套索算法Lasso回归的方法来进行向量矩阵的稀疏化,约束词表达的非负性。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:1、由于Lasso稀疏方法具有排他性的特点,因此该方法只能从每一个维度中选出一个相似词来组成目标词,而无法从最相似的维度中抽取类似词的表达来 ...
【技术保护点】
1.一种生成词向量的方法,其特征在于,包括:/n根据词的自表达特性建立神经网络;/n通过对所述神经网络进行求解以训练神经网络模型;/n使用所述神经网络模型生成词向量。/n
【技术特征摘要】
1.一种生成词向量的方法,其特征在于,包括:
根据词的自表达特性建立神经网络;
通过对所述神经网络进行求解以训练神经网络模型;
使用所述神经网络模型生成词向量。
2.根据权利要求1所述的方法,其特征在于,所述神经网络为具有一个隐藏层的浅层神经网络,且所述神经网络的结构为其中,X为输入矩阵,为输出矩阵,C为因子矩阵。
3.根据权利要求2所述的方法,其特征在于,在所述神经网络的隐藏层的输出之后,连接一个激活函数以确保C的非负和绝对零值,所述激活函数为Capped-ReLu,并且,
4.根据权利要求3所述的方法,其特征在于,所述神经网络的损失函数的形式为L=RL+λ1ASL+λ2PSL,其中,RL表示重构损失,ASL和PSL为惩罚项,λ1和λ2为惩罚因子,并且,
f(C)=Capped-ReLu(C);
其中,|V|是字典大小,ρ是稀疏率参数。
5.一种生成词向量的装置,其特征在于,包括:
网络建立模块,用于根据词的自表达特性建立神经网络;
模型训练模块,用于通过对所述神经网络进行求解以训练神经网络模型;
向量生成模块,用于使用所述神经网络...
【专利技术属性】
技术研发人员:夏敏雪,祝浩,张雯,曲洪涛,
申请(专利权)人:京东数字科技控股有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。