【技术实现步骤摘要】
一种利用主元分析计算汉语词向量的方法
[0001]本专利技术属于语言处理领域,具体涉及一种利用主元分析计算汉语词向量的方法,确切说,涉及一种利用汉字点阵和主元分析计算汉语词的词向量的方法。
技术介绍
[0002]自然语言处理是用计算机处理人类语言的技术。由于计算机擅长数值计算,为处理自然语言,首先需要将自然语言转换为数值形式。将自然语言转换为数值形式的过程称为字、词、句的向量化,即将一个字、一个词、一个句子分别用若干个数来表示。
[0003]常见的词向量化技术有独热(one hot)技术和连续词袋(continuous bag od word,CBOW)技术。在独热技术中,事先确定一个词汇表,例如,10000个词汇,则其中每个词都用10000个有序的数(10000维的向量)表示,如果一个词在词汇表中排列在第i位,则其对应的向量中,第i个分量为1,其余分量为0。
[0004]独热表示冗余较大,人们发展了连续词袋表示,将一个句子中某个词作为中心词,将这个词前后的n个词作为关联词,将n歌关联词的独热表示的平均独热向量输入一个神经网络进行训练,这个神经网络的输出为中心词的独热表示。当神经网络稳定后,神经网络第i个输出节点与隐含层节点连接的权重,就是第i个词的词向量。
[0005]独热表示和连续词袋表示都需要事先确定词汇表的大小,如果词汇表有变动,则需要重新计算每个词的词向量。此外,当词汇表中词较多时,神经网络的训练需要消耗大量的计算能力和时间。这在汉语的自然语言处理中,
[0006]将汉宇次表 ...
【技术保护点】
【技术特征摘要】
1.一种利用主元分析计算汉语词向量的方法,其特征在于,该方法包括如下步骤:S1、选择基准汉语词汇,选择汉语中有代表性的词语,作为主元分析的基准;S2、获取汉语词中每个汉字点阵向量,将汉字用数值组成的向量表示,便于计算机进一步处理;S3、计算各个汉语词的合成向量,用汉语词中的汉字点阵向量组合成词本身的合成向量,词也变换成数值向量形式;S4、计算基准词汇的平均合成向量,计算基准词汇的全部词的平均合成向量;S5、计算基准词汇的协方差矩阵,基准词汇中各个词的合成向量减去平均合成向量后,互乘,得到词之间差异的协方差矩阵;S6、计算协方差矩阵的本征值和本征向量,得到协方差矩阵的特性;S7、计算汉语词合成向量的投影矩阵,根据协方差矩阵特性,计算一个对词的合成向量进行变换的矩阵;S8、计算汉语词的词向量,对于任意汉语词的合成向量,减去平均合成向量后,乘以投影矩阵,得到词的词向量。2.如权利要求1所述的利用主元分析计算汉语词向量的方法,其特征在于,所述步骤S1具体包括:选择M个汉语词W
k
,k=1,2,
…
,M,包括只有1个汉字的词,以及由多个汉字组成的词。3.如权利要求1或2所述的利用主元分析计算汉语词向量的方法,其特征在于,所述步骤S2具体包括:获取词W
k
中每个汉字C
ki
的点阵向量MC
ki
,点阵大小为d
×
d,点阵中的元素取值为1和0;将每个汉字点阵的元素按行或列顺序排列成一个1行、D列的向量(a1,a2,
…
,a
D
),D=d
×
d,其中,a
i
=1或a
i
=0,i=1,2,
…
,D。4.如权利要求3所述的利用主元分析计算汉语词向量的方法,其特征在于,d=16或d=24。5.如权利要求3所述的利用主元分析计算汉语词向量的方法,其特征在于,所述步骤S3具体包括:对于一个由n个字组成的汉语词W
k
,词的合成向量MW
k
是词中各个汉字点阵向量MC
ki
的加权和,MW
k
=w1×
MC
k1
+w2×
MC
k2
+
…
+w
n
×
MC
kn
,每个汉字C
ki
的权重w
i
的计算方法为:6.如权利要求4所述的利用主元分析计算汉语词向量的方法,其特征在于,所述步骤S4...
【专利技术属性】
技术研发人员:蒋遂平,袁晓光,刘轩,王璐静,臧小滨,
申请(专利权)人:北京航天爱威电子技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。