The application embodiment discloses a word vector processing method and device. The methods include: obtaining each word for the word segmentation word; determining the N yuan strokes corresponding to the words, the N element strokes representing the continuous n strokes of their corresponding words; the vector of the words to establish and initialize the words, and the strokes of the N yuan strokes corresponding to the words; and according to the words and the words after the participle. The vector and the stroke vector are trained on the word vector and the stroke vector. By using this application example, the character of the word can be displayed more carefully by the N element strokes corresponding to the word, and it is beneficial to improve the accuracy of the word vector of the Chinese word, and the practical effect is better.
【技术实现步骤摘要】
一种词向量处理方法及装置
本申请涉及计算机软件
,尤其涉及一种词向量处理方法及装置。
技术介绍
如今的自然语言处理的解决方案,大都采用基于神经网络的架构,而在这种架构下一个重要的基础技术就是词向量。词向量是将词映射到一个固定维度的向量,该向量表征了该词的语义信息。在现有技术中,常见的用于生成词向量的算法是专门针对英文设计的。比如,谷歌公司的单词向量算法、脸书公司的n元字符算法、微软公司的深度神经网络算法等。但是,现有技术的这些算法或者无法用于中文,或者虽能用于中文,但是,所生成中文词的词向量的实用效果较差。
技术实现思路
本申请实施例提供一种词向量处理方法及装置,用以解决现有技术中用于生成词向量的算法或者无法用于中文,或者虽能用于中文,但是,所生成中文词的词向量的实用效果较差的问题。为解决上述技术问题,本申请实施例是这样实现的:本申请实施例提供的一种词向量处理方法,包括:对语料分词得到各词;确定所述各词对应的各n元笔画,所述n元笔画表征其对应的词的连续n个笔画;建立并初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量;根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练。本申请实施例提供的一种词向量处理装置,包括:分词模块,对语料分词得到各词;确定模块,确定所述各词对应的各n元笔画,所述n元笔画表征其对应的词的连续n个笔画;初始化模块,建立并初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量;训练模块,根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练。本申请实 ...
【技术保护点】
1.一种词向量处理方法,其特征在于,包括:对语料分词得到各词;确定所述各词对应的各n元笔画,所述n元笔画表征其对应的词的连续n个笔画;建立并初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量;根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练。
【技术特征摘要】
1.一种词向量处理方法,其特征在于,包括:对语料分词得到各词;确定所述各词对应的各n元笔画,所述n元笔画表征其对应的词的连续n个笔画;建立并初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量;根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练。2.如权利要求1所述的方法,其特征在于,所述确定所述各词对应的各n元笔画,具体包括:根据对语料分词的结果,确定在所述语料中出现至少一次的词;分别针对所述确定的每个词,执行:确定该词对应的各n元笔画,该词对应的n元笔画表征该词连续的n个笔画,n为一个正整数或多个不同的正整数。3.如权利要求2所述的方法,其特征在于,所述根据对语料分词的结果,确定在所述语料中出现至少一次的词,具体包括:根据对语料分词的结果,确定在所述语料中出现次数不少于设定次数的词,所述设定次数不小于1次。4.如权利要求1所述的方法,其特征在于,所述初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量,具体包括:采用随机初始化的方式或者按照指定概率分布初始化的方式,初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量,其中,相同n元笔画的笔画向量也相同。5.如权利要求1所述的方法,其特征在于,所述根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练,具体包括:确定分词后的所述语料中的指定词,以及所述指定词在分词后的所述语料中的一个或多个上下文词;根据所述指定词对应的各n元笔画的笔画向量,以及所述上下文词的词向量,确定所述指定词与所述上下文词的相似度;根据所述指定词与所述上下文词的相似度,对所述上下文词的词向量和所述指定词对应的各n元笔画的笔画向量进行更新。6.如权利要求5所述的方法,其特征在于,所述根据所述指定词与所述上下文词的相似度,对所述上下文词的词向量和所述指定词对应的各n元笔画的笔画向量进行更新,具体包括:从所述各词中选择一个或多个词,作为负样例词;确定所述指定词与各所述负样例词的相似度;根据指定的损失函数、所述指定词与所述上下文词的相似度,以及所述指定词与各所述负样例词的相似度,确定所述指定词对应的损失表征值;根据所述损失表征值,对所述上下文词的词向量和所述指定词对应的各n元笔画的笔画向量进行更新。7.如权利要求6所述的方法,其特征在于,所述根据所述损失表征值,对所述上下文词的词向量和所述指定词对应的各n元笔画的笔画向量进行更新,具体包括:根据所述损失表征值,确定所述损失函数对应的梯度;根据所述梯度,对所述上下文词的词向量和所述指定词对应的各n元笔画的笔画向量进行更新。8.如权利要求6所述的方法,其特征在于,所述从所述各词中选择一个或多个词,作为负样例词,具体包括:从所述各词中随机选择一个或多个词,作为负样例词。9.如权利要求1所述的方法,其特征在于,所述根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练,具体包括:对分词后的所述语料进行遍历,分别对分词后的所述语料中的每个词执行:确定该词在分词后的所述语料中的一个或多个上下文词;分别根据每个所述上下文词,执行:根据该词对应的各n元笔画的笔画向量,以及该上下文词的词向量,确定该词与该上下文词的相似度;根据该词与该上下文词的相似度,对该上下文词的词向量和该词对应的各n元笔画的笔画向量进行更新。10.如权利要求9所述的方法,其特征在于,所述确定该词在分词后的所述语料中的一个或多个上下文词,具体包括:在分词后的所述语料中,通过以该词为中心,向左和/或向右滑动指定数量个词的距离,建立窗口;将所述窗口中该词以外的词确定为该词的上下文词。11.如权利要求1~10任一项所述的方法,其特征在于,所述词为中文词,所述词向量为中文词的词向量。12.一种词向量处理装置,其特征在于,包括:分词模块,对语料分词得到各词;确定模块,确定所述各词对应的各n元笔画,所述n元笔画表征其...
【专利技术属性】
技术研发人员:曹绍升,李小龙,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。