一种词向量处理方法及装置制造方法及图纸

技术编号:18575853 阅读:22 留言:0更新日期:2018-08-01 10:51
本申请实施例公开了一种词向量处理方法及装置。所述方法包括:对语料分词得到各词;确定所述各词对应的各n元笔画,所述n元笔画表征其对应的词的连续n个笔画;建立并初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量;根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练。利用本申请实施例,可以实现通过词对应的n元笔画更精细地表现该词的特征,进而有利于提高中文词的词向量的准确度,实用效果较好。

A method and device for word vector processing

The application embodiment discloses a word vector processing method and device. The methods include: obtaining each word for the word segmentation word; determining the N yuan strokes corresponding to the words, the N element strokes representing the continuous n strokes of their corresponding words; the vector of the words to establish and initialize the words, and the strokes of the N yuan strokes corresponding to the words; and according to the words and the words after the participle. The vector and the stroke vector are trained on the word vector and the stroke vector. By using this application example, the character of the word can be displayed more carefully by the N element strokes corresponding to the word, and it is beneficial to improve the accuracy of the word vector of the Chinese word, and the practical effect is better.

【技术实现步骤摘要】
一种词向量处理方法及装置
本申请涉及计算机软件
,尤其涉及一种词向量处理方法及装置。
技术介绍
如今的自然语言处理的解决方案,大都采用基于神经网络的架构,而在这种架构下一个重要的基础技术就是词向量。词向量是将词映射到一个固定维度的向量,该向量表征了该词的语义信息。在现有技术中,常见的用于生成词向量的算法是专门针对英文设计的。比如,谷歌公司的单词向量算法、脸书公司的n元字符算法、微软公司的深度神经网络算法等。但是,现有技术的这些算法或者无法用于中文,或者虽能用于中文,但是,所生成中文词的词向量的实用效果较差。
技术实现思路
本申请实施例提供一种词向量处理方法及装置,用以解决现有技术中用于生成词向量的算法或者无法用于中文,或者虽能用于中文,但是,所生成中文词的词向量的实用效果较差的问题。为解决上述技术问题,本申请实施例是这样实现的:本申请实施例提供的一种词向量处理方法,包括:对语料分词得到各词;确定所述各词对应的各n元笔画,所述n元笔画表征其对应的词的连续n个笔画;建立并初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量;根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练。本申请实施例提供的一种词向量处理装置,包括:分词模块,对语料分词得到各词;确定模块,确定所述各词对应的各n元笔画,所述n元笔画表征其对应的词的连续n个笔画;初始化模块,建立并初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量;训练模块,根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练。本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:可以实现通过词对应的n元笔画更精细地表现该词的特征,进而有利于提高中文词的词向量的准确度,实用效果较好,因此,可以部分或全部地解决现有技术中的问题。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种词向量处理方法的流程示意图;图2为本申请实施例提供的实际应用场景下,所述词向量处理方法的一种具体实施方案的流程示意图;图3为本申请实施例提供的图2中流程所使用的部分语料的相关处理动作示意图;图4为本申请实施例提供的对应于图1的一种词向量处理装置的结构示意图。具体实施方式本申请实施例提供一种词向量处理方法及装置。为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。本申请的方案适用于中文词的词向量,也适用于类似中文的其他语言的词的词向量,比如,日文等笔画特征较明显的语言的词的词向量等。图1为本申请实施例提供的一种词向量处理方法的流程示意图,该流程的执行主体可以是具有词向量生成功能和/或训练功能的程序。从设备角度而言,该流程的执行主体可以包括但不限于可搭载所述程序的以下设备:个人计算机、大中型计算机、计算机集群、手机、平板电脑、智能可穿戴设备、车机等。图1中的流程可以包括以下步骤:S101:对语料分词得到各词。在本申请实施例中,所述各词具体可以是:语料中至少出现过一次的各词中的至少部分词。为了便于后续处理,可以将各词保存在词汇表中,需要使用时从词汇表中读取词即可。S102:确定所述各词对应的各n元笔画,所述n元笔画表征其对应的词的连续n个笔画。为了便于理解,以中文为例,对“n元笔画”进一步地解释。对于中文字或者词,笔画包括“横”、“竖”、“撇”、“捺”、“折”、“点”、“提”等几种,n元笔画可以表征1个中文字或词连续n个笔画。例如,对于“珍”字。其对应的3元笔画为:“横、横、竖”(第1~3个笔画),“横、竖、提”(第2~4个笔画)、“竖、提、撇”等(第3~5个笔画);其对应的4元笔画为:“横、横、竖、提”(第1~4个笔画)、“横、竖、提、撇”(第2~5个笔画)等。又例如,对于词“大人”。其对应的3元笔画为:“横、撇、捺”(第1~3个笔画),“撇、捺、撇”(第2~4个笔画)等;其对应的4元笔画为:“横、撇、捺、撇”(第1~4个笔画)、“撇、捺、撇、捺”(第2~5个笔画)等。在本申请实施例中,n的取值可以是动态可调的。对于同一个词,在确定该词对应的各n元笔画时,n的取值可以只取1个(比如,只确定该词对应的各3元笔画),也可以取多个(比如,确定该词对应的各3元笔画和各4元笔画)。当n的取值为某个特定数值时,n元笔画可能恰好为字的偏旁部首,当n的取值恰好为字或词的总笔画数时,n元笔画恰好为该字或该词。在本申请实施例中,为了便于计算机处理,n元笔画可以用指定的代码进行表示。比如,可以将不同的笔画分别用一个不同的数字表示,则n元笔画相应地可以表示为数字串。S103:建立并初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量。在本申请实施例中,为了保证方案的效果,在初始化词向量和笔画向量时,可能会有一些限制条件。比如,不能将各词向量和各笔画向量都初始化为相同的向量;又比如,某些词向量或笔画向量中的向量元素取值不能全为0;等等。在本申请实施例中,可以采用随机初始化的方式或者按照指定概率分布初始化的方式,初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量,其中,相同n元笔画的笔画向量也相同。比如,所述指定概率分布可以是0-1分布等。另外,若之前已经基于其他语料,训练过某些词对应的词向量及笔画向量,则在进一步地基于图1中的语料训练这些词对应的词向量及笔画向量时,可以不再重新建立并初始化这些词对应的词向量及笔画向量,而是基于图1中的语料和之前的训练结果,再进行训练即可。S104:根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练。在本申请实施例中,所述训练可以是通过神经网络实现的,所述神经网络包括但不限于浅层神经网络和深层神经网络。通过图1的方法,可以实现通过词对应的n元笔画更精细地表现该词的特征,进而有利于提高中文词的词向量的准确度,实用效果较好,因此,可以部分或全部地解决现有技术中的问题。基于图1的方法,本申请实施例还提供了该方法的一些具体实施方案,以及扩展方案,下面进行说明。在本申请实施例中,对于步骤S102,所述确定所述各词对应的各n元笔画,具体可以包括:根据对语料分词的结果,确定在所述语料中出现至少一次的词;分别针对所述确定的每个词,执行:确定该词对应的各n元笔画,该词对应的n元笔画表征该词连续的n个笔画,n为一个正整数或多个不同的正整数。进一步地,考虑到若某个词在语料中出现的次数太少,则基于该语料训练时对应的训练样本与训练次数也较少,会给训练结果的可信度带来不利影响,因此,可以将这类词筛除,暂不训练。后续可以在其他语料中进行训练。基于这样的思路,本文档来自技高网
...

【技术保护点】
1.一种词向量处理方法,其特征在于,包括:对语料分词得到各词;确定所述各词对应的各n元笔画,所述n元笔画表征其对应的词的连续n个笔画;建立并初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量;根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练。

【技术特征摘要】
1.一种词向量处理方法,其特征在于,包括:对语料分词得到各词;确定所述各词对应的各n元笔画,所述n元笔画表征其对应的词的连续n个笔画;建立并初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量;根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练。2.如权利要求1所述的方法,其特征在于,所述确定所述各词对应的各n元笔画,具体包括:根据对语料分词的结果,确定在所述语料中出现至少一次的词;分别针对所述确定的每个词,执行:确定该词对应的各n元笔画,该词对应的n元笔画表征该词连续的n个笔画,n为一个正整数或多个不同的正整数。3.如权利要求2所述的方法,其特征在于,所述根据对语料分词的结果,确定在所述语料中出现至少一次的词,具体包括:根据对语料分词的结果,确定在所述语料中出现次数不少于设定次数的词,所述设定次数不小于1次。4.如权利要求1所述的方法,其特征在于,所述初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量,具体包括:采用随机初始化的方式或者按照指定概率分布初始化的方式,初始化所述各词的词向量,以及所述各词对应的各n元笔画的笔画向量,其中,相同n元笔画的笔画向量也相同。5.如权利要求1所述的方法,其特征在于,所述根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练,具体包括:确定分词后的所述语料中的指定词,以及所述指定词在分词后的所述语料中的一个或多个上下文词;根据所述指定词对应的各n元笔画的笔画向量,以及所述上下文词的词向量,确定所述指定词与所述上下文词的相似度;根据所述指定词与所述上下文词的相似度,对所述上下文词的词向量和所述指定词对应的各n元笔画的笔画向量进行更新。6.如权利要求5所述的方法,其特征在于,所述根据所述指定词与所述上下文词的相似度,对所述上下文词的词向量和所述指定词对应的各n元笔画的笔画向量进行更新,具体包括:从所述各词中选择一个或多个词,作为负样例词;确定所述指定词与各所述负样例词的相似度;根据指定的损失函数、所述指定词与所述上下文词的相似度,以及所述指定词与各所述负样例词的相似度,确定所述指定词对应的损失表征值;根据所述损失表征值,对所述上下文词的词向量和所述指定词对应的各n元笔画的笔画向量进行更新。7.如权利要求6所述的方法,其特征在于,所述根据所述损失表征值,对所述上下文词的词向量和所述指定词对应的各n元笔画的笔画向量进行更新,具体包括:根据所述损失表征值,确定所述损失函数对应的梯度;根据所述梯度,对所述上下文词的词向量和所述指定词对应的各n元笔画的笔画向量进行更新。8.如权利要求6所述的方法,其特征在于,所述从所述各词中选择一个或多个词,作为负样例词,具体包括:从所述各词中随机选择一个或多个词,作为负样例词。9.如权利要求1所述的方法,其特征在于,所述根据分词后的所述语料、所述词向量,以及所述笔画向量,对所述词向量和所述笔画向量进行训练,具体包括:对分词后的所述语料进行遍历,分别对分词后的所述语料中的每个词执行:确定该词在分词后的所述语料中的一个或多个上下文词;分别根据每个所述上下文词,执行:根据该词对应的各n元笔画的笔画向量,以及该上下文词的词向量,确定该词与该上下文词的相似度;根据该词与该上下文词的相似度,对该上下文词的词向量和该词对应的各n元笔画的笔画向量进行更新。10.如权利要求9所述的方法,其特征在于,所述确定该词在分词后的所述语料中的一个或多个上下文词,具体包括:在分词后的所述语料中,通过以该词为中心,向左和/或向右滑动指定数量个词的距离,建立窗口;将所述窗口中该词以外的词确定为该词的上下文词。11.如权利要求1~10任一项所述的方法,其特征在于,所述词为中文词,所述词向量为中文词的词向量。12.一种词向量处理装置,其特征在于,包括:分词模块,对语料分词得到各词;确定模块,确定所述各词对应的各n元笔画,所述n元笔画表征其...

【专利技术属性】
技术研发人员:曹绍升李小龙
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1