词向量处理方法、装置以及电子设备制造方法及图纸

技术编号:17007372 阅读:23 留言:0更新日期:2018-01-11 03:46
本说明书实施例公开了词向量处理方法、装置以及电子设备。所述方法包括:从词中划分出多个n元字母,并进一步地将n元字母映射为n元字符,基于n元字符的字符向量,对该词的词向量进行训练,其中,n元字母表征其对应的词的连续n个字母,所述词为阿拉伯文词,或者为马来语的词,或者为印尼语的词。

【技术实现步骤摘要】
词向量处理方法、装置以及电子设备
本说明书涉及计算机软件
,尤其涉及词向量处理方法、装置以及电子设备。
技术介绍
如今的自然语言处理的解决方案,大都采用基于神经网络的架构,而在这种架构下一个重要的基础技术就是词向量。词向量是将词映射到一个固定维度的向量,该向量表征了该词的语义信息。在现有技术中,常见的用于生成词向量的算法是专门针对英文设计的。比如,谷歌公司的单词向量算法、微软公司的深度神经网络算法等。基于现有技术,需要一种针对阿拉伯文、马来语、印尼语的词向量生成方案。
技术实现思路
本说明书实施例提供词向量处理方法、装置以及电子设备,用以解决如下技术问题:需要一种针对阿拉伯文、马来语、印尼语的词向量生成方案。为解决上述技术问题,本说明书实施例是这样实现的:本说明书实施例提供的一种词向量处理方法,包括:对语料分词得到各词;确定所述各词对应的各n元字符,所述n元字符表征由其对应的词的连续n个字母映射得到的字符串;建立并初始化所述各词的词向量,以及所述各词对应的各n元字符的字符向量;根据所述词向量、所述字符向量,以及分词后的所述语料,对所述词向量和所述字符向量进行训练;其中,所述词为阿拉伯文词,或者为马来语的词,或者为印尼语的词。本说明书实施例提供的一种词向量处理装置,包括:分词模块,对语料分词得到各词;确定模块,确定所述各词对应的各n元字符,所述n元字符表征由其对应的词的连续n个字母映射得到的字符串;初始化模块,建立并初始化所述各词的词向量,以及所述各词对应的各n元字符的字符向量;训练模块,根据所述词向量、所述字符向量,以及分词后的所述语料,对所述词向量和所述字符向量进行训练;其中,所述词为阿拉伯文词,或者为马来语的词,或者为印尼语的词。本说明书实施例提供的另一种词向量处理方法,包括:步骤1,对语料分词,并建立通过所述分词得到的各词构成的词汇表,其中,所述各词不包括在所述语料中出现次数少于设定次数的词;跳转步骤2;步骤2,根据所述词汇表,建立n元字符映射表,所述映射表包含所述各词与n元字符之间的映射关系,所述n元字符表征由其映射的词的连续n个字母映射得到的字符串;跳转步骤3;步骤3,根据所述n元字符映射表,建立并初始化所述各词的词向量,以及所述各词映射的各n元字符的字符向量;跳转步骤4;步骤4,遍历分词后的所述语料,分别将遍历到的词作为当前词w并对当前词w执行步骤5,若遍历完成则结束,否则继续遍历;步骤5,以当前词w为中心,向两侧分别滑动至多k个词建立窗口,遍历所述窗口中除当前词w以外的所有词,分别将遍历到的词作为当前词w的当前上下文词c并对当前上下文词c执行步骤6,若遍历完成则继续步骤4的执行,否则继续遍历;步骤6,按照如下公式计算当前词w与当前上下文词c的相似度:其中,S(w)表示所述n元字符映射表中当前词w映射的至少部分n元字符的集合,q表示S(w)中的各n元字符,sim(w,c)表示当前词w与当前上下文词c的相似度;表示q的字符向量,表示w的词向量,表示c的词向量,⊙表示针对两个向量的特定运算,所述特定运算为点积运算、或者夹角余弦运算、或者欧式距离运算;β1、β2为权重参数;跳转步骤7;步骤7,随机抽取λ个词作为负样例词,按照如下损失函数计算对应的损失表征值l(w,c):其中,c’是随机抽取的负样例词,而Ec'∈p(V)[x]是指随机抽取的负样例词c’满足概率分布p(V)的情况下,表达式x的期望值,σ(·)是神经网络激励函数,定义为根据计算出的损失表征值l(w,c)计算所述损失函数对应的梯度,根据所述梯度,对q的字符向量和当前上下文词c的词向量进行更新。本说明书实施例提供的一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:对语料分词得到各词;确定所述各词对应的各n元字符,所述n元字符表征由其对应的词的连续n个字母映射得到的字符串;建立并初始化所述各词的词向量,以及所述各词对应的各n元字符的字符向量;根据所述词向量、所述字符向量,以及分词后的所述语料,对所述词向量和所述字符向量进行训练;其中,所述词为阿拉伯文词,或者为马来语的词,或者为印尼语的词。本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:可以通过词对应的n元字符较精细地表现该词的特征,进而有利于提高生成的阿拉伯文或者马来语或者印尼语等语言的词的词向量的准确度,实用效果较好,因此,可以部分或全部地解决上述技术问题。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本说明书的方案在一种实际应用场景下涉及的一种整体架构示意图;图2为本说明书实施例提供的一种词向量处理方法的流程示意图;图3为本说明书实施例提供的实际应用场景下,所述词向量处理方法的一种具体实施方案的流程示意图;图4为本说明书实施例提供的图3中流程所使用的部分语料的相关处理动作示意图;图5为本说明书实施例提供的另一种词向量处理方法的流程示意图;图6为本说明书实施例提供的对应于图2的一种词向量处理装置的结构示意图。具体实施方式本说明书实施例提供词向量处理方法、装置以及电子设备。为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。图1为本说明书的方案在一种实际应用场景下涉及的一种整体架构示意图。该整体架构中,主要涉及五部分:语料中的词、词对应的n元字母、词对应的n元字符、词的词向量和n元字符的字符向量、向量训练服务器。n元字母用于较精细地表现其对应的词的特征,由n元字母进一步地映射得到n元字符,通过向量训练服务器对词的词向量和n元字符的字符向量进行训练,可以获得更准确的词向量。在实际应用中,前四部分的相关动作可以由相应的软件和/或硬件功能模块执行。本说明书的方案适用于阿拉伯文或者马来语或者印尼语的词的词向量,也适用于其他构成字母为非ASCII码的语言的词的词向量。为了便于描述,以下各实施例主要针对阿拉伯文或者马来语或者印尼语的场景,对本说明书的方案进行说明。图2为本说明书实施例提供的一种词向量处理方法的流程示意图。从程序角度而言,该流程的执行主体可以是具有词向量生成功能和/或训练功能的程序等;从设备角度而言,该流程的执行主体可以包括但不限于可搭载所述程序的以下至少一种设备:个人计算机、大中型计算机、计算机集群、手机、平板电脑、智能可穿戴设备、车机等。图2中的流程可以包括以下步骤:S202:对语料分词得到各词;其中,所述词可以为阿拉伯文词,或者为马来语的词,或者为印尼语的词。在本说明书实施例中,所述各词具体可以是:语料中至少出现本文档来自技高网
...
词向量处理方法、装置以及电子设备

【技术保护点】
一种词向量处理方法,包括:对语料分词得到各词;确定所述各词对应的各n元字符,所述n元字符表征由其对应的词的连续n个字母映射得到的字符串;建立并初始化所述各词的词向量,以及所述各词对应的各n元字符的字符向量;根据所述词向量、所述字符向量,以及分词后的所述语料,对所述词向量和所述字符向量进行训练;其中,所述词为阿拉伯文词,或者为马来语的词,或者为印尼语的词。

【技术特征摘要】
1.一种词向量处理方法,包括:对语料分词得到各词;确定所述各词对应的各n元字符,所述n元字符表征由其对应的词的连续n个字母映射得到的字符串;建立并初始化所述各词的词向量,以及所述各词对应的各n元字符的字符向量;根据所述词向量、所述字符向量,以及分词后的所述语料,对所述词向量和所述字符向量进行训练;其中,所述词为阿拉伯文词,或者为马来语的词,或者为印尼语的词。2.如权利要求1所述的方法,所述确定所述各词对应的各n元字符,所述n元字符表征由其对应的词的连续n个字母映射得到的字符串,具体包括:获取建立的字母字符映射关系,所述字母字符映射关系为:所述词所属语言的各字母与指定的各字符之间的映射关系;以及,确定所述各词对应的各n元字母,所述n元字母表征其对应的词的连续n个字母;根据所述字母字符映射关系,分别对所述各n元字母进行映射,得到所述各词对应的各n元字符,所述n元字符表征由其对应的词的连续n个字母映射得到的字符串。3.如权利要求2所述的方法,所述词对应的语言的至少部分字母采用unicode编码存储,所述字符为ASCII码。4.如权利要求1所述的方法,所述确定所述各词对应的各n元字符,具体包括:根据对所述语料分词的结果,确定在所述语料中出现过的词;分别针对所述确定的互不相同的词,执行:确定该词对应的各n元字符,该词对应的n元字符表征由该词的连续n个字母映射得到的字符串,n为一个正整数或多个不同的正整数。5.如权利要求4所述的方法,所述根据对所述语料分词的结果,确定在所述语料中出现过的词,具体包括:根据对所述语料分词的结果,确定在所述语料中出现过且出现次数不少于设定次数的词。6.如权利要求1所述的方法,所述初始化所述各词的词向量,以及所述各词对应的各n元字符的字符向量,具体包括:采用随机初始化的方式或者按照指定概率分布初始化的方式,初始化所述各词的词向量,以及所述各词对应的各n元字符的字符向量,其中,相同n元字符的字符向量也相同。7.如权利要求1所述的方法,所述根据所述词向量、所述字符向量,以及分词后的所述语料,对所述词向量和所述字符向量进行训练,具体包括:确定分词后的所述语料中的指定词,以及所述指定词在分词后的所述语料中的一个或多个上下文词;根据所述指定词对应的各n元字符的字符向量,以及所述上下文词的词向量,确定所述指定词与所述上下文词的相似度;根据所述指定词与所述上下文词的相似度,对所述上下文词的词向量和所述指定词对应的各n元字符的字符向量进行更新。8.如权利要求7所述的方法,所述根据所述指定词与所述上下文词的相似度,对所述上下文词的词向量和所述指定词对应的各n元字符的字符向量进行更新,具体包括:从所述各词中选择一个或多个词,作为负样例词;确定所述指定词与各所述负样例词的相似度;根据指定的损失函数、所述指定词与所述上下文词的相似度,以及所述指定词与各所述负样例词的相似度,确定所述指定词对应的损失表征值;根据所述损失表征值,对所述上下文词的词向量和所述指定词对应的各n元字符的字符向量进行更新。9.如权利要求8所述的方法,所述根据所述损失表征值,对所述上下文词的词向量和所述指定词对应的各n元字符的字符向量进行更新,具体包括:根据所述损失表征值,确定所述损失函数对应的梯度;根据所述梯度,对所述上下文词的词向量和所述指定词对应的各n元字符的字符向量进行更新。10.如权利要求8所述的方法,所述从所述各词中选择一个或多个词,作为负样例词,具体包括:从所述各词中随机选择一个或多个词,作为负样例词。11.如权利要求1所述的方法,所述根据所述词向量、所述字符向量,以及分词后的所述语料,对所述词向量和所述字符向量进行训练,具体包括:对分词后的所述语料进行遍历,分别对分词后的所述语料中的词执行:确定该词在分词后的所述语料中的一个或多个上下文词;分别根据所述上下文词,执行:根据该词对应的各n元字符的字符向量,以及该上下文词的词向量,确定该词与该上下文词的相似度;根据该词与该上下文词的相似度,对该上下文词的词向量和该词对应的各n元字符的字符向量进行更新。12.如权利要求11所述的方法,所述根据该词对应的各n元字符的字符向量,以及该上下文词的词向量,确定该词与该上下文词的相似度,具体包括:所述根据该词对应的各n元字符的字符向量、该词的词向量,以及该上下文词的词向量,确定该词与该上下文词的相似度。13.如权利要求11所述的方法,所述确定该词在分词后的所述语料中的一个或多个上下文词,具体包括:在分词后的所述语料中,通过以该词为中心,向左和/或向右滑动指定数量个词的距离,建立窗口;将所述窗口中该词以外的词确定为该词的上下文词。14.一种词向量处理装置,包括:分词模块,对语料分词得到各词;确定模块,确定所述各词对应的各n元字符,所述n元字符表征由其对应的词的连续n个字母映射得到的字符串;初始化模块,建立并初始化所述各词的词向量,以及所述各词对应的各n元字符的字符向量;训练模块,根据所述词向量、所述字符向量,以及分词后的所述语料,对所述词向量和所述字符向量进行训练;其中,所述词为阿拉伯文词,或者为马来语的词,或者为印尼语的词。15.如权利要求14所述的装置,所述确定模块确定所述各词对应的各n元字符,所述n元字符表征由其对应的词的连续n个字母映射得到的字符串,具体包括:所述确定模块获取建立的字母字符映射关系,所述字母字符映射关系为:所述词所属语言的各字母与指定的各字符之间的映射关系;以及,确定所述各词对应的各n元字母,所述n元字母表征其对应的词的连续n个字母;根据所述字母字符映射关系,分别对所述各n元字母进行映射,得到所述各词对应的各n元字符,所述n元字符表征由其对应的词的连续n个字母映射得到的字符串。16.如权利要求15所述的装置,所述词对应的语言的至少部分字母采用unicode编码存储,所述字符为ASCII码。17.如权利要求14所述的装置,所述确定模块确定所述各词对应的各n元字符,具体包括:所述确定模块根据对所述语料分词的结果,确定在所述语料中出现过的词;分别针对所述确定的互不相同的词,执行:确定该词对应的各n元字符,该词对应的n元字符表征由该词的连续n个字母映射得到的字符串,n为一个正整数或多个不同的正整数。18.如权利要求17所...

【专利技术属性】
技术研发人员:曹绍升周俊
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1