【技术实现步骤摘要】
词向量处理方法、装置以及电子设备
本说明书涉及计算机软件
,尤其涉及词向量处理方法、装置以及电子设备。
技术介绍
如今的自然语言处理的解决方案,大都采用基于神经网络的架构,而在这种架构下一个重要的基础技术就是词向量。词向量是将词映射到一个固定维度的向量,该向量表征了该词的语义信息。在现有技术中,常见的用于生成词向量的算法是专门针对英文设计的。比如,谷歌公司的单词向量算法、微软公司的深度神经网络算法等。基于现有技术,需要一种针对阿拉伯文、马来语、印尼语的词向量生成方案。
技术实现思路
本说明书实施例提供词向量处理方法、装置以及电子设备,用以解决如下技术问题:需要一种针对阿拉伯文、马来语、印尼语的词向量生成方案。为解决上述技术问题,本说明书实施例是这样实现的:本说明书实施例提供的一种词向量处理方法,包括:对语料分词得到各词;确定所述各词对应的各n元字符,所述n元字符表征由其对应的词的连续n个字母映射得到的字符串;建立并初始化所述各词的词向量,以及所述各词对应的各n元字符的字符向量;根据所述词向量、所述字符向量,以及分词后的所述语料,对所述词向量和所述字符向量进行训练;其中,所述词为阿拉伯文词,或者为马来语的词,或者为印尼语的词。本说明书实施例提供的一种词向量处理装置,包括:分词模块,对语料分词得到各词;确定模块,确定所述各词对应的各n元字符,所述n元字符表征由其对应的词的连续n个字母映射得到的字符串;初始化模块,建立并初始化所述各词的词向量,以及所述各词对应的各n元字符的字符向量;训练模块,根据所述词向量、所述字符向量,以及分词后的所述语料,对所述词向量和所 ...
【技术保护点】
一种词向量处理方法,包括:对语料分词得到各词;确定所述各词对应的各n元字符,所述n元字符表征由其对应的词的连续n个字母映射得到的字符串;建立并初始化所述各词的词向量,以及所述各词对应的各n元字符的字符向量;根据所述词向量、所述字符向量,以及分词后的所述语料,对所述词向量和所述字符向量进行训练;其中,所述词为阿拉伯文词,或者为马来语的词,或者为印尼语的词。
【技术特征摘要】
1.一种词向量处理方法,包括:对语料分词得到各词;确定所述各词对应的各n元字符,所述n元字符表征由其对应的词的连续n个字母映射得到的字符串;建立并初始化所述各词的词向量,以及所述各词对应的各n元字符的字符向量;根据所述词向量、所述字符向量,以及分词后的所述语料,对所述词向量和所述字符向量进行训练;其中,所述词为阿拉伯文词,或者为马来语的词,或者为印尼语的词。2.如权利要求1所述的方法,所述确定所述各词对应的各n元字符,所述n元字符表征由其对应的词的连续n个字母映射得到的字符串,具体包括:获取建立的字母字符映射关系,所述字母字符映射关系为:所述词所属语言的各字母与指定的各字符之间的映射关系;以及,确定所述各词对应的各n元字母,所述n元字母表征其对应的词的连续n个字母;根据所述字母字符映射关系,分别对所述各n元字母进行映射,得到所述各词对应的各n元字符,所述n元字符表征由其对应的词的连续n个字母映射得到的字符串。3.如权利要求2所述的方法,所述词对应的语言的至少部分字母采用unicode编码存储,所述字符为ASCII码。4.如权利要求1所述的方法,所述确定所述各词对应的各n元字符,具体包括:根据对所述语料分词的结果,确定在所述语料中出现过的词;分别针对所述确定的互不相同的词,执行:确定该词对应的各n元字符,该词对应的n元字符表征由该词的连续n个字母映射得到的字符串,n为一个正整数或多个不同的正整数。5.如权利要求4所述的方法,所述根据对所述语料分词的结果,确定在所述语料中出现过的词,具体包括:根据对所述语料分词的结果,确定在所述语料中出现过且出现次数不少于设定次数的词。6.如权利要求1所述的方法,所述初始化所述各词的词向量,以及所述各词对应的各n元字符的字符向量,具体包括:采用随机初始化的方式或者按照指定概率分布初始化的方式,初始化所述各词的词向量,以及所述各词对应的各n元字符的字符向量,其中,相同n元字符的字符向量也相同。7.如权利要求1所述的方法,所述根据所述词向量、所述字符向量,以及分词后的所述语料,对所述词向量和所述字符向量进行训练,具体包括:确定分词后的所述语料中的指定词,以及所述指定词在分词后的所述语料中的一个或多个上下文词;根据所述指定词对应的各n元字符的字符向量,以及所述上下文词的词向量,确定所述指定词与所述上下文词的相似度;根据所述指定词与所述上下文词的相似度,对所述上下文词的词向量和所述指定词对应的各n元字符的字符向量进行更新。8.如权利要求7所述的方法,所述根据所述指定词与所述上下文词的相似度,对所述上下文词的词向量和所述指定词对应的各n元字符的字符向量进行更新,具体包括:从所述各词中选择一个或多个词,作为负样例词;确定所述指定词与各所述负样例词的相似度;根据指定的损失函数、所述指定词与所述上下文词的相似度,以及所述指定词与各所述负样例词的相似度,确定所述指定词对应的损失表征值;根据所述损失表征值,对所述上下文词的词向量和所述指定词对应的各n元字符的字符向量进行更新。9.如权利要求8所述的方法,所述根据所述损失表征值,对所述上下文词的词向量和所述指定词对应的各n元字符的字符向量进行更新,具体包括:根据所述损失表征值,确定所述损失函数对应的梯度;根据所述梯度,对所述上下文词的词向量和所述指定词对应的各n元字符的字符向量进行更新。10.如权利要求8所述的方法,所述从所述各词中选择一个或多个词,作为负样例词,具体包括:从所述各词中随机选择一个或多个词,作为负样例词。11.如权利要求1所述的方法,所述根据所述词向量、所述字符向量,以及分词后的所述语料,对所述词向量和所述字符向量进行训练,具体包括:对分词后的所述语料进行遍历,分别对分词后的所述语料中的词执行:确定该词在分词后的所述语料中的一个或多个上下文词;分别根据所述上下文词,执行:根据该词对应的各n元字符的字符向量,以及该上下文词的词向量,确定该词与该上下文词的相似度;根据该词与该上下文词的相似度,对该上下文词的词向量和该词对应的各n元字符的字符向量进行更新。12.如权利要求11所述的方法,所述根据该词对应的各n元字符的字符向量,以及该上下文词的词向量,确定该词与该上下文词的相似度,具体包括:所述根据该词对应的各n元字符的字符向量、该词的词向量,以及该上下文词的词向量,确定该词与该上下文词的相似度。13.如权利要求11所述的方法,所述确定该词在分词后的所述语料中的一个或多个上下文词,具体包括:在分词后的所述语料中,通过以该词为中心,向左和/或向右滑动指定数量个词的距离,建立窗口;将所述窗口中该词以外的词确定为该词的上下文词。14.一种词向量处理装置,包括:分词模块,对语料分词得到各词;确定模块,确定所述各词对应的各n元字符,所述n元字符表征由其对应的词的连续n个字母映射得到的字符串;初始化模块,建立并初始化所述各词的词向量,以及所述各词对应的各n元字符的字符向量;训练模块,根据所述词向量、所述字符向量,以及分词后的所述语料,对所述词向量和所述字符向量进行训练;其中,所述词为阿拉伯文词,或者为马来语的词,或者为印尼语的词。15.如权利要求14所述的装置,所述确定模块确定所述各词对应的各n元字符,所述n元字符表征由其对应的词的连续n个字母映射得到的字符串,具体包括:所述确定模块获取建立的字母字符映射关系,所述字母字符映射关系为:所述词所属语言的各字母与指定的各字符之间的映射关系;以及,确定所述各词对应的各n元字母,所述n元字母表征其对应的词的连续n个字母;根据所述字母字符映射关系,分别对所述各n元字母进行映射,得到所述各词对应的各n元字符,所述n元字符表征由其对应的词的连续n个字母映射得到的字符串。16.如权利要求15所述的装置,所述词对应的语言的至少部分字母采用unicode编码存储,所述字符为ASCII码。17.如权利要求14所述的装置,所述确定模块确定所述各词对应的各n元字符,具体包括:所述确定模块根据对所述语料分词的结果,确定在所述语料中出现过的词;分别针对所述确定的互不相同的词,执行:确定该词对应的各n元字符,该词对应的n元字符表征由该词的连续n个字母映射得到的字符串,n为一个正整数或多个不同的正整数。18.如权利要求17所...
【专利技术属性】
技术研发人员:曹绍升,周俊,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。