词向量处理方法、装置以及电子设备制造方法及图纸

技术编号：17007370 阅读：41 留言：0更新日期：2018-01-11 03:46

本说明书实施例公开了词向量处理方法、装置以及电子设备。所述方法包括：从词中划分出一个或多个语素，基于语素的语素向量，对该词的词向量进行训练，其中，语素包括其对应词的以下至少一种元素：前缀、后缀、词根、前后缀以外的字符串。

全部详细技术资料下载

【技术实现步骤摘要】
词向量处理方法、装置以及电子设备
本说明书涉及计算机软件
，尤其涉及词向量处理方法、装置以及电子设备。
技术介绍
如今的自然语言处理的解决方案，大都采用基于神经网络的架构，而在这种架构下一个重要的基础技术就是词向量。词向量是将词映射到一个固定维度的向量，该向量表征了该词的语义信息。在现有技术中，常见的用于生成词向量的算法比如包括：谷歌公司的单词向量算法、微软公司的深度神经网络算法等。基于现有技术，需要一种针对英文或者法文的更准确的词向量生成方案。
技术实现思路
本说明书实施例提供词向量处理方法、装置以及电子设备，用以解决如下技术问题：需要一种针对英文或者法文的更准确的词向量生成方案。为解决上述技术问题，本说明书实施例是这样实现的：本说明书实施例提供的一种词向量处理方法，包括：对语料分词得到各词；确定所述各词对应的各语素；建立并初始化所述各词的词向量，以及所述各词对应的各语素的语素向量；根据所述词向量、所述语素向量，以及分词后的所述语料，对所述词向量和所述语素向量进行训练；其中，所述语素包括其对应词的以下至少一种元素：前缀、后缀、词根、前后缀以外的字符串。本说明书实施例提供的一种词向量处理装置，包括：分词模块，对语料分词得到各词；确定模块，确定所述各词对应的各语素；初始化模块，建立并初始化所述各词的词向量，以及所述各词对应的各语素的语素向量；训练模块，根据所述词向量、所述语素向量，以及分词后的所述语料，对所述词向量和所述语素向量进行训练；其中，所述语素包括其对应词的以下至少一种元素：前缀、后缀、词根、前后缀以外的字符串。本说明书实施例提供的另一种词向量处理...
词向量处理方法、装置以及电子设备

【技术保护点】
一种词向量处理方法，包括：对语料分词得到各词；确定所述各词对应的各语素；建立并初始化所述各词的词向量，以及所述各词对应的各语素的语素向量；根据所述词向量、所述语素向量，以及分词后的所述语料，对所述词向量和所述语素向量进行训练；其中，所述语素包括其对应词的以下至少一种元素：前缀、后缀、词根、前后缀以外的字符串。

【技术特征摘要】
1.一种词向量处理方法，包括：对语料分词得到各词；确定所述各词对应的各语素；建立并初始化所述各词的词向量，以及所述各词对应的各语素的语素向量；根据所述词向量、所述语素向量，以及分词后的所述语料，对所述词向量和所述语素向量进行训练；其中，所述语素包括其对应词的以下至少一种元素：前缀、后缀、词根、前后缀以外的字符串。2.如权利要求1所述的方法，所述确定所述各词对应的各语素，具体包括：根据对所述语料分词的结果，确定在所述语料中出现过的词；分别针对所述确定的互不相同的词，执行：确定该词对应的各语素，所述语素包括该词的以下至少一种元素：前缀、后缀、词根、前后缀以外的字符串。3.如权利要求2所述的方法，所述根据对所述语料分词的结果，确定在所述语料中出现过的词，具体包括：根据对所述语料分词的结果，确定在所述语料中出现过且出现次数不少于设定次数的词。4.如权利要求1所述的方法，所述初始化所述各词的词向量，以及所述各词对应的各语素的语素向量，具体包括：采用随机初始化的方式或者按照指定概率分布初始化的方式，初始化所述各词的词向量，以及所述各词对应的各语素的语素向量，其中，相同语素的语素向量也相同。5.如权利要求1所述的方法，所述根据所述词向量、所述语素向量，以及分词后的所述语料，对所述词向量和所述语素向量进行训练，具体包括：确定分词后的所述语料中的指定词，以及所述指定词在分词后的所述语料中的一个或多个上下文词；根据所述指定词对应的各语素的语素向量，以及所述上下文词的词向量，确定所述指定词与所述上下文词的相似度；根据所述指定词与所述上下文词的相似度，对所述上下文词的词向量和所述指定词对应的各语素的语素向量进行更新。6.如权利要求5所述的方法，所述根据所述指定词与所述上下文词的相似度，对所述上下文词的词向量和所述指定词对应的各语素的语素向量进行更新，具体包括：从所述各词中选择一个或多个词，作为负样例词；确定所述指定词与各所述负样例词的相似度；根据指定的损失函数、所述指定词与所述上下文词的相似度，以及所述指定词与各所述负样例词的相似度，确定所述指定词对应的损失表征值；根据所述损失表征值，对所述上下文词的词向量和所述指定词对应的各语素的语素向量进行更新。7.如权利要求6所述的方法，所述根据所述损失表征值，对所述上下文词的词向量和所述指定词对应的各语素的语素向量进行更新，具体包括：根据所述损失表征值，确定所述损失函数对应的梯度；根据所述梯度，对所述上下文词的词向量和所述指定词对应的各语素的语素向量进行更新。8.如权利要求6所述的方法，所述从所述各词中选择一个或多个词，作为负样例词，具体包括：从所述各词中随机选择一个或多个词，作为负样例词。9.如权利要求1所述的方法，所述根据所述词向量、所述语素向量，以及分词后的所述语料，对所述词向量和所述语素向量进行训练，具体包括：对分词后的所述语料进行遍历，分别对分词后的所述语料中的词执行：确定该词在分词后的所述语料中的一个或多个上下文词；分别根据所述上下文词，执行：根据该词对应的各语素的语素向量，以及该上下文词的词向量，确定该词与该上下文词的相似度；根据该词与该上下文词的相似度，对该上下文词的词向量和该词对应的各语素的语素向量进行更新。10.如权利要求9所述的方法，所述根据该词对应的各语素的语素向量，以及该上下文词的词向量，确定该词与该上下文词的相似度，具体包括：所述根据该词对应的各语素的语素向量、该词的词向量，以及该上下文词的词向量，确定该词与该上下文词的相似度。11.如权利要求9所述的方法，所述确定该词在分词后的所述语料中的一个或多个上下文词，具体包括：在分词后的所述语料中，通过以该词为中心，向左和/或向右滑动指定数量个词的距离，建立窗口；将所述窗口中该词以外的词确定为该词的上下文词。12.如权利要求1～11任一项所述的方法，当所述词为英文词时，所述语素包括其对应词的以下至少一种元素：前缀、后缀、词根；当所述词为法文词时，所述语素包括其对应词的以下至少一种元素：前缀、后缀、前后缀以外的字符串。13.一种词向量处理装置，包括：分词模块，对语料分词得到各词；确定模块，确定所述各词对应的各语素；初始化模块，建立并初始化所述各词的词向量，以及所述各词对应的各语素的语素向量；训练模块，根据所述词向量、所述语素向量，以及分词后的所述语料，对所述词向量和所述语素向量进行训练；其中，所述语素包括其对应词的以下至少一种元素：前缀、后缀、词根、前后缀以外的字符串。14.如权利要求13所述的装置，所述确定模块确定所述各词对应的各语素，具体包括：所述确定模块根据对所述语料分词的结果，确定在所述语料中出现过的词；分别针对所述确定的互不相同的词，执行：确定该词对应的各语素，所述语素包括该词的以下至少一种元素：前缀、后缀、词根、前后缀以外的字符串。15.如权利要求14所述的装置，所述确定模块根据对所述语料分词的结果，确定在所述语料中出现过的词，具体包括：所述确定模块根据对所述语料分词的结果，确定在所述语料中出现过且出现次数不少于设定次数的词。16.如权利要求13所述的装置，所述初始化模块初始化所述各词的词向量，以及所述各词对应的各语素的语素向量，具体包括：所述初始化模块采用随机初始化的方式或者按照指定概率分布初始化的方式，初始化所述各词的词向量，以及所述各词对应的各语素的语素向量，其中，相同语素的语素向量也相同。17.如权利要求13所述的装置，所述训练模块根据所述词向量、所述语素向量，以及分词后的所述语料，对所述词向量和所述语素向量进行训练，具体包括：所...

【专利技术属性】
技术研发人员：曹绍升，周俊，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人