【技术实现步骤摘要】
词向量生成模型训练方法及装置和词向量生成方法及装置
[0001]本申请涉及但不限于人工智能技术,尤指一种词向量生成模型训练方法及装置和词向量生成方法及装置。
技术介绍
[0002]词向量算法是自然语言处理领域的基础算法,在序列标注、问答系统和机器翻译等应用场景中都发挥了重要作用。相关技术中,词向量算法大多数仅适用于拉丁字符构成的单词(比如:英文、法文等),而中文语言特性的词向量研究相对较少。
[0003]计算机跟人不一样,计算机很难理解人类语言的语义。比如:对于“猫”和“猫咪”这样会两个词会被计算机认为是两个无关的词语,因为计算机很难刻画这两个词语的语义相似度。而利用词向量算法,可以为“猫”和“猫咪”两个词分别生成一个向量,进而通过这两个向量的夹角余弦值来计算出这两个词语的语义相似度(0~1之间的实数),比如:通过计算得到“猫”和“猫咪”两个词的相似度为0.95,那么,表示“猫”和“猫咪”是语义很接近的两个词语。也就是说,词向量算法的准确度,对于计算机语义理解的能力具有决定性意义。
[0004]传统的词向量算 ...
【技术保护点】
【技术特征摘要】
1.一种词向量生成模型训练方法,包括:确定训练数据中的每一个上下文词语对应的n元笔画信息,将确定的n元笔画信息输入卷积神经网络进行卷积-池化处理获取第一特征向量;将上下文词语对应的当前词语和负样例输入卷积神经网络进行全连接处理获取第二特征向量;根据得到的第一特征向量和第二特征向量,获取卷积神经网络的参数以确定词向量生成模型。2.根据权利要求1所述的词向量生成模型训练方法,所述确定训练数据中的每一个上下文词语对应的n元笔画信息之前,还包括:以句为单位扫描所述训练数据,统计所述训练数据中出现过的词语并建立词汇表;扫描建立的词汇表,记录每一个词语对应的n元笔画,并建立词语-n元笔画的映射关系;为词汇表中的词语建立词向量及n元笔画特征向量。3.根据权利要求2所述的词向量生成模型训练方法,其中,所述统计所述训练数据中出现过的词语并建立词汇表,包括:统计所述训练数据中出现次数大于或等于预设次数的所述词语。4.根据权利要求2或3所述的词向量生成模型训练方法,其中,所述确定训练数据中的每一个上下文词语对应的n元笔画信息,包括:根据所述词语-n元笔画的映射关系,分别建立所述上下文词语中每个词语对应的n元笔画特征向量;将获得的n元笔画特征向量作为所述上下文词语对应的n元笔画信息。5.根据权利要求4所述的词向量生成模型训练方法,其中,所述将确定的n元笔画信息输入卷积神经网络进行卷积-池化处理获取第一特征向量,包括:在当前词语对应的上下文词语中,从第一个词语开始以包括预设数目θ个词语为一个滑窗;将获得的每个滑窗中的词语对应的n元笔画特征向量作为卷积神经网络的输入,进行卷积-池化处理获取所述第一特征向量。6.根据权利要求1所述的词向量生成模型训练方法,所述将上下文词语对应的当前词语和负样例输入卷积神经网络之前,还包括:从所述训练数据中获取与当前所述上下文词语不同的词语作为所述负样例。7.根据权利要求1或6所述的词向量...
【专利技术属性】
技术研发人员:曹绍升,王轲,赵宇,张昱琪,骆卫华,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。