一种词向量嵌入方法及装置制造方法及图纸

技术编号:21478045 阅读:42 留言:0更新日期:2019-06-29 04:54
本发明专利技术实施例提供一种词向量嵌入方法及装置。所述方法包括:获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量;根据所述参考词向量,确定所述目标词的初始词向量;根据所述初始词向量和向量嵌入模型W2V训练所述目标词对应的目标语料集,确定所述目标词的嵌入词向量。本发明专利技术实施例提供的词向量嵌入方法,在初始化阶段就赋予目标词先验知识,即使语料集较小或者目标词在预训练语料集中未出现的情况下,也能通过向量嵌入模型训练出合理的目标词向量,使目标词的嵌入向量更接近目标词的真实语义,解决了小语料集的词向量嵌入不合理的问题,提高了词向量嵌入的准确率,进而提高了向量嵌入模型的效率。

【技术实现步骤摘要】
一种词向量嵌入方法及装置
本专利技术实施例涉及自然语言处理
,具体涉及一种词向量嵌入方法及装置。
技术介绍
向量嵌入(Word2Vec,W2V)是一种自然语言处理(NaturalLanguageProcessing,NLP)方法,W2V将文本中所有的词向量化,这样就可以定量的度量词与词之间的关系,挖掘词之间的联系。目前通用的向量嵌入工具主要包括连续词袋模型(ContinuousBag-of-WordsModel,CBOW)和Skip-Gram模型。CBOW模型的训练输入是目标词的上下文相关的词对应的词向量,输出目标词的词向量。Skip-Gram模型和CBOW的思路相反,假设相似的单词拥有相似的语境,根据当前单词预测语境,输入是目标词的一个词向量,输出是目标词对应的上下文词向量。Skip-Gram首先对句子中的目标词的词向量进行随机初始化,而后Skip-Gram去寻找参数集合θ来最大化如下条件概率:其中vc和vw分别是文本c和词w的列向量,维度为d,C是语料库中所有语境中的词构成的集合,即,词典。c’是C中文本,参数θ是vc和vw中每一维度的具体取值,p(c|w)表示词w在文本c本文档来自技高网...

【技术保护点】
1.一种词向量嵌入方法,其特征在于,包括:获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量;根据所述参考词向量,确定所述目标词的初始词向量;根据所述初始词向量和向量嵌入模型W2V训练所述目标词对应的目标语料集,确定所述目标词的嵌入词向量。

【技术特征摘要】
1.一种词向量嵌入方法,其特征在于,包括:获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量;根据所述参考词向量,确定所述目标词的初始词向量;根据所述初始词向量和向量嵌入模型W2V训练所述目标词对应的目标语料集,确定所述目标词的嵌入词向量。2.根据权利要求1所述的方法,其特征在于,所述词向量库通过下述方法确定:获取预训练语料集,所述预训练语料集大于所述目标语料集并且与所述目标语料集相交;对所述预训练语料集中的每个预训练语料进行分词处理,确定所述预训练语料集的预训练词典;根据向量嵌入模型W2V训练所述预训练语料集,确定所述预训练词典中每个词语的参考词向量;根据所述参考词向量和所述预训练词典确定词向量库。3.根据权利要求2所述的方法,其特征在于,所述获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量,包括:根据目标词匹配所述预训练词典,若匹配成功,则获取所述目标词在所述词向量库中的第一参考词向量;相应地,所述根据所述参考词向量,确定所述目标词的初始词向量,包括:将所述第一参考词向量作为所述目标词的初始词向量。4.根据权利要求2所述的方法,其特征在于,所述获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量,包括:根据目标词匹配所述预训练词典,若匹配失败,则根据预设窗口确定所述句子中所述目标词的上下文词;根据所述上下文词中的每个词语匹配所述预训练词典,确定匹配成功的上下文词在所述词向量库中的第二参考词向量;相应地,所述根据所述参考词向量,确定所述目标词的初始词向量,包括:计算所述第二参考词向量的加和平均向量,将所述加和平均向量作为所述目标词的初始词向量。5.根据权利要求1-4任一所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:张鹏
申请(专利权)人:普天信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1