词向量的生成方法、装置制造方法及图纸

技术编号:24498775 阅读:86 留言:0更新日期:2020-06-13 04:08
本申请的实施例提供了一种词向量的生成方法、装置。该方法包括:获取实体词集合,所述实体词集合中的实体词具有初始词向量;根据所述实体词集合中任意两个实体词之间的连接边关系,构建所述实体词集合的第一关系网络;根据所述实体词集合的第一关系网络,确定所述实体词集合中所述实体词的邻接矩阵;基于所述实体词的初始词向量和所述实体词的邻接矩阵,通过词向量更新模型生成所述实体词的更新词向量。通过本申请实施例的技术方案生成的词向量更具准确性。

Generating method and device of word vector

【技术实现步骤摘要】
词向量的生成方法、装置
本申请涉及自然语言处理
,具体而言,涉及一种词向量的生成方法、装置。
技术介绍
在词向量的生成场景中,通常是通过收集语料库中的语料,然后进行分词,再通过word2vec方法进行训练,最后得到实体词的词向量。在现有方法中,通过word2vec方法训练得到的实体词词向量非常依赖于分词结果以及实体词再语料中的前后位置关系,在实际操作中,通过这种方法得到的词向量的准确性不高。因此,如何能够提高实体词词向量的准确性是亟待解决的技术问题。
技术实现思路
本申请的实施例提供了一种词向量的生成方法、装置、计算机可读介质及电子设备,进而至少在一定程度上可以提高词向量生成的准确性。本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。根据本申请实施例的一个方面,提供了一种词向量的生成方法,包括:获取实体词集合,所述实体词集合中的实体词具有初始词向量;根据所述实体词集合中任意两个实体词之间的连接边关系,构建所述实体词集合的第一关系网络;根据所述实体词集合的第一关系网络,确本文档来自技高网...

【技术保护点】
1.一种词向量的生成方法,其特征在于,所述方法包括:/n获取实体词集合,所述实体词集合中的实体词具有初始词向量;/n根据所述实体词集合中任意两个实体词之间的连接边关系,构建所述实体词集合的第一关系网络;/n根据所述实体词集合的第一关系网络,确定所述实体词集合中所述实体词的邻接矩阵;/n基于所述实体词的初始词向量和所述实体词的邻接矩阵,通过词向量更新模型生成所述实体词的更新词向量。/n

【技术特征摘要】
1.一种词向量的生成方法,其特征在于,所述方法包括:
获取实体词集合,所述实体词集合中的实体词具有初始词向量;
根据所述实体词集合中任意两个实体词之间的连接边关系,构建所述实体词集合的第一关系网络;
根据所述实体词集合的第一关系网络,确定所述实体词集合中所述实体词的邻接矩阵;
基于所述实体词的初始词向量和所述实体词的邻接矩阵,通过词向量更新模型生成所述实体词的更新词向量。


2.根据权利要求1所述的方法,其特征在于,所述实体词的初始词向量可以通过如下方式获得:
在语料库中确定所述实体词的ID词向量,所述ID词向量用于表示所述实体词在语料中的位置;
通过Word2vec神经网络模型对所述实体词的ID词向量进行训练,得到所述实体词的初始词向量。


3.根据权利要求1所述的方法,其特征在于,根据所述实体词集合中任意两个实体词之间的连接边关系,构建所述实体词集合的第一关系网络,包括:
确定实体词集合中各个实体词具有的用户标签的个数;
确定实体词集合中任意两个实体词具有的相同用户标签的个数;
基于实体词集合中各个实体词具有的用户标签的个数和任意两个实体词具有的相同用户标签的个数,计算实体词集合中任意两个实体词之间的连接边概率;
根据所述连接边概率,确定所述实体词集合中任意两个实体词之间的连接边关系,以构建所述实体词集合的第一关系网络。


4.根据权利要求3所述的方法,其特征在于,通过以下公式计算所述实体词集合中任意两个实体词的连接边概率:



其中,P(a,b)表示实体词集合中实体词a与实体词b之间的连接边概率;Na表示实体词a具有的用户标签的个数;Nb表示实体词b具有的用户标签的个数;Na,b表示实体词集合中实体词a与实体词b具有的相同用户标签的个数。


5.根据权利要求3所述的方法,其特征在于,所述根据所述连接边概率,确定所述实体词集合中任意两个实体词之间的连接边关系,包括:
在所述实体词集合中任意两个实体词的连接边概率大于或等于预定阈值时,确定所述实体词集合中任意两个实体词之间存在连接关系;
在所述实体词集合中任意两个实体词的...

【专利技术属性】
技术研发人员:刘龙坡
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1