一种基于词向量模型的节点关系建模方法技术

技术编号:25439312 阅读:31 留言:0更新日期:2020-08-28 22:27
本发明专利技术公开了一种基于词向量模型的节点关系建模方法,包括以下步骤:数据预处理阶段:拉取一定天数的用户流水数据,以用户为载体生成用户数据序列,并按时间排序,得到基于用户的节点序列;向量训练阶段:根据用户为载体的节点序列,采用word2vec进行词向量训练,训练得到单个节点的向量表示;相似节点聚类阶段:以训练得到的词向量为基础,进行相似条目聚类步骤,得到相似节点的聚类结果簇;标签推理与传递阶段:在聚类结果簇中进行标签的传递与推理工作。本发明专利技术基于词向量方法,不仅根据用户的后验行为,而且根据物品之间的交互关系,建立簇内结构图并赋予边权信息,考虑了各个体之间的关联信息,综合判断做出标签推理传递,结合了群体信息使得物品的标签更为精准。

【技术实现步骤摘要】
一种基于词向量模型的节点关系建模方法
本专利技术涉及自然语言处理领域的词向量技术,特别涉及一种基于词向量模型的节点关系建模方法。
技术介绍
近年来随着互联网的高速发展,人们与数据之间的交互越来越频繁,随着电商平台,新闻类网站的普及。同时,人们对于手机也形成了很大的依赖,在手机的各类应用软件上产生数以亿计的流水数据,如购买行为,如新闻的浏览行为。在购买行为上,物品的数量和种类越发繁多,物品也具有更多,更细致的标签。在浏览行为上,各式各样的新闻也具有类别和繁多的标签。高质量的标签和分类有助于提高业务效率,优化客户体验。然而高昂的标注成本使得人工标注针对条目的标签极其低效且精度不高。业界引入基于特征的分类模型进行监督学习的方法,使用数据训练模型对未标注数据的标签进行预测,可以一定程度的提高物品标签任务的效率和准确性。但对于个性标签之类的划分,往往有很强的群体特性,传统基于特征的分类模型未能充分考虑用户群体之间的潜在联系对于交互数据类别的影响。
技术实现思路
本专利技术的目的在于考虑用户产生数据的后验行为进行数据向量化建模,使用词向量模型训练得到数据的向量表示,基于向量对数据进行聚类形成聚类簇,在簇间进行标签的推理传递操作。本专利技术基于词向量方法,不仅根据用户的后验行为,而且根据物品之间的交互关系,建立簇内结构图并赋予边权信息。考虑了各个体之间的关联信息,综合判断做出标签推理传递,结合了群体信息使得物品的标签更为精准。本专利技术的目的是这样实现的:一种基于词向量模型的节点关系建模方法,包括:数据预处理阶段、词向量训练阶段、相似节点聚类阶段、标签推理与传递阶段;数据预处理阶段:拉取一定天数的用户流水数据,以用户为载体生成用户数据序列,并按时间排序,得到基于用户的数据序列;向量训练阶段:采用word2vec进行词向量训练,训练得到单个节点的向量表示;相似节点聚类阶段:以训练得到的词向量为基础,进行相似条目聚类步骤,得到相似节点的聚类结果簇;标签推理与传递阶段:在聚类结果簇中进行标签的传递与推理工作。与现有技术相比,本专利技术的有益之处在于:本专利技术提出的所述基于词向量模型的节点关系建模方法,其数据预处理阶段,以用户的交互行为产生训练数据,以后验知识为核心生成节点序列;其词向量训练阶段,采用word2vec这样工程上优秀的模型,设定合适的滑动窗口;其相似节点聚类阶段,采用kmeans聚类算法对向量表示的节点进行聚类操作,得到具有用户后验知识的聚类结果簇;其标签推理与传递阶段,在簇内进行建图操作,基于规则对簇内关系紧密的节点进行标签传递工作。本专利技术具有以下优点,具体为:1、将节点向量化,从而挖掘节点间的潜在联系,结构优美适用性较广;2、以用户行为为基点,后验知识为基础进行模型训练,能得到最大程度上表征用户喜好的训练结果;3、本专利技术使用图结构进行最后的标签传递工作,能最大程度的关联相似节点,进行标签的传递工作。优选的,所述用户和数据之间的场景包括但不限于购买、浏览等行为,所述用户和数据之间的场景有可建模的交互关系。优选的,所述的节点标签包括但不限于类别,个性标签等。附图说明图1是本专利技术结构流程图。图2是在新闻领域本专利技术的简单示例图。图3是词向量模型word2vec的CBOW模型架构。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。如图1所示,一种基于词向量模型的节点关系建模方法,包括:数据预处理阶段、词向量训练阶段、相似节点聚类阶段、标签推理与传递阶段;数据预处理阶段:拉取一定天数的用户流水数据,以用户为载体生成用户数据序列,并按时间排序,得到基于用户的序列数据;此处选取5天的流水全量数据,在去除异常数据点后,得到足量可以用来训练的预料库;向量训练阶段:根据用户为载体的序列数据,采用word2vec进行词向量训练,训练得到单个数据的向量表示;Word2vec采用窗口size=5,将每个数据点看为单个word,每一个序列即为单个sentence;相似节点聚类阶段:以训练得到的词向量为基础,进行相似条目聚类步骤,得到相似节点的聚类结果簇;此处主要采用kmeans聚类算法;标签推理与传递阶段:在聚类结果簇中进行标签的传递与推理工作,具体来说,在同一簇中给节点和簇内所有标签进行关联度分析;其基于四个因素:标签共现次数、节点周围标签出现次数、节点相似度、标签距离进行基于规则的标签传递工作。本专利技术的工作原理阐述如下:在本专利技术的第一阶段,数据预处理阶段:首先拉取用户流水数据生成序列化训练数据,去除异常用户序列,得到基于用户后验行为的节点序列集合{U|useri={N1,N2,N3,…}}。在本专利技术的第二阶段,向量训练阶段:将节点序列进行异常数据检查处理后输入word2vec模型,训练得到每个节点的向量表示。这里采用word2vec中的CBow(ContinuousBag-of-Words)模型进行训练。该模型之所以被称为词袋模型,是因为从数学的角度看,CBoW模型等价于一个词袋模型的向量乘以一个embedding矩阵,从而得到一个连续的embedding向量。CBoW模型的原理是用文本对目标词进行预测从而学习得到词向量的表达。在本专利技术的第三阶段,相似节点聚类阶段:利用kmeans聚类方法对节点进行聚类,得到若干个聚类结果簇,每个类簇具有相似的性质或者标签。在数据量较大的情况下改采用MiniBatchKmeans聚类的方法分批传入数据,提高收敛速度。在本专利技术的第四阶段,标签推理与传递阶段:计算标签t对应某节点的得分情况,基于一下四个因素共同决定:标签共现次数、节点周围标签出现次数、节点相似度、标签距离进行基于规则的标签传递工作。本专利技术所述的数据标签包括但不限于类别,个性标签等。本专利技术基于用户行为构成的后验知识,建立词向量模型训练得到数据的向量表示,进行聚类操作并进行标签推理与传递工作。本专利技术并不局限于上述实施例,在本专利技术公开的技术方案的基础上,本领域的技术人员根据所公开的
技术实现思路
,不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形,这些替换和变形均在本专利技术的保护范围内。本文档来自技高网
...

【技术保护点】
1.一种基于词向量模型的节点关系建模方法,其特征在于,包括以下步骤:数据预处理阶段、词向量训练阶段、相似节点聚类阶段、标签推理与传递阶段;/n数据预处理阶段:拉取一定天数的用户流水数据,以用户为载体生成用户数据序列,并按时间排序,得到基于用户的节点序列;/n向量训练阶段:根据用户为载体的序列数据,采用word2vec进行词向量训练,训练得到单个节点的向量表示;/n相似节点聚类阶段:以训练得到的词向量为基础,进行相似条目聚类步骤,得到相似节点的聚类结果簇;/n标签推理与传递阶段:在聚类结果簇中进行节点标签的传递与推理工作。/n

【技术特征摘要】
1.一种基于词向量模型的节点关系建模方法,其特征在于,包括以下步骤:数据预处理阶段、词向量训练阶段、相似节点聚类阶段、标签推理与传递阶段;
数据预处理阶段:拉取一定天数的用户流水数据,以用户为载体生成用户数据序列,并按时间排序,得到基于用户的节点序列;
向量训练阶段:根据用户为载体的序列数据,采用word2vec进行词向量训练,训练得到单个节点的向量表示;
相似节点聚类阶段:以训练得到的词向量为基础,进行相似条目聚类步...

【专利技术属性】
技术研发人员:陆培丽
申请(专利权)人:上海明寰科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1