一种基于词向量模型的节点关系建模方法技术

技术编号：25439312 阅读：31 留言：0更新日期：2020-08-28 22:27

本发明专利技术公开了一种基于词向量模型的节点关系建模方法，包括以下步骤：数据预处理阶段：拉取一定天数的用户流水数据，以用户为载体生成用户数据序列，并按时间排序，得到基于用户的节点序列；向量训练阶段：根据用户为载体的节点序列，采用word2vec进行词向量训练，训练得到单个节点的向量表示；相似节点聚类阶段：以训练得到的词向量为基础，进行相似条目聚类步骤，得到相似节点的聚类结果簇；标签推理与传递阶段：在聚类结果簇中进行标签的传递与推理工作。本发明专利技术基于词向量方法，不仅根据用户的后验行为，而且根据物品之间的交互关系，建立簇内结构图并赋予边权信息，考虑了各个体之间的关联信息，综合判断做出标签推理传递，结合了群体信息使得物品的标签更为精准。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于词向量模型的节点关系建模方法
本专利技术涉及自然语言处理领域的词向量技术，特别涉及一种基于词向量模型的节点关系建模方法。
技术介绍
近年来随着互联网的高速发展，人们与数据之间的交互越来越频繁，随着电商平台，新闻类网站的普及。同时，人们对于手机也形成了很大的依赖，在手机的各类应用软件上产生数以亿计的流水数据，如购买行为，如新闻的浏览行为。在购买行为上，物品的数量和种类越发繁多，物品也具有更多，更细致的标签。在浏览行为上，各式各样的新闻也具有类别和繁多的标签。高质量的标签和分类有助于提高业务效率，优化客户体验。然而高昂的标注成本使得人工标注针对条目的标签极其低效且精度不高。业界引入基于特征的分类模型进行监督学习的方法，使用数据训练模型对未标注数据的标签进行预测，可以一定程度的提高物品标签任务的效率和准确性。但对于个性标签之类的划分，往往有很强的群体特性，传统基于特征的分类模型未能充分考虑用户群体之间的潜在联系对于交互数据类别的影响。
技术实现思路
本专利技术的目的在于考虑用户产生数据的后验行为进行数据向量化建模，使用词向量模型训练得到数据的向量表示，基于向量对数据进行聚类形成聚类簇，在簇间进行标签的推理传递操作。本专利技术基于词向量方法，不仅根据用户的后验行为，而且根据物品之间的交互关系，建立簇内结构图并赋予边权信息。考虑了各个体之间的关联信息，综合判断做出标签推理传递，结合了群体信息使得物品的标签更为精准。本专利技术的目的是这样实现的：一种基于词向量模型的节点关系建模方法，包括：数据...

【技术保护点】
1.一种基于词向量模型的节点关系建模方法，其特征在于，包括以下步骤：数据预处理阶段、词向量训练阶段、相似节点聚类阶段、标签推理与传递阶段；/n数据预处理阶段：拉取一定天数的用户流水数据，以用户为载体生成用户数据序列，并按时间排序，得到基于用户的节点序列；/n向量训练阶段：根据用户为载体的序列数据，采用word2vec进行词向量训练，训练得到单个节点的向量表示；/n相似节点聚类阶段：以训练得到的词向量为基础，进行相似条目聚类步骤，得到相似节点的聚类结果簇；/n标签推理与传递阶段：在聚类结果簇中进行节点标签的传递与推理工作。/n

【技术特征摘要】
1.一种基于词向量模型的节点关系建模方法，其特征在于，包括以下步骤：数据预处理阶段、词向量训练阶段、相似节点聚类阶段、标签推理与传递阶段；
数据预处理阶段：拉取一定天数的用户流水数据，以用户为载体生成用户数据序列，并按时间排序，得到基于用户的节点序列；
向量训练阶段：根据用户为载体的序列数据，采用word2vec进行词向量训练，训练得到单个节点的向量表示；
相似节点聚类阶段：以训练得到的词向量为基础，进行相似条目聚类步...

【专利技术属性】
技术研发人员：陆培丽，
申请(专利权)人：上海明寰科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人