一种社交网络用户意图处理方法技术

技术编号:27369462 阅读:36 留言:0更新日期:2021-02-19 13:54
本发明专利技术涉及一种社交网络用户搜索意图处理方法,包括获取在线社交网络中包括用户信息、关注者信息和用户在线社交内容文本在内的网络数据,形成网络数据集;基于狄利克雷分布和吉布斯采样建立在线社交网络用户聚合主题模型,对所述网络数据集进行处理,得到用户搜索意图分布、关注者搜索意图分布和用户意词分布;基于用户搜索意图分布、关注者搜索意图分布进行用户意图聚合,获取最终的社交网络用户搜索意图。本发明专利技术通解决了社交网络上下文稀疏性问题,并区分建模主题词和普通词,实现了社交网络词关系学习;考虑用户搜索意图分布和关注者意图分布,构建了用户意图权重表示,实现了社交网络用户搜索意图的处理,提高了用户搜索体验。索体验。索体验。

【技术实现步骤摘要】
一种社交网络用户意图处理方法


[0001]本专利技术属于网络
,具体涉及一种社交网络用户意图处理方法。

技术介绍

[0002]社交网络为用户提供了轻量级的、快速的沟通和交流环境,用户能够利用社交网络平台传播和分享新闻事件、日常聊天及生活和工作状态情况。当用户从社交网络中搜索相关内容时,要求系统能够返回期望的结果,并根据其搜索意图进行推荐。现有的社交网络用户搜索意图处理的研究主要集中于基于主题模型方法、基于用户聚类方法以及利用用户的隐私数据等信息来综合建模用户的搜索意图方法。
[0003]传统的主题模型被设计用于建模标准的新闻文档或者长文档的语义信息,当将其应用社交网络上下文时,由于语义稀疏且缺少上下文的词共现信息,使其无法获取好的用户搜索意图处理的效果。利用用户的隐私数据如搜索历史、访问日志及点击历史等信息来综合建模用户的搜索意图也成为当前研究的热点,上述方法需要特定的数据,且严重依赖于用户的隐私数据如搜索历史及点击历史等,隐私数据的获取对于研究者来说是困难的,并且这些方法忽略了社交网络词之间的关系及用户属性对搜索意图理解的作用,无法实现社交网络用户搜索意图理解的普适应用。聚类方法没有考虑社交网络上下文中词之间的关联关系,并忽视了普通词对用户搜索意图处理的影响。

技术实现思路

[0004]鉴于上述的分析,本专利技术旨在公开了一种社交网络用户意图处理方法,解决目前用户意图处理存在的问题。
[0005]本专利技术公开了一种社交网络用户搜索意图处理方法,包括:
[0006]获取在线社交网络中包括用户信息、关注者信息和用户在线社交内容文本在内的网络数据,形成网络数据集;
[0007]基于狄利克雷分布和吉布斯采样建立在线社交网络用户聚合主题模型,对所述网络数据集进行处理,得到用户搜索意图分布、关注者搜索意图分布和用户意词分布;
[0008]基于用户搜索意图分布、关注者搜索意图分布进行用户意图聚合,获取最终的社交网络用户搜索意图。
[0009]进一步地,在线社交网络用户聚合主题模型包括主题-普通词分布模型、主题-对词分布模型、用户-搜索意图分布模型、用户-关注者的搜索意图分布模型和用户-分类模型;
[0010]基于所述用户-搜索意图分布模型对所述网络数据集进行处理,得到用户搜索意图分布;
[0011]基于所述用户-关注者的搜索意图分布模型对所述网络数据集进行处理,得到用户搜索意图分布;
[0012]基于所述主题-普通词分布模型、主题-对词分布模型和用户-分类模型对所述网
络数据集进行处理,得到所述用户搜索意图的词分布。
[0013]进一步地,所述主题-普通词分布模型符合包含第一超参数μ的狄利克雷分布;
[0014]所述主题-对词分布模型中,对词(w
i
,w
j
)的一个词分布模型符合第二超参数γ
i
的狄利克雷分布;另一个词w
j
分布模型符合第三超参数γ
j
的狄利克雷分布;
[0015]用户-搜索意图分布模型符合包含第四超参数α的狄利克雷分布;
[0016]用户-关注者的搜索意图分布模型符合包含第五超参数β的狄利克雷分布;
[0017]用户-分类模型符合包含第六超参数η的狄利克雷分布。
[0018]进一步地,第二超参数γ
i
和第三超参数γ
j
通过基于循环神经网络和逆文档频率进行先验构建。
[0019]进一步地,第二超参数γ
i
和第三超参数γ
j
的先验构建过程包括:
[0020]1)通过循环神经网络RNN对网络数据集中收录的文档中的词进行学习,得到两个相互关联的关联词的关联概率;
[0021]2)采用逆文档频率衡量每个词出现的频次;
[0022]其中,|M|表示数据集中的文档总数,|m
l
∈M:w
i
∈m
l
|,表示词w
i
出现在文档中的数量;
[0023]3)基于循环神经网络RNN的学习结果和文档中词的逆文档频率,构建与提取词对集合为C={C1,C2,

,C
w
,

,C
N
};其中IDF
wi
为词w
i
的逆文档频率;为词w
j
的逆文档频率;o
t
为通过循环神经网络RNN学习得到的关联词w
i
与w
j
的关联概率,N为词对的总数;
[0024]4)构建第二超参数第三超参数其中,是预设的正数。
[0025]进一步地,所述循环神经网络RNN的隐含层激励函数为西格玛函数;输出层激励函数为softmax函数。
[0026]进一步地,对于所述词对集合的每个词对C
w
∈C:
[0027]1)利用用户-搜索意图分布模型输出的用户搜索意图分布θ
u
作为参数的多项分布,基于多项分布采样词对的意图分配:z
u,Cw~Multi

u
),其中,Multi表示多项分布;z
u,Cw
表示用户的意图分配,u表示用户,C
w
表示词对;
[0028]2)利用用户-关注者的搜索意图分布模型输出的用户关注者搜索意图分布作为参数的多项分布,采样词对的意图分配:z
e,Cw
表示用户关注者的意图分配,e表示关注者;
[0029]3)对于词对集合C中的每个词;
[0030]利用用户-分类模型输出的用户分类的分布τ
u
作为参数的伯努利分布,采样二值开关变量x~Bern(τ
u
),其中Bern表示伯努利分布;
[0031]如果x=0,利用主题-普通词分布模型输出的一般词分布φ
z,b
作为参数的多项分布,分别采样两个词w
i
,w
j
~Multi(φ
z,b
);
[0032]如果x=1,利用主题-对词分布模型输出的词分布φ
z,1
、φ
z,2
作为参数的多项分
布,分别采样一个词w
i
~Multi(φ
z,1
)和另一个词w
j
~Multi(φ
z,2
)。
[0033]进一步地,采用吉布斯采样对建立的社交网络用户聚合主题模型进行迭代采样,得到用户搜索意图分布、用户关注者的意图分布及用户的词分布。
[0034]进一步地,通过吉布斯采样迭代采样得出:
[0035]用户搜索意图分布
[0036]用户关注者的意图分布
[0037]用户搜索意图的词分布φ
k
=[φ
k本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种社交网络用户搜索意图处理方法,其特征在于,包括:获取在线社交网络中包括用户信息、关注者信息和用户在线社交内容文本在内的网络数据,形成网络数据集;基于狄利克雷分布和吉布斯采样建立在线社交网络用户聚合主题模型,对所述网络数据集进行处理,得到用户搜索意图分布、关注者搜索意图分布和用户搜索意图的词分布;基于用户搜索意图分布、关注者搜索意图分布进行用户意图聚合,获取最终的社交网络用户搜索意图。2.根据权利要求1所述的社交网络户搜索意图处理方法,其特征在于,在线社交网络用户聚合主题模型包括主题-普通词分布模型、主题-对词分布模型、用户-搜索意图分布模型、用户-关注者的搜索意图分布模型和用户-分类模型;基于所述用户-搜索意图分布模型对所述网络数据集进行处理,得到用户搜索意图分布;基于所述用户-关注者的搜索意图分布模型对所述网络数据集进行处理,得到用户搜索意图分布;基于所述主题-普通词分布模型、主题-对词分布模型和用户-分类模型对所述网络数据集进行处理,得到所述用户搜索意图的词分布。3.根据权利要求2所述的社交网络户搜索意图处理方法,其特征在于,所述主题-普通词分布模型符合包含第一超参数μ的狄利克雷分布;所述主题-对词分布模型中,对词(w
i
,w
j
)的一个词分布模型符合第二超参数γ
i
的狄利克雷分布;另一个词w
j
分布模型符合第三超参数γ
j
的狄利克雷分布;用户-搜索意图分布模型符合包含第四超参数α的狄利克雷分布;用户-关注者的搜索意图分布模型符合包含第五超参数β的狄利克雷分布;用户-分类模型符合包含第六超参数η的狄利克雷分布。4.根据权利要求3所述的社交网络户搜索意图处理方法,其特征在于,第二超参数γ
i
和第三超参数γ
j
通过基于循环神经网络和逆文档频率进行先验构建。5.根据权利要求4所述的社交网络户搜索意图处理方法,其特征在于,第二超参数γ
i
和第三超参数γ
j
的先验构建过程包括:1)通过循环神经网络RNN对网络数据集中收录的文档中的词进行学习,得到两个相互关联的关联词的关联概率;2)采用逆文档频率衡量每个词出现的频次;其中,|M|表示数据集中的文档总数,|m
l
∈M:w
i
∈m
l
|,表示词w
i
出现在文档中的数量;3)基于循环神经网络RNN的学习结果和文档中词的逆文档频率,构建与提取词对集合为C={C1,C2,

,C
w
,

,C
N
};其中IDF
wi
为词w
i
的逆文档频率;为词w
j
的逆文档频率;o
t
为通过循环神经网络RNN学习得到的关联词w
i
与w
j
的关联概率,N为词对的总数;4)构建第二超参数γ
i
=l
×
o
t
×
IDF
wi
;第三超参数γ
j
=l
×
o
t
×
IDF
wj

【专利技术属性】
技术研发人员:石磊费廷伟崔斌段正轩潘菁菁
申请(专利权)人:北京京航计算通讯研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1