一种社交网络用户意图处理方法技术

技术编号：27369462 阅读：36 留言：0更新日期：2021-02-19 13:54

本发明专利技术涉及一种社交网络用户搜索意图处理方法，包括获取在线社交网络中包括用户信息、关注者信息和用户在线社交内容文本在内的网络数据，形成网络数据集；基于狄利克雷分布和吉布斯采样建立在线社交网络用户聚合主题模型，对所述网络数据集进行处理，得到用户搜索意图分布、关注者搜索意图分布和用户意词分布；基于用户搜索意图分布、关注者搜索意图分布进行用户意图聚合，获取最终的社交网络用户搜索意图。本发明专利技术通解决了社交网络上下文稀疏性问题，并区分建模主题词和普通词，实现了社交网络词关系学习；考虑用户搜索意图分布和关注者意图分布，构建了用户意图权重表示，实现了社交网络用户搜索意图的处理，提高了用户搜索体验。索体验。索体验。

全部详细技术资料下载

【技术实现步骤摘要】
一种社交网络用户意图处理方法

[0001]本专利技术属于网络
，具体涉及一种社交网络用户意图处理方法。

技术介绍

[0002]社交网络为用户提供了轻量级的、快速的沟通和交流环境，用户能够利用社交网络平台传播和分享新闻事件、日常聊天及生活和工作状态情况。当用户从社交网络中搜索相关内容时，要求系统能够返回期望的结果，并根据其搜索意图进行推荐。现有的社交网络用户搜索意图处理的研究主要集中于基于主题模型方法、基于用户聚类方法以及利用用户的隐私数据等信息来综合建模用户的搜索意图方法。
[0003]传统的主题模型被设计用于建模标准的新闻文档或者长文档的语义信息，当将其应用社交网络上下文时，由于语义稀疏且缺少上下文的词共现信息，使其无法获取好的用户搜索意图处理的效果。利用用户的隐私数据如搜索历史、访问日志及点击历史等信息来综合建模用户的搜索意图也成为当前研究的热点，上述方法需要特定的数据，且严重依赖于用户的隐私数据如搜索历史及点击历史等，隐私数据的获取对于研究者来说是困难的，并且这些方法忽略了社交网络词之间的关系及用户属性对搜索意图理解的作用，无法实现社交网络用户搜索意图理解的普适应用。聚类方法没有考虑社交网络上下文中词之间的关联关系，并忽视了普通词对用户搜索意图处理的影响。

技术实现思路

[0004]鉴于上述的分析，本专利技术旨在公开了一种社交网络用户意图处理方法，解决目前用户意图处理存在的问题。
[0005]本专利技术公开了一种社交网络用户搜索意图处理方法，包括：
[0006]获取...

【技术保护点】

【技术特征摘要】
1.一种社交网络用户搜索意图处理方法，其特征在于，包括：获取在线社交网络中包括用户信息、关注者信息和用户在线社交内容文本在内的网络数据，形成网络数据集；基于狄利克雷分布和吉布斯采样建立在线社交网络用户聚合主题模型，对所述网络数据集进行处理，得到用户搜索意图分布、关注者搜索意图分布和用户搜索意图的词分布；基于用户搜索意图分布、关注者搜索意图分布进行用户意图聚合，获取最终的社交网络用户搜索意图。2.根据权利要求1所述的社交网络户搜索意图处理方法，其特征在于，在线社交网络用户聚合主题模型包括主题-普通词分布模型、主题-对词分布模型、用户-搜索意图分布模型、用户-关注者的搜索意图分布模型和用户-分类模型；基于所述用户-搜索意图分布模型对所述网络数据集进行处理，得到用户搜索意图分布；基于所述用户-关注者的搜索意图分布模型对所述网络数据集进行处理，得到用户搜索意图分布；基于所述主题-普通词分布模型、主题-对词分布模型和用户-分类模型对所述网络数据集进行处理，得到所述用户搜索意图的词分布。3.根据权利要求2所述的社交网络户搜索意图处理方法，其特征在于，所述主题-普通词分布模型符合包含第一超参数μ的狄利克雷分布；所述主题-对词分布模型中，对词(w
i
，w
j
)的一个词分布模型符合第二超参数γ
i
的狄利克雷分布；另一个词w
j
分布模型符合第三超参数γ
j
的狄利克雷分布；用户-搜索意图分布模型符合包含第四超参数α的狄利克雷分布；用户-关注者的搜索意图分布模型符合包含第五超参数β的狄利克雷分布；用户-分类模型符合包含第六超参数η的狄利克雷分布。4.根据权利要求3所述的社交网络户搜索意图处理方法，其特征在于，第二超参数γ
i
和第三超参数γ
j
通过基于循环神经网络和逆文档频率进行先验构建。5.根据权利要求4所述的社交网络户搜索意图处理方法，其特征在于，第二超参数γ
i
和第三超参数γ
j
的先验构建过程包括：1)通过循环神经网络RNN对网络数据集中收录的文档中的词进行学习，得到两个相互关联的关联词的关联概率；2)采用逆文档频率衡量每个词出现的频次；其中，|M|表示数据集中的文档总数，|m
l
∈M:w
i
∈m
l
|，表示词w
i
出现在文档中的数量；3)基于循环神经网络RNN的学习结果和文档中词的逆文档频率，构建与提取词对集合为C＝{C1,C2,
…
,C
w
,
…
,C
N
}；其中IDF
wi
为词w
i
的逆文档频率；为词w
j
的逆文档频率；o
t
为通过循环神经网络RNN学习得到的关联词w
i
与w
j
的关联概率，N为词对的总数；4)构建第二超参数γ
i
＝l
×
o
t
×
IDF
wi
；第三超参数γ
j
＝l
×
o
t
×
IDF
wj

【专利技术属性】
技术研发人员：石磊，费廷伟，崔斌，段正轩，潘菁菁，
申请(专利权)人：北京京航计算通讯研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人