兴趣圈主题确定方法、装置、服务器和介质制造方法及图纸

技术编号:24091796 阅读:44 留言:0更新日期:2020-05-09 08:24
本发明专利技术实施例公开了一种兴趣圈主题确定方法、装置、服务器和介质,其中,该方法包括:基于目标兴趣圈中用户间发生交互行为所针对的数据源,确定出每个用户对应的至少一个关注词;统计每个关注词在目标兴趣圈的全部用户中出现的目标圈用户频数,以及每个关注词在网络内的全部用户中出现的网络用户频数;根据目标圈用户频数、网络用户频数以及目标兴趣圈总用户数、网络总用户数计算每个关注词的目标群体指数;利用目标圈用户频数和目标群体指数对至少一个关注词进行过滤,利用过滤后得到的至少一个关注词确定目标兴趣圈的主题。本发明专利技术实施例解决了现有技术中确定兴趣圈主题的准确性较低的问题,提高了兴趣圈主题确定的准确性和针对性。

Methods, devices, servers and media for topic determination of interest circle

【技术实现步骤摘要】
兴趣圈主题确定方法、装置、服务器和介质
本专利技术实施例涉及计算机
,尤其涉及一种兴趣圈主题确定方法、装置、服务器和介质。
技术介绍
生活中的各种关系都能构成关系网络结构,根据网络结构内关系的连接的紧密和稀疏分布,能发现其内部结构紧密,外部结构稀疏的不同的关系圈子。而准确确定圈子的兴趣主题才能对圈子内用户进行准确的话题推荐、商品推荐和为用户合理地打标签。现有技术中确定圈子主题的方法通常包括如下几种:1)根据圈子内用户共同出现的属性和关注点出现的频数来确定圈子的主题,当圈子出现多个不同的主题时,设定频数的阈值,对其主题进行过滤。圈子内用户的属性和关注点存在普遍性,大部分用户都包含对应的属性,这样导致大部分的圈子的主题都是一致的,不具有针对性。而且,当圈子出现多个不同的主题时,采用设置阈值,没有一定的科学依据,并且不同圈子的主题选择也不存在差异性。2)根据两个圈子差异的属性来确定圈子主题。在现实的交互过程中存在不同的圈子有共同主题的特性,只是圈子之间不存在交互或交互程度弱。圈子很大程度是相同的主本文档来自技高网...

【技术保护点】
1.一种兴趣圈主题确定方法,其特征在于,包括:/n基于目标兴趣圈中用户间发生交互行为所针对的数据源,确定出每个用户对应的至少一个关注词,其中,所述目标兴趣圈是基于至少两种数据源构建而成;/n统计每个关注词在目标兴趣圈的全部用户中出现的目标圈用户频数,以及每个关注词在网络内的全部用户中出现的网络用户频数,其中,所述网络中包含目标兴趣圈以及除目标兴趣圈之外的其他至少一个兴趣圈;/n根据所述目标圈用户频数、网络用户频数以及目标兴趣圈总用户数、网络总用户数计算每个关注词的目标群体指数,其中,所述目标群体指数用于描述目标群体关注的兴趣指标;/n利用所述目标圈用户频数和所述目标群体指数对所述至少一个关注词...

【技术特征摘要】
1.一种兴趣圈主题确定方法,其特征在于,包括:
基于目标兴趣圈中用户间发生交互行为所针对的数据源,确定出每个用户对应的至少一个关注词,其中,所述目标兴趣圈是基于至少两种数据源构建而成;
统计每个关注词在目标兴趣圈的全部用户中出现的目标圈用户频数,以及每个关注词在网络内的全部用户中出现的网络用户频数,其中,所述网络中包含目标兴趣圈以及除目标兴趣圈之外的其他至少一个兴趣圈;
根据所述目标圈用户频数、网络用户频数以及目标兴趣圈总用户数、网络总用户数计算每个关注词的目标群体指数,其中,所述目标群体指数用于描述目标群体关注的兴趣指标;
利用所述目标圈用户频数和所述目标群体指数对所述至少一个关注词进行过滤,利用过滤后得到的至少一个关注词确定目标兴趣圈的主题。


2.根据权利要求1所述的方法,其特征在于,所述目标群体指数的计算公式为:(目标圈用户频数/目标兴趣圈总用户数)/(网络用户频数/网络总用户数)。


3.根据权利要求1或2所述的方法,其特征在于,利用所述目标圈用户频数和所述目标群体指数对所述至少一个关注词进行过滤,利用过滤后得到的至少一个关注词确定目标兴趣圈的主题,包括:
在所述至少一个关注词中,过滤掉目标用户频数不符合预设阈值的关注词;
利用过滤后的每个关注词的目标群体指数建立长尾分布曲线,并确定其拐点,将拐点之后对应的关注词进行过滤,得到最终的至少一个目标关注词;
利用所述至少一个目标关注词确定目标兴趣圈的主题。


4.根据权利要求1所述的方法,其特征在于,所述利用过滤后得到的至少一个关注词确定目标兴趣圈的主题,包括:
将所述过滤至少一个关注词进行拼接,将拼接后的关注词作为目标兴趣圈的主题。


5.根据权利要求1所述的方法,其特征在于,所述利用过滤后得到的至少一个关注词确定目标兴趣圈的主题,包括:
过滤基于所述目标圈用户频数和所述目标群体指数过滤得到的至少一个关注词中的近似词;
对近似词过滤后的每个关注词进行编码,并通过聚类得到至少一个关注词集合;
确定每个关注词集合中,关注词的目标群体指数最高的关注词,并对其进行拼接,将拼接后的关注词作为目标兴趣圈的主题。


6.根据权利要求1所述的方法,其特征在于,所述关注词包括贴吧、feed文章和博文中的至少两种;
当所述交互行为针对的数据源是贴吧,则将贴吧中的吧名作为关注词;
当所述交互行为针对的数据源是博文,则将博文的目录作为关注词;
当所述交互行为针对的数据源是feed文章,则按照如下操作确定关注词:
对feed文章的标题进行分词,计算每个分词结果相对该feed文章的词频逆文档频率,将所述词频逆文档频率符合预设阈值的至少一个分词结果进行拼接,拼接后的结果作为所述关注词。


7.一种兴趣圈主题确定装置,其特征在于,包括:
关注词确定模块,用于基于目标兴趣圈中用户间发生交互行为所针对的数据源,确定出每个用户对应的至少一个关注词,其中,所述目标兴趣圈是基于至少两种数据源构建而成;
频数统计模块,用于统计每个关注词在目标兴趣...

【专利技术属性】
技术研发人员:潘剑飞戴明洋石逸轩罗程亮姚远杨胜文范斌周俊许金泉陈家伟王栋刘少杰刘康王楠
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1