网络意见领袖识别方法及装置制造方法及图纸

技术编号:24206873 阅读:29 留言:0更新日期:2020-05-20 15:02
本发明专利技术实施例提供一种网络意见领袖识别方法及装置,属于网络领域。所述方法包括:对数据源的用户的行为数据进行关系抽取以得到用户之间的关系数据;根据所述关系数据计算预定的网络指标,其中,所述网络指标是用于表征关系数据中用户的重要性的指标;对所述数据源的所述用户的所述行为数据进行主题分类;以及根据计算出的所述网络指标和所述主题分类确定所述用户针对不同主题分类的意见领袖分数,以识别针对不同主题的意见领袖。通过将主题类型与用户的意见领袖分数相关联,使得能够快速、准确地识别出针对特定主题分类的意见领袖。

Identification method and device of network opinion leader

【技术实现步骤摘要】
网络意见领袖识别方法及装置
本专利技术涉及网络领域,具体地,涉及一种网络意见领袖识别方法及装置。
技术介绍
随着近些年来互联网及信息技术的发展,人与人之间的交流越来越密切,交流的种类和数量都有了爆炸式的发展。互联网公司、研究机构的研究人员都在尝试从这些大量交流数据中推断出有意义的信息,其中最重要的应用之一是在这些错综复杂的网络中找到意见领袖。该成果可用于许多目的,例如:用户或内容推荐、网络营销、用户建模、理解和控制网络中信息的传播等。意见领袖这一称呼,是由美国人拉扎斯菲尔德等在《人民的选择》一书中提出,最早是用于传播学、媒体学等领域。传统意见领袖,被认为媒体和一般人群间的桥梁,舆论中的观点和意见由媒体等源头流向意见领袖,再由意见领袖流向其他人群。传统意见领袖往往属于学位高、有身份的人与,而互联网中的意见领袖的个人信息是隐含的。因此,传统基于问卷、量表之类的识别意见领袖的调查方式不适用于网络场景下的分析。因此有必要提出方法来处理网络社交关系场景下的意见领袖识别任务。相关技术中,识别网络意见领袖技术一般从以下几个角度来进行:(1)从原始问卷、量表等方式发展而来,统计网络用户的各项能够抓取的指标,建立模型来判断意见领袖。(2)通过对交流文本内容的分析,构建传播模型来衡量帖主的意见传播程度。该方法中,一般以IDM(InfluenceDiffusionModel,影响力扩散模型)为基础,通过回复关系进行文本词语的传播研究。本申请专利技术人在实现上述现有技术的过程中发现,现有技术的上述方案具有以下缺陷:(1)基于统计指标构建模型分析用户特征,这类方法与收集到的统计指标准确度密切相关,分析结果很容易受到不良指标的污染,如某用户发帖数受到时间、内容审核等限制,往往得不到准确的数值,这导致整体模型的准确度不高。(2)基于内容分析的方式很容易受灌水等帖子影响,导致分析出用户的虚假影响力。
技术实现思路
本专利技术实施例的目的是提供一种网络意见领袖识别方法及装置,用于解决或至少部分解决上述技术问题。为了实现上述目的,本专利技术实施例提供一种网络意见领袖识别方法,所述方法包括:对数据源的用户的行为数据进行关系抽取以得到用户之间的关系数据;根据所述关系数据计算预定的网络指标,其中,所述网络指标是用于表征关系数据中用户的重要性的指标;对所述数据源的所述用户的所述行为数据进行主题分类;以及根据计算出的所述网络指标和所述主题分类确定所述用户针对不同主题分类的意见领袖分数,以识别针对不同主题的意见领袖。可选的,以第一三元组数据表示关系数据,其中所述第一三元组数据的两端数据分别指示第一用户和第二用户,所述第一三元组数据的中间数据指示所述第二用户对所述第一用户发生社交关系的次数。可选的,所述根据所述关系数据计算预定的网络指标包括:根据所述第一三元组数据构建所述数据源的图模型,其中,所述图模型的节点为用户节点,且每一所述第一三元组数据组成所述图模型的一条边;以及针对所述图模型的每一用户节点计算所述预定的网络指标。可选的,所述预定的网络指标包括以下一者或多者:节点的入度、节点的出度、特征向量中心度、局部聚类系数、邻居连通性、节点的PageRank值、节点与周围节点构成的最小结构紧密单元三角形数目、以及节点与每个邻居节点的Jaccord相似度。可选的,所述对所述数据源的所述用户的所述行为数据进行主题分类包括:针对每一用户,提取用于构建该用户的关系数据的行为文本;以及对所述行为文本进行主题分类。可选的,所述根据计算出的所述网络指标和所述主题分类确定所述用户针对不同主题分类的意见领袖分数包括:根据计算出的所述网络指标确定所述用户的意见领袖总分数;根据所述用户针对不同主题分类的行为数据确定所述用户针对所述不同主题分类的权重;以及根据所述用户的意见领袖总分数和所述用户针对所述不同主题分类的权重确定所述用户针对所述不同主题分类的意见领袖分数。可选的,以第二三元组数据表示所述用户针对所述不同主题分类的意见领袖分数,所述第二三元组数据三个元素分别是所述用户、主题分类、所述用户针对该主题分类的意见领袖分数。可选的,所述数据源包括一个或多个数据源。相应的,本专利技术实施例还提供一种网络意见领袖识别装置,所述装置包括:关系数据确定模块,用于对数据源的用户的行为数据进行关系抽取以得到用户之间的关系数据;网络指标计算模块,用于根据所述关系数据计算预定的网络指标,其中,所述网络指标是用于表征关系数据中用户的重要性的指标;主题分类模块,用于对所述数据源的所述用户的行为数据进行主题分类;以及识别模块,用于根据计算出的所述网络指标和所述主题分类确定所述用户针对不同主题分类的意见领袖分数,以识别针对不同主题的意见领袖。可选的,所述关系数据确定模块以第一三元组数据表示关系数据,其中所述第一三元组数据的两端数据分别指示第一用户和第二用户,所述第一三元组数据的中间数据指示所述第二用户对所述第一用户发生社交关系的次数。可选的,所述网络指标计算模块用于通过以下步骤计算预定的网络指标:根据所述第一三元组数据构建所述数据源的图模型,其中,所述图模型的节点为用户节点,且每一所述第一三元组数据组成所述图模型的一条边;以及针对所述图模型的每一用户节点计算所述预定的网络指标。可选的,所述预定的网络指标包括以下一者或多者:节点的入度、节点的出度、特征向量中心度、局部聚类系数、邻居连通性、节点的PageRank值、节点与周围节点构成的最小结构紧密单元三角形数目、以及节点与每个邻居节点的Jaccord相似度。可选的,所述主题分类模块用于根据以下步骤进行主题分类:针对每一用户,提取用于构建该用户的关系数据的行为文本;以及对所述行为文本进行主题分类。可选的,所述识别模块用于根据以下步骤确定所述用户针对不同主题分类的意见领袖分数:根据计算出的所述网络指标确定所述用户的意见领袖总分数;根据所述用户针对不同主题分类的行为数据确定所述用户针对所述不同主题分类的权重;以及根据所述用户的意见领袖总分数和所述用户针对所述不同主题分类的权重确定所述用户针对所述不同主题分类的意见领袖分数。可选的,所述识别模块以第二三元组数据表示所述用户针对所述不同主题分类的意见领袖分数,所述第二三元组数据三个元素分别是所述用户、主题分类、所述用户针对该主题分类的意见领袖分数。可选的,所述数据源包括一个或多个数据源。相应的,本专利技术实施例还提供一种机器可读存储介质,所述机器可读存储介质上存储有指令,该指令用于使得机器执行上述的网络意见领袖识别方法。相应的,本专利技术实施例还提供一种处理器,用于运行程序,其中,所述程序被运行时用于执行上述的网络意见领袖识别方法。通过上述技术方案,确定数据源内用户针对不同主题分类的意见领袖分数,以基于此识别针对不同主题的意见领袖,其通过将主题类型与用户的意见领袖分数相关联,使得能够快速、准确地识别出针对特定主题分类的意见领袖。本专利技术实施例的其它特征和优点将在随后的具体实施方式部分本文档来自技高网
...

【技术保护点】
1.一种网络意见领袖识别方法,其特征在于,所述方法包括:/n对数据源的用户的行为数据进行关系抽取以得到用户之间的关系数据;/n根据所述关系数据计算预定的网络指标,其中,所述网络指标是用于表征关系数据中用户的重要性的指标;/n对所述数据源的所述用户的所述行为数据进行主题分类;以及/n根据计算出的所述网络指标和所述主题分类确定所述用户针对不同主题分类的意见领袖分数,以识别针对不同主题的意见领袖。/n

【技术特征摘要】
1.一种网络意见领袖识别方法,其特征在于,所述方法包括:
对数据源的用户的行为数据进行关系抽取以得到用户之间的关系数据;
根据所述关系数据计算预定的网络指标,其中,所述网络指标是用于表征关系数据中用户的重要性的指标;
对所述数据源的所述用户的所述行为数据进行主题分类;以及
根据计算出的所述网络指标和所述主题分类确定所述用户针对不同主题分类的意见领袖分数,以识别针对不同主题的意见领袖。


2.根据权利要求1所述的方法,其特征在于,以第一三元组数据表示关系数据,其中所述第一三元组数据的两端数据分别指示第一用户和第二用户,所述第一三元组数据的中间数据指示所述第二用户对所述第一用户发生社交关系的次数。


3.根据权利要求2所述的方法,其特征在于,所述根据所述关系数据计算预定的网络指标包括:
根据所述第一三元组数据构建所述数据源的图模型,其中,所述图模型的节点为用户节点,且每一所述第一三元组数据组成所述图模型的一条边;以及
针对所述图模型的每一用户节点计算所述预定的网络指标。


4.根据权利要求3所述的方法,其特征在于,所述预定的网络指标包括以下一者或多者:节点的入度、节点的出度、特征向量中心度、局部聚类系数、邻居连通性、节点的PageRank值、节点与周围节点构成的最小结构紧密单元三角形数目、以及节点与每个邻居节点的Jaccord相似度。


5.根据权利要求1所述的方法,其特征在于,所述对所述数据源的所述用户的所述行为数据进行主题分类包括:
针对每一用户,提取用于构建该用户的关系数据的行为文本;以及
对所述行为文本进行主题分类。


6.根据权利要求1所述的方法,其特征在于,所述根据计算出的所述网络指标和所述主题分类确定所述用户针对不同主题分类的意见领袖分数包括:
根据计算出的所述网络指标确定所述用户的意见领袖总分数;
根据所述用户针对不同主题分类的行为数据确定所述用户针对所述不同主题分类的权重;以及
根据所述用户的意见领袖总分数和所述用户针对所述不同主题分类的权重确定所述用户针对所述不同主题分类的意见领袖分数。


7.根据权利要求6所述的方法,其特征在于,以第二三元组数据表示所述用户针对所述不同主题分类的意见领袖分数,所述第二三元组数据三个元素分别是所述用户、主题分类、所述用户针对该主题分类的意见领袖分数。


8.根据权利要求1所述的方法,其特征在于,所述数据源包括一个或多个数据源。


9.一种网络意见领袖识别装置,其特征在于,所述装置包括:
关系数据确定模块,用于对数据源的用户的行为数据进行关系抽取以得到用户之间的关系数据;
网络指标计算模块,用于根据所述关系数据计算预定的网络...

【专利技术属性】
技术研发人员:石逸轩戴明洋潘剑飞周俊罗程亮许金泉陈家伟王栋刘少杰
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1