用户关系抽取方法和用户关系抽取系统技术方案

技术编号:17304449 阅读:22 留言:0更新日期:2018-02-18 22:29
本发明专利技术提出了一种用户关系抽取方法和一种用户关系抽取系统,其中,用户关系抽取方法包括:获取第一用户的第一发布数据和第二用户的第二发布数据;通过LDA算法在第一发布数据和第二发布数据中分别抽取第一发布数据中的话题特征词和第二发布数据中的话题特征词;根据语义相似度计算公式,计算第一发布数据中的话题特征词和第二发布数据中的话题特征词之间的语义相似度;根据语义相似度,确定第一用户和第二用户之间的关系数据。通过本发明专利技术的技术方案,可以实时自动抽取不同用户之间的话题,计算其相似性,并根据抽取结果确定不同用户之间的关系,可以辅助系统、用户或其他第三方准确快速了解用户关系分布情况,便于对发布敏感话题的用户进行追踪。

User relationship extraction and user relationship extraction system

【技术实现步骤摘要】
用户关系抽取方法和用户关系抽取系统
本专利技术涉及数据处理
,具体而言,涉及一种用户关系抽取方法和一种用户关系抽取系统。
技术介绍
目前,社交网络不断兴起,逐渐超越电视、新闻、论坛,成为社会舆情的重要发生地和扩散地,它带来了信息生产和传播方式的革命。据中国互联网络信息中心统计,截至2014年12月底,中国网民规模达到6.49亿。因此,越来越多的用户利用微博等平台来发表各种话题,而不同的话题之间又存在着一定的联系。眼下,对用户关系进行抽取的方法主要是根据不同用户之间的互粉情况、转发和评论博文情况等来提取用户关系特征,从而抽取出不同用户之间的关系。但是此种方法无法关注用户实际发布的内容,准确性较低,也不能突出某些用户在特定的时间段内发生的关系。因此需要一种新的技术方案,可以进一步提升对社交网络中的用户关系进行抽取的准确性。
技术实现思路
本专利技术正是基于上述问题,提出了一种新的技术方案,可以进一步提升对社交网络中的用户关系进行抽取的准确性。有鉴于此,本专利技术的一方面提出了一种用户关系抽取方法,包括:获取第一用户的第一发布数据和第二用户的第二发布数据;通过LDA算法在所述第一发布数据和所述第二发布数据中分别抽取所述第一发布数据中的话题特征词和所述第二发布数据中的话题特征词;根据语义相似度计算公式,计算所述第一发布数据中的话题特征词和所述第二发布数据中的话题特征词之间的语义相似度;根据所述语义相似度,确定所述第一用户和所述第二用户之间的关系数据。在该技术方案中,可以从社交平台上获取用户发布的数据,比如,获取微博用户发布的微博内容,获取QQ空间用户发表的心情,获取微信用户发布的朋友圈,这些数据主要为文字信息,也可以是从用户发布的图片、视频等多媒体文件里获取到的文字信息。LDA为文档主题生成模型,LDA算法具有稀疏性,本专利技术中具体可以使用Gibbs采样算法中的加速算法,可以准确地将多个用户的发布数据中的话题特征词抽取出来,并根据不同用户的发布数据之间的语义相似度,来确定不同用户之间的关系数据。比如,利用LDA算法对A用户和B用户每周的微博博文进行话题特征词的抽取,并求得其各个话题特征词之间的相似度,这样,即可进一步获取A用户和B用户的关系数据。其中,由于每个用户的发布数据中往往能够提取出多个话题特征词,为了确保相似度计算的准确性,比如,可以将第一用户的任一话题特征词与第二用户的每个话题特征词逐个进行语义相似度的比较,并将结果中的最高语义相似度确定为该任一话题特征词对应的语义相似度,进一步地,可以求得第一用户的每个话题特征词对应的最高相似度,从而能够明确知晓第一用户和第二用户之间的关系,并能够通过系统向这两个用户分别推荐对方,或向该两个用户同时推送与语义相似度超过预定值的话题特征词相关的推送内容。通过该技术方案,可以实时自动抽取不同用户之间的话题,计算其相似性,并根据抽取结果确定不同用户之间的关系,提升了关系获取的效率和准确性,可以辅助系统、用户或其他第三方准确快速了解用户关系分布情况,便于对发布敏感话题的用户进行追踪和调查。在上述技术方案中,优选地,在所述分别抽取所述第一发布数据中的话题特征词和所述第二发布数据中的话题特征词之前,还包括:对所述第一发布数据和所述第二发布数据进行预处理,所述预处理的步骤包括以下至少之一或其组合:去重处理步骤、简繁体转换步骤和无关信息剔除步骤。在该技术方案中,可以对用户的发布数据进行去重、简繁体转换、无关信息剔除等预处理,以得到更规范的数据,便于进一步进行话题特征词的抽取。在上述任一技术方案中,优选地,在所述分别抽取所述第一发布数据中的话题特征词和所述第二发布数据中的话题特征词之前,还包括:构建分布式云计算平台,以供在所述分布式云计算平台上进行抽取所述话题特征词的步骤。在该技术方案中,抽取话题特征词需要在建立的分布式云计算平台上进行,其中,一般可以建立HADOOP分布式平台,HADOOP分布式平台是由apache基金会开发的分布式系统基础架构,可以对数据进行快速有效的处理。在上述任一技术方案中,优选地,在所述分别抽取所述第一发布数据中的话题特征词和所述第二发布数据中的话题特征词之前,还包括:按照预定时间段将所述第一用户的所述第一发布数据和所述第二用户的所述第二发布数据分别划分为多组子数据,其中,同一时间段内的所述第一用户的子数据与同一时间段内的所述第二用户的子数据相对应;以及所述分别抽取所述第一发布数据中的话题特征词和所述第二发布数据中的话题特征词,具体包括:分别抽取所述同一时间段内的所述第一用户的子数据的话题特征词和相对应的所述第二用户的子数据的话题特征词,以供计算所述同一时间段内的所述第一用户的每个话题特征词与所述第二用户的每个话题特征词的语义相似度。在该技术方案中,可以对预定时间段内的用户的发布数据进行语义相似度的计算,从而可以确定该预定时间段内用户之间的关系数据,预定时间段可以由系统自带,也可以由具有管理权限的用户根据实际需要进行设置,还可以由系统根据实际情况自动选择合适的预定时间段。进一步地,再计算两个用户在同一时间段内的话题特征词之间的相似度,进而可以实时自动抽取不同用户之间的话题,计算其相似性,并根据抽取结果确定不同用户之间的关系,提升了关系获取的效率和准确性,可以辅助系统、用户或其他第三方准确快速了解用户关系分布情况,便于对发布敏感话题的用户进行追踪和调查。在上述任一技术方案中,优选地,所述语义相似度计算公式为:其中,wi和wj分别为所述第一用户的任一话题特征词和所述第二用户的任一话题特征词,SIM(wi,wj)表示wi和wj的语义相似度,δ为可调节参数,Dis(wi,wj)为wi和wj的语义距离。在该技术方案中,语义距离与语义相似度成反比,通过可调节参数δ和两个用户的话题特征词之间的语义距离,可以求得其对应的语义相似度。本专利技术的另一方面提出了一种用户关系抽取系统,包括:发布数据获取单元,获取第一用户的第一发布数据和第二用户的第二发布数据;话题抽取单元,通过LDA算法在所述第一发布数据和所述第二发布数据中分别抽取所述第一发布数据中的话题特征词和所述第二发布数据中的话题特征词;语义相似度计算单元,根据语义相似度计算公式,计算所述第一发布数据中的话题特征词和所述第二发布数据中的话题特征词之间的语义相似度;关系数据确定单元,根据所述语义相似度,确定所述第一用户和所述第二用户之间的关系数据。在该技术方案中,可以从社交平台上获取用户发布的数据,比如,获取微博用户发布的微博内容,获取QQ空间用户发表的心情,获取微信用户发布的朋友圈,这些数据主要为文字信息,也可以是从用户发布的图片、视频等多媒体文件里获取到的文字信息。LDA为文档主题生成模型,LDA算法具有稀疏性,本专利技术中具体可以使用Gibbs采样算法中的加速算法,可以准确地将多个用户的发布数据中的话题特征词抽取出来,并根据不同用户的发布数据之间的语义相似度,来确定不同用户之间的关系数据。比如,利用LDA算法对A用户和B用户每周的微博博文进行话题特征词的抽取,并求得其各个话题特征词之间的相似度,这样,即可进一步获取A用户和B用户的关系数据。其中,由于每个用户的发布数据中往往能够提取出多个话题特征词,为了确保本文档来自技高网...
用户关系抽取方法和用户关系抽取系统

【技术保护点】
一种用户关系抽取方法,其特征在于,包括:获取第一用户的第一发布数据和第二用户的第二发布数据;通过LDA算法在所述第一发布数据和所述第二发布数据中分别抽取所述第一发布数据中的话题特征词和所述第二发布数据中的话题特征词;根据语义相似度计算公式,计算所述第一发布数据中的话题特征词和所述第二发布数据中的话题特征词之间的语义相似度;根据所述语义相似度,确定所述第一用户和所述第二用户之间的关系数据。

【技术特征摘要】
1.一种用户关系抽取方法,其特征在于,包括:获取第一用户的第一发布数据和第二用户的第二发布数据;通过LDA算法在所述第一发布数据和所述第二发布数据中分别抽取所述第一发布数据中的话题特征词和所述第二发布数据中的话题特征词;根据语义相似度计算公式,计算所述第一发布数据中的话题特征词和所述第二发布数据中的话题特征词之间的语义相似度;根据所述语义相似度,确定所述第一用户和所述第二用户之间的关系数据。2.根据权利要求1所述的用户关系抽取方法,其特征在于,在所述分别抽取所述第一发布数据中的话题特征词和所述第二发布数据中的话题特征词之前,还包括:对所述第一发布数据和所述第二发布数据进行预处理,所述预处理的步骤包括以下至少之一或其组合:去重处理步骤、简繁体转换步骤和无关信息剔除步骤。3.根据权利要求1所述的用户关系抽取方法,其特征在于,在所述分别抽取所述第一发布数据中的话题特征词和所述第二发布数据中的话题特征词之前,还包括:构建分布式云计算平台,以供在所述分布式云计算平台上进行抽取所述话题特征词的步骤。4.根据权利要求1至3中任一项所述的用户关系抽取方法,其特征在于,在所述分别抽取所述第一发布数据中的话题特征词和所述第二发布数据中的话题特征词之前,还包括:按照预定时间段将所述第一用户的所述第一发布数据和所述第二用户的所述第二发布数据分别划分为多组子数据,其中,同一时间段内的所述第一用户的子数据与同一时间段内的所述第二用户的子数据相对应;以及所述分别抽取所述第一发布数据中的话题特征词和所述第二发布数据中的话题特征词,具体包括:分别抽取所述同一时间段内的所述第一用户的子数据的话题特征词和相对应的所述第二用户的子数据的话题特征词,以供计算所述同一时间段内的所述第一用户的每个话题特征词与所述第二用户的每个话题特征词的语义相似度。5.根据权利要求4所述的用户关系抽取方法,其特征在于,所述语义相似度计算公式为:其中,wi和wj分别为所述第一用户的任一话题特征词和所述第二用户的任一话题特征词,SIM(wi,wj)表示wi和wj的语义相似度,δ为可调节参数,Dis(wi,wj)为wi和wj的语义距离。6.一种用户关系抽取系统,其...

【专利技术属性】
技术研发人员:王九硕张丹赵增峰于晓明杨建武
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1