用户关键词提取装置、方法及计算机可读存储介质制造方法及图纸

技术编号:17304492 阅读:37 留言:0更新日期:2018-02-18 22:34
本发明专利技术公开了一种基于社交网络的用户关键词提取方法,包括:获取目标用户在预设时间区间内发表过的博文,并进行分词处理,获取每条博文的单词列表;将获取的每个博文对应的单词列表输入到Word2Vec模型中进行训练获取词向量模型;基于关键词提取算法提取博文对应的关键词构成目标用户的候选关键词集合,并基于词向量模型计算候选关键词集合中每个关键词的词向量,并构建语义相似图;在语义相似图上运行Pagerank算法为关键词打分以获取用户的兴趣关键词。本发明专利技术还提出一种基于社交网络的用户关键词提取装置以及一种计算机可读存储介质。本发明专利技术解决了现有技术中难以根据用户的博文提取出能够有效代表用户的兴趣的关键词的技术问题。

User keyword extraction device, method and computer readable storage medium

The invention discloses a method for extracting keywords, users based on social network includes: acquiring the target user at a preset time interval in the published blog, and word segmentation, word list for each post; the list of words corresponding to each post acquisition input into Word2Vec model for training and obtaining the word vector model; the candidate words extraction algorithm to extract the corresponding post constitute the target user set based on word vector and word vector model based on computing the candidate set of keywords in each keyword, and construct the semantic similarity graph; similar interest keywords run Pagerank algorithm as the keyword score in order to get the user on the map in the semantic. The invention also proposes a user keyword extraction device based on social network and a computer readable storage medium. The invention solves the technical problem that the existing technology is difficult to extract key words which can effectively represent the interest of the user according to the user's blog.

【技术实现步骤摘要】
用户关键词提取装置、方法及计算机可读存储介质
本专利技术涉及计算机
,尤其涉及一种基于社交网络的用户关键词提取装置、方法及计算机可读存储介质。
技术介绍
目前,随着社交网络的普及,基于微博等社交网络的各种应用也越来越多,例如,针对用户的博文进行个性化的推荐,目前的推荐方式主要是基于相同标签信息的好友推荐、基于共同关注的好友推荐、基于话题热度的微博话题推荐等,但是这种推荐方式局限性大,难以根据用户的兴趣爱好有针对性地进行推荐。所以,如何从海量博文数据中,提取出能够有效代表用户的兴趣的关键词,分析确定用户的真正兴趣是急需解决的问题。
技术实现思路
本专利技术提供一种基于社交网络的用户关键词提取装置、方法及计算机可读存储介质,其主要目的在于解决现有技术中难以根据用户的博文提取出能够有效代表用户的兴趣的关键词的技术问题。为实现上述目的,本专利技术提供一种基于社交网络的用户关键词提取装置,该装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的用户关键词提取程序,所述用户关键词提取程序被所述处理器执行时实现如下步骤:获取目标用户在预设时间区间内发表过的博文,使用预设的分词工具对获取本文档来自技高网...
用户关键词提取装置、方法及计算机可读存储介质

【技术保护点】
一种基于社交网络的用户关键词提取装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的用户关键词提取程序,所述用户关键词提取程序被所述处理器执行时实现如下步骤:获取目标用户在预设时间区间内发表过的博文,使用预设的分词工具对获取的博文进行分词处理,分别获取每条博文对应的单词列表;将获取的每个博文对应的单词列表输入到Word2Vec模型中进行训练,以获取词向量模型;基于关键词提取算法从博文的单词列表中提取该博文对应的关键词,将所述目标用户在所述预设时间区间内发表过的博文累计的关键词构成所述目标用户的候选关键词集合,并基于所述词向量模型计算所述候选关键词集合中每一个关...

【技术特征摘要】
1.一种基于社交网络的用户关键词提取装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的用户关键词提取程序,所述用户关键词提取程序被所述处理器执行时实现如下步骤:获取目标用户在预设时间区间内发表过的博文,使用预设的分词工具对获取的博文进行分词处理,分别获取每条博文对应的单词列表;将获取的每个博文对应的单词列表输入到Word2Vec模型中进行训练,以获取词向量模型;基于关键词提取算法从博文的单词列表中提取该博文对应的关键词,将所述目标用户在所述预设时间区间内发表过的博文累计的关键词构成所述目标用户的候选关键词集合,并基于所述词向量模型计算所述候选关键词集合中每一个关键词的词向量;根据所述候选关键词集合以及所述候选关键词集合中每一个关键词对应的词向量,构建语义相似图;在所述语义相似图上运行Pagerank算法为每一个关键词打分,将得分满足预设条件的关键词作为所述目标用户的兴趣关键词。2.根据权利要求1所述的基于社交网络的用户关键词提取装置,其特征在于,所述根据所述候选关键词集合以及所述候选关键词集合中每一个关键词对应的词向量,构建语义相似图的步骤包括:将所述候选关键词集合中的关键词作为单词节点,其中,一个关键词对应一个单词节点;遍历全部单词节点,根据对应的词向量计算每两个单词节点之间的上下文相似度,每当两个单词节点之间的上下文相似度大于预设阈值时,在所述两个单词节点之间建立一条边;由全部单词节点以及建立的边构成所述语义相似图。3.根据权利要求2所述的基于社交网络的用户关键词提取装置,其特征在于,所述根据对应的词向量计算每两个单词节点之间的上下文相似度的步骤包括:获取两个单词节点的词向量,并计算这两个词向量之间的余弦相似度,将所述余弦相似度作为所述两个单词节点之间的上下文相似度。4.根据权利要求1至3中任一项所述的基于社交网络的用户关键词提取装置,其特征在于,当所述博文包含的字数大于或者等于预设字数时,所述基于关键词提取算法从博文的单词列表中提取该博文对应的关键词的步骤包括:分别按照预设的多个关键词提取算法从博文的单词列表中提取关键词;将所述多个关键词提取算法提取的关键词中重复的关键词作为该博文对应的关键词。5.根据权利要求1至3中任一项所述的基于社交网络的用户关键词提取装置,其特征在于,所述将得分满足预设条件的关键词作为所述目标用户的兴趣关键词的步骤包括:将得分大于预设分数的关键词作为所述目标用户的兴趣关键词;或者,将得分大于预设分数的关键词作为所述目标用户的兴趣关键...

【专利技术属性】
技术研发人员:吴振宇刘睿恺王建明肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1