【技术实现步骤摘要】
互联网社区中个人知识图谱的构建方法和装置
[0001]本专利技术涉及互联网数据处理
,尤其涉及一种互联网社区中个人知识图谱的构建方法和装置。
技术介绍
[0002]用户理解是推荐引擎的重要组成部分。推荐引擎正是基于对用户的理解信息,进行内容分发。用户理解目前一般基于大数据挖掘用户画像。用户画像对于用户的理解,通常是粗浅的,对于用户兴趣和知识的描述停留在一些概念、类别、领域这样的描述粒度,比如,手机游戏、健身、户外运动。因此,用户画像对用户兴趣、知识的刻画精细粒度是不够的,对于长尾内容的分发,基于用户画像是无法完成的。
[0003]用户画像主要存在以下几方面的缺陷:
[0004]1)从构建用户画像的角度去理解用户,非常依赖用户画像定义的维度,比如,兴趣维度(小说、游戏、体育、金融等等)、基础属性维度(性别、年龄、职业、学历等等);
[0005]2)对人的数字化表征不够全面;
[0006]3)无法回答用户大脑里的兴趣、知识、经历记忆的信息,比如,一个用户读过哪些书籍?看过哪些电影?去过哪些地 ...
【技术保护点】
【技术特征摘要】
1.一种互联网社区中个人知识图谱的构建方法,其特征在于,所述方法包括:获取注意力词全集词表,并将所述注意力词全集词表按照领域划分成领域词表;根据用户ID获取互联网社区中每个用户发表过的帖评文本,并对每个帖评文本进行分词处理,得到对应的分词结果;根据所述每个用户的分词结果、所述注意力词全集词表和所述领域词表确定每个用户的用户知识三元组,其中,所述用户知识三元组包括:用户ID、领域和个人知识代表词条;根据所述互联网社区中的每个话题,确定对应的话题知识三元组,其中,所述话题知识三元组包括:话题代表词、编号和话题;根据每个用户的用户知识三元组和话题知识三元组,生成该用户对应的社区个人知识图谱。2.根据权利要求1所述的方法,其特征在于,所述获取注意力词全集词表,包括:从所述互联网社区中的历史帖评数据中选取出符合预设条件的目标帖评数据;使用预训练的注意力词提取模型对每个目标帖评数据进行注意力词提取;将所有目标帖评数据提取的注意力词进行合并,以得到注意力词全集词表。3.根据权利要求1所述的方法,其特征在于,对每个帖评文本进行分词处理,包括:使用中文分词词表和所述注意力词全集词表对每个帖评文本进行分词处理。4.根据权利要求1所述的方法,其特征在于,根据所述每个用户的分词结果、所述注意力词全集词表和所述领域词表确定每个用户的用户知识三元组,包括:根据每个用户的每个帖评文本的分词结果,确定每个帖评文本中的词是否在所述注意力词全集词表中,若该词在所述注意力词全集词表,则从所述帖评文本中提取出该词作为用户的个人知识代表词条;根据所述领域词表确定所述个人知识代表词条对应的领域,以组成该用户的用户知识三元组,其中,当所述个人知识代表词条对应多个领域时,所述用户知识三元组也有多个。5.根据权利要求1所述的方法,其特征在于,根据所述互联网社区中的每个话题,确定对应的话题知识三元组,包括:获取所述互联网社区中每个话题下的帖评数据文本;使用预训练的注意力词提取模型对每个帖评数据文本进行注意力词提取,以得到目标注意力词;统计每个话题下每个目标注意力词在帖评数据文本中出现的总次数;将所有目标注意力词按照总次数进行降序排列,并将排名在前的预设数目的目标注意力词确定为候选话题代表词;根据所述候选话题代表词与对应话题的相关度和候选话题代表词在各个话题中的出现次数,确定话题代表词和编号。6.根据权利要求1所述的方法,其特征在于,根据所述候选话题代表词与对应话题的相关度和候选话题...
【专利技术属性】
技术研发人员:文成明,
申请(专利权)人:北京小川科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。