一种基于知识图谱的用户画像方法技术

技术编号:37370682 阅读:25 留言:0更新日期:2023-04-27 07:15
本发明专利技术涉及数据处理领域,尤其涉及一种基于知识图谱的用户画像方法,该方法包括:根据行为数据信息对行为对象进行分类和特征提取以得到行为对象标签,根据基本信息的子信息确定属性标签;根据行为对象标签和属性标签对用户标签确定显性标签,并根据行为对象标签和属性标签对用户标签进行扩展以得到隐性标签,并构建用户画像进行显示;判断用户画像中的所述隐性标签是否符合调整条件以对所述隐性标签进行调整,判断是否对所述显性标签进行调整以确定显性标签的留存时长。本申请通过对标签进行扩展,使用户画像更加丰富和准确,并通过对预设周期内用户的数据对显性标签和隐性标签进行调整,提高不同用户的标签的准确性。提高不同用户的标签的准确性。提高不同用户的标签的准确性。

【技术实现步骤摘要】
一种基于知识图谱的用户画像方法


[0001]本专利技术涉及数据处理领域,尤其涉及一种基于知识图谱的用户画像方法。

技术介绍

[0002]知识图谱,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及他们之间的联系。
[0003]中国专利申请公开号:CN108694223B的专利公开了一种用户画像库的构建方法,该方法包括:获取针对视频对象的用户浏览记录信息;根据所述用户浏览记录信息确定所述用户浏览记录信息所对应的视频对象;提取所述视频对象的标签信息;将所述标签信息导入知识图谱库进行关联操作,获取所述标签信息与关联到的特征信息之间的第一对应关系和所述特征信息与对应的分类信息之间的第二对应关系;将所述第一对应关系和所述第二对应关系导入用户画像库;根据所述第一对应关系提取所述知识图谱库中相邻所述特征信息之间的第三对应关系;将所述第三对应关系导入所述用户画像库;根据所述第三对应关系对所述特征信息进行分类得到多个分类集合;按照第一预设规则对各个所述分类集合添加对应的权重标签以供在进行视频对象推荐时,根据所述权重标签包括的权重值的大小将所述分类集合中所述特征信息对应的视频对象进行推荐。
[0004]现有技术通过根据获取用户浏览记录信息确定对应的视频对象,并提取所述视频对象的标签信息,根据标签信息与知识图谱的关联构建具有信息关联与信息分类体系的用户画像库,但由于数据量的增大,并不能构建全面准确的标签。

技术实现思路

[0005]为此,本专利技术提供一种基于知识图谱的用户画像方法,可以解决不能构建全面准确的标签的问题。
[0006]为实现上述目的,本专利技术提供一种基于知识图谱的用户画像方法,该方法包括:
[0007]获取用户的基本信息和行为数据信息;
[0008]根据所述行为数据信息对行为对象进行分类和特征提取以分别得到第一特征和第二特征,并将第一特征和第二特征进行组合以得到行为对象标签,根据所述基本信息的子信息确定属性标签;
[0009]根据所述行为对象标签和属性标签对用户标签确定显性标签,并根据所述行为对象标签和属性标签对用户标签进行扩展以得到隐性标签,根据所述显性标签和隐性标签确定目标用户标签;
[0010]根据所述目标用户标签构建用户画像并进行显示;
[0011]获取第一预设周期时间内的用户的目标行为数据信息,根据目标行为数据信息判断所述用户画像中的所述隐性标签是否符合调整条件,并根据判定结果对所述用户画像中的所述隐性标签进行调整,获取第二预设周期时间内的用户画像对应的用户的行为状态信息和行为触发等级信息,根据所述行为状态信息判定是否对所述显性标签进行调整,并根
据所述行为触发等级信息和是否对所述显性标签进行调整的判定结果确定显性标签的留存时长。
[0012]进一步地,在根据所述行为数据信息对所述行为对象进行分类时,获取行为对象在行为数据信息中的分区类型,将所述分区类型作为第一特征,并对行为对象进行特征提取以得到若干子特征;
[0013]对若干所述子特征中重复的子特征进行剔除,获取剩余子特征中每个子特征的词义分词,将剩余的子特征的词义分词进行比较,统计每两个子特征中语义分词的总数量和重合数量,计算每两个子特征的特征相似度,设定特征相似度=重合数量/总数量,并将特征相似度与预设特征相似度进行比较;
[0014]若特征相似度大于等于预设特征相似度,则判定两个子特征相似,并将其中一个子特征进行剔除;
[0015]若特征相似度小于预设特征相似度,则判定两个子特征不相似,不对两个子特征进行剔除;
[0016]将根据所述特征相似度进行剔除后剩余的子特征作为第二特征。
[0017]进一步地,根据行为对象的显示信息,将任意形式的显示信息转化为文字信息,并将所述文字信息进行分词处理以得到若干分词,将若干分词进行对比,并统计分词总数量和每个分词的重复数量,根据所述分词总数量和每个分词重复数量计算每个分词的重复率,设定重复率=重复数量/分词总数量,将重复率与预设重复率进行比较;
[0018]若重复率大于等于预设重复率,则判定重复分词符合特征提取标准,将该重复分词作为所述行为对象的子特征;
[0019]若重复率小于预设重复率,则判定重复分词不符合特征提取标准。
[0020]进一步地,在根据所述基本信息确定所述属性标签时,判断所述基本信息中的子信息是否符合分级标准,将符合分级标准的子信息根据预设分级条件确定所述子信息的等级,并将确定的等级和预设等级标签进行匹配以得到对应的等级标签,将不符合分级标准的子信息与预设信息标签进行匹配以得到对应的信息标签,将所述等级标签和信息标签进行组合以得到所述属性标签。
[0021]进一步地,在根据所述行为对象标签和属性标签对用户标签进行扩展时,将行为对象标签和属性标签进行任意组合,将标签组合输入至关联模型进行标签关联以得到隐性标签,所述行为对象标签和属性标签为显性标签,并将所述显性标签和隐性标签组合为所述目标用户标签。
[0022]进一步地,在根据所述目标用户标签构建用户画像时,将目标用户标签中的所述显性标签根据第一预设比例进行显示,将目标用户标签中的所述隐性标签根据第二预设比例进行显示,其中,第一预设比例大于第二预设比例。
[0023]进一步地,在判断所述用户画像中的所述隐性标签是否符合调整条件时,根据所述目标行为数据信息中的目标行为对象的目标显示信息判断目标显示信息中是否包含所述隐性标签,将目标显示信息进行文字信息转化和分词处理以得到目标分词,将隐性标签与目标分词进行匹配;
[0024]若匹配成功,则判定所述用户画像中的所述隐性标签符合调整条件;
[0025]若匹配失败,则判定所述用户画像中的所述隐性标签不符合调整条件。
[0026]进一步地,在对所述用户画像中的所述隐性标签进行调整时,统计不同隐性标签被判定符合调整条件的判定次数和目标分词总数,根据所述判定次数与所述目标分词总数计算判定比率,设定判定比率=判定次数/目标分词总数,将判定比率与预设判定比率进行比较;
[0027]若判定比率大于等于预设判定比率,则判定对所述用户画像中的所述隐性标签进行调整,将该隐性标签确定为显性标签;
[0028]若判定比率小于预设判定比率,则判定不对所述用户画像中的所述隐性标签进行调整。
[0029]进一步地,在根据所述行为状态信息判定是否对所述显性标签进行调整时,根据行为状态信息中在状态的数量及每次时长计算在状态的总时长,并计算总时长在所述第二预设周期时间中的每日占比,设定每日占比=总时长/24/第二预设周期时间,将每日占比与预设每日占比进行比较;
[0030]若每日占比大于等于预设每日占比,则判定对所述显性标签进行调整;
[0031]若每日占比小于预设每日占比,则判定不对所述显性标签进行调整。
[0032]进一步地,根据所述行为触发等级信息和是否对所述显本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的用户画像方法,其特征在于,包括:获取用户的基本信息和行为数据信息;根据所述行为数据信息对行为对象进行分类和特征提取以分别得到第一特征和第二特征,并将第一特征和第二特征进行组合以得到行为对象标签,根据所述基本信息的子信息确定属性标签;根据所述行为对象标签和属性标签对用户标签确定显性标签,并根据所述行为对象标签和属性标签对用户标签进行扩展以得到隐性标签,根据所述显性标签和隐性标签确定目标用户标签;根据所述目标用户标签构建用户画像并进行显示;获取第一预设周期时间内的用户的目标行为数据信息,根据目标行为数据信息判断所述用户画像中的所述隐性标签是否符合调整条件,并根据判定结果对所述用户画像中的所述隐性标签进行调整,获取第二预设周期时间内的用户画像对应的用户的行为状态信息和行为触发等级信息,根据所述行为状态信息判定是否对所述显性标签进行调整,并根据所述行为触发等级信息和是否对所述显性标签进行调整的判定结果确定显性标签的留存时长。2.根据权利要求1所述的基于知识图谱的用户画像方法,其特征在于,在根据所述行为数据信息对所述行为对象进行分类时,获取行为对象在行为数据信息中的分区类型,将所述分区类型作为第一特征,并对行为对象进行特征提取以得到若干子特征;对若干所述子特征中重复的子特征进行剔除,获取剩余子特征中每个子特征的词义分词,将剩余的子特征的词义分词进行比较,统计每两个子特征中语义分词的总数量和重合数量,计算每两个子特征的特征相似度,设定特征相似度=重合数量/总数量,并将特征相似度与预设特征相似度进行比较;若特征相似度大于等于预设特征相似度,则判定两个子特征相似,并将其中一个子特征进行剔除;若特征相似度小于预设特征相似度,则判定两个子特征不相似,不对两个子特征进行剔除;将根据所述特征相似度进行剔除后剩余的子特征作为第二特征。3.根据权利要求2所述的基于知识图谱的用户画像方法,其特征在于,在对所述行为对象进行特征提取时,根据行为对象的显示信息,将任意形式的显示信息转化为文字信息,并将所述文字信息进行分词处理以得到若干分词,将若干分词进行对比,并统计分词总数量和每个分词的重复数量,根据所述分词总数量和每个分词重复数量计算每个分词的重复率,设定重复率=重复数量/分词总数量,将重复率与预设重复率进行比较;若重复率大于等于预设重复率,则判定重复分词符合特征提取标准,将该重复分词作为所述行为对象的子特征;若重复率小于预设重复率,则判定重复分词不符合特征提取标准。4.根据权利要求3所述的基于知识图谱的用户画像方法,其特征在于,在根据所述基本信息确定所述属性标签时,判断所述基本信息中的子信息是否符合分级标准,将符合分级标准的子信息根据预设分级条件确定所述子信息的等级,并将确定的等级和预设等级标签进行匹配以得到对应的等级标签,将不符合分级标准的子信息与预设信息标签进行匹配以
得到对应的信息标签,将所述等级标签和信息标签进行组合以得到所述属性标签。5.根据权利要求4所述的基于知识图谱的用户画像方法,其特征在于,在根据所述行为对象标签和属性标签对用户标签进行扩展时,将行为对象标签和属性标签进行任意组合,将标签组合输入至关联模型...

【专利技术属性】
技术研发人员:秦曙光傅元弟
申请(专利权)人:读书郎教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1