一种用户画像构建方法技术

技术编号:18459337 阅读:23 留言:0更新日期:2018-07-18 12:55
本发明专利技术实施例提供一种用户画像构建方法,该方法包括:建立基于主题的本体层级标签体系;根据主题模型和外部语料库生成本体层级标签体系中各个标签对应的语料词集;根据用户参与的目标文本,确定特征词集;分别计算特征词集与各个语料词集的相似度;根据同类别标签的相似度之和,从本体层级标签体系中选择相似度之和大于第一预设阈值的特征词集所对应的兴趣标签作为内容文本标签;并将内容文本标签所对应的相似度作为该内容文本标签的权值;将各个内容文本标签相叠加构建用户画像。本发明专利技术实施例提供的技术方案确定的内容文本标签更加全面,能够构建全面准确定位用户兴趣特征的用户画像。

A method of user portrait construction

An embodiment of the invention provides a user portrait construction method. The method comprises the following steps: establishing a topic based ontology hierarchy label system, generating a set of speech words corresponding to each label in the ontology hierarchy label system according to the theme model and external corpus, and determining the set of feature words according to the target text of the user involved; The similarity degree between the set of feature words and each corpus; according to the similarity of the similar label, the interest label corresponding to the feature word set of the similarity degree and the first preset threshold is selected as the content text label from the ontology label system, and the similarity degree corresponding to the content text label is used as the content text. The weight of the tag; overlay each content text label to build the user portrait. The content text label of the technical proposal provided by the embodiment of the invention is more comprehensive, and it can build a user portrait that comprehensively and accurately locates the user interest characteristics.

【技术实现步骤摘要】
一种用户画像构建方法
本专利技术涉及计算机应用
,特别是涉及一种用户画像构建方法。
技术介绍
随着互联网技术的发展,内容社区平台受到越来越多用户的喜爱。内容社区平台以丰富的内容元素为主导,具有内容元素多样性、分类明确性和极强互动性等特点,并能够为登录内容社区平台的用户提供用户间互动、分享等社交功能。现阶段,具有代表性的内容社区平台有豆瓣网、微博、贴吧等。随着内容社区平台发布的信息不断激增,用户在享受信息带来便利的同时,也经常受到冗杂信息的干扰,如用户经常会收到内容社区平台推送的自己不感兴趣的信息。因此,为了实现内容社区平台向用户推送其感兴趣的信息,用户画像的支持必不可少。用户画像是对现实世界中用户的数学建模,用户画像是根据用户的属性和行为信息,充分地了解用户、挖掘用户、定位用户,并根据用户的特征偏好精准地分析用户需求而生成的能够表征用户兴趣爱好的画像。因此,设计一种面向内容社区平台并能够全面准确地定位用户兴趣特征的用户画像构建方法具有十分重要的意义。
技术实现思路
本专利技术实施例的目的在于提供一种用户画像构建方法,以实现全面准确地定位用户兴趣特征进而生成用户画像。具体技术方案如下:本专利技术实施例提供的一种用户画像构建方法,所述方法包括:建立基于主题模型的本体层级标签体系,其中,所述主题模型为:预先设定的用于生成文档主题的模型,所述本体层级标签体系为:表示兴趣的标签的树状集合;根据所述主题模型和外部语料库生成所述本体层级标签体系中各个兴趣标签对应的语料词集,所述外部语料库包括:开源本体词库和同义词库;根据用户参与的目标文本,确定表示用户兴趣的特征词,并根据所确定的特征词生成特征词集,所述目标文本为:所述用户登录的内容社区平台发布的内容文本;分别计算所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度;计算所述第一类相似度中属于同一类别标签的相似度的和,得到第二类相似度,其中,所述同一类别标签为:表示相同兴趣类别的标签;选择所述第二类相似度中大于第一预设阈值的相似度对应的兴趣标签作为内容文本标签;将所选择内容文本标签所对应的相似度作为所选择内容文本标签的权值;根据所选择的内容文本标签和所选择的内容文本标签的权值构建用户画像。可选的,所述建立基于主题模型的本体层级标签体系的步骤,包括:对所述内容社区平台发布的各个内容文本进行预处理,得到各个内容文本的分词集合;分别将所得到各个内容文本的分词集合输入至预设的主题模型,得到预设主题数量下各个主题的主题词集和主题词集中主题词的概率分布,其中,所述预设的主题模型包括:文档主题生成模型LDA;根据每个主题下主题词集和主题词集中主题词的主题概率分布,确定每个主题下主题词集的主题名,并根据所确定的主题名生成每个主题下主题词集所属的兴趣标签类别的标签数据源;根据所述标签数据源,利用预设的标签体系构建方法构建本体层级标签体系,其中,所述预设的标签体系构建方法包括:骨架法SkeletalMethodolody。可选的,所述对所述内容社区平台发布的各个内容文本进行预处理,得到各个内容文本的分词集合的步骤,包括:筛除所述内容社区平台发布的各个内容文本中重复、不完整以及错误的数据;对筛除后的各个活动内容文本进行分词,选取表征兴趣爱好的分词构成分词集合。可选的,所述根据所述主题模型和外部语料库生成所述本体层级标签体系中各个兴趣标签对应的语料词集的步骤,包括:分别为所述标签体系中各个兴趣标签建立语料词集,其中,一个兴趣标签的语料词集包括:主题语料词集、同义语料词集、实例语料词集,所述主题语料词集为:根据主题、主题下包含相同主题意义的词汇及其概率确定的语料词形成的词集,所述同义语料词集为:根据主题、主题下与主题概念同义或相近的词汇确定的语料词形成的词集,所述实例语料词集为:根据主题、主题下主题概念所包含的实例词语以及和主题概念相关的附属词语确定;分别为所建立的各个语料词集包含的主题语料词集、同义语料词集、实例语料词集分配语料词集权值,作为第一类语料词集权值。可选的,所述分别计算所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度的步骤,包括:按照以下方式计算所述特征词集与预设标签体系中每一标签的每一语料词集的相似度:分别计算所述特征词集与语料词集包含的主题语料词集、同义语料词集、实例语料词集的相似度,作为第三类相似度;计算所述第三类相似度中每一相似度与该相似度对应语料词集权值的乘积,根据计算得到的各个乘积的值确定所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度。可选的,所述分别为所建立的各个语料词集包含的主题语料词集、同义语料词集、实例语料词集分配语料词集权值,作为第一类语料词集权值的步骤之后,还包括:确定各个语料词集对应的兴趣标签在本体层级标签体系的层级;根据预设的层级权值更新所述第一类语料词集权值。可选的,所述根据用户参与的目标文本,确定表示用户兴趣的特征词,并根据所确定的特征词生成特征词集的步骤,包括:从所述目标文本中,选取表征用户兴趣的词作为目标特征词;确定每一目标特征词在所述目标文本中的出现频率;确定每一目标特征词在所述内容社区平台发布的活动内容文本中的反文档频率;针对每一目标特征词,计算目标特征词的出现频率与反文档频率的乘积作为目标特征词的第一权值;选取第一权值大于第二预设阈值的目标特征词作为表示用户兴趣的特征词。可选的,所述针对每一目标特征词,计算目标特征词的出现频率与反文档频率的乘积作为目标特征词的第一权值的步骤之后,还包括:确定每一目标特征词在所述目标文本中的位置,并获取所确定的各个位置的预设权重;计算每一所确定位置的第二权重,其中,一个所确定位置的第二权重为:该所确定位置的预设权重与位于该所确定位置的目标特征词的第一权重的乘积;针对每一所确定的位置,将位于所确定位置的目标特征词的第一权值更新为所确定位置的第二权值。可选的,所述根据所选择的内容文本标签和所选择的内容文本标签的权值构建用户画像的步骤,包括:确定用户参与所述目标文本的参与行为和参与时间;获取所述参与行为的预设行为权重;根据所述参与时间与当前时间的时间差,计算时间衰减因子;采用所获取的预设行为权重和所述时间衰减因子更新所选择的内容文本标签的权值;根据所选择的内容文本标签和更新后内容文本标签的权值构建用户画像。可选的,所述根据所选择的内容文本标签和更新后内容文本标签的权值构建用户画像的步骤,包括:获取所选择的内容文本标签在所述本体层级标签体系中所属的父活动标签;根据预设的父、子内容文本活动标签的权值对应关系,分别计算所获取的父内容文本标签的权值;选取所计算权值大于第三预设阈值的父内容文本活动标签;根据所选择的内容文本标签、更新后内容文本标签的权值根、所选取的父内容文本标签和所选取的父内容文本标签的权值构建用户画像。本专利技术实施例还提供了一种用户画像构建装置,所述装置包括:标签体系构建模块,用于建立基于主题模型的本体层级标签体系,其中,所述主题模型为:预先设定的用于生成文档主题的模型,所述本体层级标签体系为:表示兴趣的标签的树状集合;语料词集生成模块,用于根据所述主题模型和外部语料库生成所述本体层级标签体系中各个兴趣标签对应的语本文档来自技高网...

【技术保护点】
1.一种用户画像构建方法,其特征在于,包括:建立基于主题模型的本体层级标签体系,其中,所述主题模型为:预先设定的用于生成文档主题的模型,所述本体层级标签体系为:表示兴趣的标签的树状集合;根据所述主题模型和外部语料库生成所述本体层级标签体系中各个兴趣标签对应的语料词集,所述外部语料库包括:开源本体词库和同义词库;根据用户参与的目标文本,确定表示用户兴趣的特征词,并根据所确定的特征词生成特征词集,所述目标文本为:所述用户登录的内容社区平台发布的内容文本;分别计算所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度;计算所述第一类相似度中属于同一类别标签的相似度的和,得到第二类相似度,其中,所述同一类别标签为:表示相同兴趣类别的标签;选择所述第二类相似度中大于第一预设阈值的相似度对应的兴趣标签作为内容文本标签;将所选择内容文本标签所对应的相似度作为所选择内容文本标签的权值;根据所选择的内容文本标签和所选择的内容文本标签的权值构建用户画像。

【技术特征摘要】
1.一种用户画像构建方法,其特征在于,包括:建立基于主题模型的本体层级标签体系,其中,所述主题模型为:预先设定的用于生成文档主题的模型,所述本体层级标签体系为:表示兴趣的标签的树状集合;根据所述主题模型和外部语料库生成所述本体层级标签体系中各个兴趣标签对应的语料词集,所述外部语料库包括:开源本体词库和同义词库;根据用户参与的目标文本,确定表示用户兴趣的特征词,并根据所确定的特征词生成特征词集,所述目标文本为:所述用户登录的内容社区平台发布的内容文本;分别计算所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度;计算所述第一类相似度中属于同一类别标签的相似度的和,得到第二类相似度,其中,所述同一类别标签为:表示相同兴趣类别的标签;选择所述第二类相似度中大于第一预设阈值的相似度对应的兴趣标签作为内容文本标签;将所选择内容文本标签所对应的相似度作为所选择内容文本标签的权值;根据所选择的内容文本标签和所选择的内容文本标签的权值构建用户画像。2.如权利要求1所述的方法,其特征在于,所述建立基于主题模型的本体层级标签体系的步骤,包括:对所述内容社区平台发布的各个内容文本进行预处理,得到各个内容文本的分词集合;分别将所得到各个内容文本的分词集合输入至预设的主题模型,得到预设主题数量下各个主题的主题词集和主题词集中主题词的概率分布,其中,所述预设的主题模型包括:文档主题生成模型LDA;根据每个主题下主题词集和主题词集中主题词的主题概率分布,确定每个主题下主题词集的主题名,并根据所确定的主题名生成每个主题下主题词集所属的兴趣标签类别的标签数据源;根据所述标签数据源,利用预设的标签体系构建方法构建本体层级标签体系,其中,所述预设的标签体系构建方法包括:骨架法SkeletalMethodolody。3.如权利要求2所述的方法,其特征在于,所述对所述内容社区平台发布的各个内容文本进行预处理,得到各个内容文本的分词集合的步骤,包括:筛除所述内容社区平台发布的各个内容文本中重复、不完整以及错误的数据;对筛除后的各个内容文本进行分词,选取表征兴趣爱好的分词构成分词集合。4.如权利要求1所述的方法,其特征在于,所述根据所述主题模型和外部语料库生成所述本体层级标签体系中各个兴趣标签对应的语料词集的步骤,包括:分别为所述标签体系中各个兴趣标签建立语料词集,其中,一个兴趣标签的语料词集包括:主题语料词集、同义语料词集、实例语料词集,所述主题语料词集为:根据主题、主题下包含相同主题意义的词汇及其概率确定的语料词形成的词集,所述同义语料词集为:根据主题、主题下与主题概念同义或相近的词汇确定的语料词形成的词集,所述实例语料词集为:根据主题、主题下主题概念所包含的实例词语以及和主题概念相关的附属词语确定;分别为所建立的各个语料词集包含的主题语料词集、同义语料词集、实例语料词集分配语料词集权值,作为第一类语料词集权值。5.如权利要求4所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:卢美莲刘星辰
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1