An embodiment of the invention provides a user portrait construction method. The method comprises the following steps: establishing a topic based ontology hierarchy label system, generating a set of speech words corresponding to each label in the ontology hierarchy label system according to the theme model and external corpus, and determining the set of feature words according to the target text of the user involved; The similarity degree between the set of feature words and each corpus; according to the similarity of the similar label, the interest label corresponding to the feature word set of the similarity degree and the first preset threshold is selected as the content text label from the ontology label system, and the similarity degree corresponding to the content text label is used as the content text. The weight of the tag; overlay each content text label to build the user portrait. The content text label of the technical proposal provided by the embodiment of the invention is more comprehensive, and it can build a user portrait that comprehensively and accurately locates the user interest characteristics.
【技术实现步骤摘要】
一种用户画像构建方法
本专利技术涉及计算机应用
,特别是涉及一种用户画像构建方法。
技术介绍
随着互联网技术的发展,内容社区平台受到越来越多用户的喜爱。内容社区平台以丰富的内容元素为主导,具有内容元素多样性、分类明确性和极强互动性等特点,并能够为登录内容社区平台的用户提供用户间互动、分享等社交功能。现阶段,具有代表性的内容社区平台有豆瓣网、微博、贴吧等。随着内容社区平台发布的信息不断激增,用户在享受信息带来便利的同时,也经常受到冗杂信息的干扰,如用户经常会收到内容社区平台推送的自己不感兴趣的信息。因此,为了实现内容社区平台向用户推送其感兴趣的信息,用户画像的支持必不可少。用户画像是对现实世界中用户的数学建模,用户画像是根据用户的属性和行为信息,充分地了解用户、挖掘用户、定位用户,并根据用户的特征偏好精准地分析用户需求而生成的能够表征用户兴趣爱好的画像。因此,设计一种面向内容社区平台并能够全面准确地定位用户兴趣特征的用户画像构建方法具有十分重要的意义。
技术实现思路
本专利技术实施例的目的在于提供一种用户画像构建方法,以实现全面准确地定位用户兴趣特征进而生成用户画像。具体技术方案如下:本专利技术实施例提供的一种用户画像构建方法,所述方法包括:建立基于主题模型的本体层级标签体系,其中,所述主题模型为:预先设定的用于生成文档主题的模型,所述本体层级标签体系为:表示兴趣的标签的树状集合;根据所述主题模型和外部语料库生成所述本体层级标签体系中各个兴趣标签对应的语料词集,所述外部语料库包括:开源本体词库和同义词库;根据用户参与的目标文本,确定表示用户兴趣的特征词,并 ...
【技术保护点】
1.一种用户画像构建方法,其特征在于,包括:建立基于主题模型的本体层级标签体系,其中,所述主题模型为:预先设定的用于生成文档主题的模型,所述本体层级标签体系为:表示兴趣的标签的树状集合;根据所述主题模型和外部语料库生成所述本体层级标签体系中各个兴趣标签对应的语料词集,所述外部语料库包括:开源本体词库和同义词库;根据用户参与的目标文本,确定表示用户兴趣的特征词,并根据所确定的特征词生成特征词集,所述目标文本为:所述用户登录的内容社区平台发布的内容文本;分别计算所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度;计算所述第一类相似度中属于同一类别标签的相似度的和,得到第二类相似度,其中,所述同一类别标签为:表示相同兴趣类别的标签;选择所述第二类相似度中大于第一预设阈值的相似度对应的兴趣标签作为内容文本标签;将所选择内容文本标签所对应的相似度作为所选择内容文本标签的权值;根据所选择的内容文本标签和所选择的内容文本标签的权值构建用户画像。
【技术特征摘要】
1.一种用户画像构建方法,其特征在于,包括:建立基于主题模型的本体层级标签体系,其中,所述主题模型为:预先设定的用于生成文档主题的模型,所述本体层级标签体系为:表示兴趣的标签的树状集合;根据所述主题模型和外部语料库生成所述本体层级标签体系中各个兴趣标签对应的语料词集,所述外部语料库包括:开源本体词库和同义词库;根据用户参与的目标文本,确定表示用户兴趣的特征词,并根据所确定的特征词生成特征词集,所述目标文本为:所述用户登录的内容社区平台发布的内容文本;分别计算所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度;计算所述第一类相似度中属于同一类别标签的相似度的和,得到第二类相似度,其中,所述同一类别标签为:表示相同兴趣类别的标签;选择所述第二类相似度中大于第一预设阈值的相似度对应的兴趣标签作为内容文本标签;将所选择内容文本标签所对应的相似度作为所选择内容文本标签的权值;根据所选择的内容文本标签和所选择的内容文本标签的权值构建用户画像。2.如权利要求1所述的方法,其特征在于,所述建立基于主题模型的本体层级标签体系的步骤,包括:对所述内容社区平台发布的各个内容文本进行预处理,得到各个内容文本的分词集合;分别将所得到各个内容文本的分词集合输入至预设的主题模型,得到预设主题数量下各个主题的主题词集和主题词集中主题词的概率分布,其中,所述预设的主题模型包括:文档主题生成模型LDA;根据每个主题下主题词集和主题词集中主题词的主题概率分布,确定每个主题下主题词集的主题名,并根据所确定的主题名生成每个主题下主题词集所属的兴趣标签类别的标签数据源;根据所述标签数据源,利用预设的标签体系构建方法构建本体层级标签体系,其中,所述预设的标签体系构建方法包括:骨架法SkeletalMethodolody。3.如权利要求2所述的方法,其特征在于,所述对所述内容社区平台发布的各个内容文本进行预处理,得到各个内容文本的分词集合的步骤,包括:筛除所述内容社区平台发布的各个内容文本中重复、不完整以及错误的数据;对筛除后的各个内容文本进行分词,选取表征兴趣爱好的分词构成分词集合。4.如权利要求1所述的方法,其特征在于,所述根据所述主题模型和外部语料库生成所述本体层级标签体系中各个兴趣标签对应的语料词集的步骤,包括:分别为所述标签体系中各个兴趣标签建立语料词集,其中,一个兴趣标签的语料词集包括:主题语料词集、同义语料词集、实例语料词集,所述主题语料词集为:根据主题、主题下包含相同主题意义的词汇及其概率确定的语料词形成的词集,所述同义语料词集为:根据主题、主题下与主题概念同义或相近的词汇确定的语料词形成的词集,所述实例语料词集为:根据主题、主题下主题概念所包含的实例词语以及和主题概念相关的附属词语确定;分别为所建立的各个语料词集包含的主题语料词集、同义语料词集、实例语料词集分配语料词集权值,作为第一类语料词集权值。5.如权利要求4所述的方法,其特征在于,所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。