【技术实现步骤摘要】
用户画像模型的构建系统
[0001]本专利技术属于机器学习领域,特别涉及一种用户画像模型的构建系统。
技术介绍
[0002]用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,在各领域得到了广泛的应用。用户画像最初是在电商领域得到应用的,在大数据时代背景下,用户信息充斥在网络中,将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。传统的用户画像技术主要依靠大数据及数据挖掘技术处理,例如,传统的用户画像技术主要是通过大数据进行画像,一般针对个人用户的历史数据,抽象出个人的偏好,活跃时间,活动范围等,通过标签的精细化处理,可以满足精准推送,但针对企业用户,基础数据来源广泛,结构差异性较大,内容也没有统一的规范,而是复杂多样。企业用户除了个人因素外,还有需要考虑环境、组织、个体间等影响因素,因此需要用户画像更具立体化,而传统的用户画像无法满足企业用户的需求。此外,虽然近年来在构建用户画像上已经出现了多种技术,但目前已有技术还具有一定的局限性,如数据碎片化、数据封闭、 ...
【技术保护点】
【技术特征摘要】
1.一种用户画像模型的构建系统,其特征在于,包括:数据采集模块,用于利用词袋模型获取待分析用户的历史数据;特征构建模块,用于基于所述历史数据构建用户特征库;特征提取模块,用于对所述用户特征库进行特征提取,得到用户关键特征子库;特征选择模块,用于对所述用户关键特征子库进行降维,并确定其索引标签,生成用户画像标签库;模型确定模块,用于基于神经网络算法对所述用户画像标签库进行训练;根据多个时间区间的训练数据的权重值,对每一时间区间的训练数据的索引标签进行训练,得到用户画像模型。2.根据权利要求1所述的系统,其特征在于,所述数据采集模块,进一步配置为:利用词袋模型获取待分析用户的历史文本数据。3.根据权利要求2所述的系统,其特征在于,所述词袋模型包括输入层、隐藏层和输出层;所述输入层将每个文本中的单词映射到向量中,将文本编码和IDF值组成特征向量;所述隐藏层中设置有加权矩阵,用于学习文本中的隐藏信息,并且对隐藏层向量和输入层向量进行合并;所述输出层接收合并后的向量,最后计算属于每个分类的概率。4.根据权利要求3所述的系统,其特征在于,所述IDF值通过以下方式计算:TF
‑
IDF(t,d)=TF(t,d)
×
IDF(t)式中,TF
‑
IDF(t,d)为单词t在文档d中的权重,TF(t,d)为单词t在文档d中出现的频率,IDF(t)是逆文档频率,用于衡量单词t对表达语义所起的重要性,N为文章总数,N
′
为包含单词t的文章总数。5.根据权利要求1所述的系统,其特征在于,所述特征构建模块,进一步配置为:从所述历史数据中从用户特征数据的全部维度中选择一个或多个维度的用户特征数据;将多个所述用户特征数据基于数据分类创建用户特征库。6.根据权利要求1所述的系统,其特征在于,所述特征提取模块,进一步配置为:采用主成分分析法从所述用户特征库中获取每个用户的关系特征、时间特征和关联度特征;根据所述关联度特征从所述用户特征库中选取多个关键特征数据,并基于多个所述关键特征数据创建用户关键特征子库。7.根据权利要求1所述的系统,其特征在于,所述特征选择模块,进一步配置为:采用信息增益算法计算所述用户关键特征子库中的属性特征数据信息增益;基于所述信息增益从用户特征数据的全部维度中选择一个或多个维度的用户特征数据;利用逻辑回归算法生成每个用户特征数据的键值对,形成索引标签;基于所述用户特征数据以及索引标签确定用...
【专利技术属性】
技术研发人员:侯本忠,张永强,唐戈燕,刘甜甜,张帆,田桂申,宋猛,白雪娇,
申请(专利权)人:国家电网有限公司大数据中心国网内蒙古东部电力有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。