用户画像生成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:25838198 阅读:55 留言:0更新日期:2020-10-02 14:18
本发明专利技术涉及大数据技术领域,提供一种用户画像生成方法、装置、计算机设备及存储介质,包括:对用户在每个时间单位内的文本数据进行分词处理得到分词结果及对结构化数据进行离散化处理得到离散化结果;根据分词结果计算用户的人员类型;根据分词结果对对应时间单位内的离散化结果进行特征筛选得到目标特征,并用梯度提升树算法计算目标特征的整体分值;对每个时间单位内的时间因子和整体分值进行加和平均计算得到用户评级;根据人员类型及所述用户评级生成用户画像。本发明专利技术可用于智慧政务中,能够结合用户的文本数据和结构化数据共同生成用户画像,精确度更高。此外,本发明专利技术涉及区块链技术领域,文本数据及结构化数据可从区块链中获取。

【技术实现步骤摘要】
用户画像生成方法、装置、计算机设备及存储介质
本专利技术涉及大数据分析
,具体涉及一种用户画像生成方法、装置、计算机设备及存储介质。
技术介绍
人员评估是人员管理中的重要依据,对于人员的录用、选拔、发掘潜力等各方面都有着非常重要的作用。在大数据的时代背景下,用户的各种信息充斥在网络中,将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化得到具体的用户画像,从而基于用户画像为企业提供有针对性的岗位匹配。当前主要是通过结构化数据结合深度学习的方式训练模型,利用训练出的模型进行定量评分。然而,这种评分方式存在以下缺点:训练深度学习模型的数据来源有限,因而导致利用训练出的模型给出的评分结果准确率不高;其次,评分只能展示最终结果,无法形象且全方位的刻画人员的各种能力,评价结果较为片面。
技术实现思路
鉴于以上内容,有必要提出一种用户画像生成方法、装置、计算机设备及存储介质,能够结合用户的文本数据和结构化数据共同生成用户画像,精确度更高。本专利技术的第一方面一种用户画像生成方法,所述方法包括:获取用本文档来自技高网...

【技术保护点】
1.一种用户画像生成方法,其特征在于,所述方法包括:/n获取用户在每个时间单位内的文本数据及结构化数据;/n对所述文本数据进行分词处理得到分词结果及对所述结构化数据进行离散化处理得到离散化结果;/n根据每个时间单位内的所述分词结果计算用户的人员类型;/n根据所述分词结果对对应时间单位内的所述离散化结果进行特征筛选得到目标特征,并用梯度提升树算法计算所述目标特征的整体分值;/n对每个时间单位内的时间因子和所述整体分值进行加和平均计算得到用户评级;/n根据所述用户的人员类型及所述用户评级生成用户画像。/n

【技术特征摘要】
1.一种用户画像生成方法,其特征在于,所述方法包括:
获取用户在每个时间单位内的文本数据及结构化数据;
对所述文本数据进行分词处理得到分词结果及对所述结构化数据进行离散化处理得到离散化结果;
根据每个时间单位内的所述分词结果计算用户的人员类型;
根据所述分词结果对对应时间单位内的所述离散化结果进行特征筛选得到目标特征,并用梯度提升树算法计算所述目标特征的整体分值;
对每个时间单位内的时间因子和所述整体分值进行加和平均计算得到用户评级;
根据所述用户的人员类型及所述用户评级生成用户画像。


2.如权利要求1所述的用户画像生成方法,其特征在于,所述根据所述用户的人员类型及所述用户评级生成用户画像包括:
采用sigmoid函数对所述用户评级进行规范化处理得到所述用户的最终评级;
根据所述用户的人员类型及所述最终评级生成用户画像;
所述sigmod函数为:α+δ(1/(1+5*e^((-(β-α)/10)))),其中,α为基准分数,δ为系数,β为所述用户评级。


3.如权利要求1所述的用户画像生成方法,其特征在于,所述对所述文本数据进行分词处理得到分词结果并对所述结构化数据进行离散化处理得到离散化结果包括:
调用中文分词算法对所述文本数据进行分词,去掉分词后的无用词,得到分词结果;
比较所述结构化数据中的每一项结构化数据与对应所述结构化数据的多个预设数据范围,将与每一个预设数据范围内的结构化数据离散到与所述预设数据范围对应的分值,得到离散化结果。


4.如权利要求1所述的用户画像生成方法,其特征在于,所述根据每个时间单位内的所述分词结果计算用户的人员类型包括:
利用正则化的方式对所述分词结果与多个预设人员类型对应的多个特征词进行匹配;将从所述多个预设人员类型对应的多个特征词中匹配出的与所述分词结果相同的特征词确定为目标特征词;计算每一个预设人员类型对应的目标特征词的个数;将所述目标特征词的个数最多的预设人员类型确定为所述用户的人员类型;或者
获取多个历史用户的历史分词结果并根据所述历史分词结果进行人员类型标注;基于标注的人员类型和所述历史分词结果训练神经网络得到人员类型识别模型;调用所述人员类型识别模型根据所述用户的所述分词结果识别出所述用户的人员类型。


5.如权利要求1所述的用户画像生成方法,其特征在于,所述根据每个时间单位内的所述分词结果计算用户的人员类型包括:
利用word2vec模型为所述分词结果中...

【专利技术属性】
技术研发人员:陆园丽余玉霞卢清明
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1