一种环评用户画像构建及资源点击率预测方法及装置制造方法及图纸

技术编号:37390612 阅读:13 留言:0更新日期:2023-04-27 07:28
本发明专利技术提供一种环评用户画像构建及资源点击率预测方法及装置。所述方法包括以下步骤:基于环评云助手中的标题短文本和摘要长文本提取文本资源特征;通过对用户与环评云助手资源的交互行为评分提取用户行为特征;基于文本资源特征和用户行为特征构建多维用户画像;利用DeepFM模型基于所述用户画像对资源点击率进行预测。本发明专利技术同时考虑行业文本资源中长短文本对用户画像、标签的贡献性,并通过自定义规则对用户行为进行评分,多维挖掘行业特征,能够更有效地利用平台行业文本资源和用户行为特征。本发明专利技术将用户画像与DeepFM模型结合,能够更准确地预测资源点击率,以提高算法的推荐效率和综合评价指标。的推荐效率和综合评价指标。的推荐效率和综合评价指标。

【技术实现步骤摘要】
一种环评用户画像构建及资源点击率预测方法及装置


[0001]本专利技术属于环境影响评价
,具体涉及一种环评用户画像构建及资源点击率预测方法及装置。

技术介绍

[0002]环境影响评价(简称“环评”)可定义为:对规划和建设项目实施后可能造成的环境影响进行分析、预测和评估,提出预防或者减轻不良环境影响的对策和措施。环评行业用户画像是画像技术在环境评估领域的具体应用,它在用户画像的基本理念上添加了新的约束条件和应用场景。在大数据时代背景下,用户信息分散,面对如此丰富的海量数据,将用户信息抽象成标签,加以组合利用,挖掘出隐藏在大数据中的信息可以为用户提供更加精准的、有效的个性化服务。近年来,用户画像在推荐算法领域取得了系统性的突破,但基于环评行业特征来解决该行业用户间资源推荐的研究还有待深入,存在的一些问题还有待得到解决。
[0003]环评云助手是一款服务于环境影响评价行业用户的APP,其主要功能包括标准政策查询浏览、分类管理名录查询等,包含国家和地方发布的法律法规、政策文件、标准规范等22000余条,100000余名环评从业者或行业业余人员注册使用,月活跃度高达40000余人。由于已存在的推荐算法缺少环评行业特征的渗透,若直接应用在环评云助手APP中,则导致行业资源文本特征利用不充分和行业用户即时资源推荐精准较低,将很难精准构建用户画像并准确预测CTR点击率,以满足环评行业用户的资源推荐需求。
[0004]有鉴于此,本专利技术提出一种基于环评云助手的环评用户画像构建及资源点击率预测方法及装置。
>
技术实现思路

[0005]为了解决现有技术中存在的上述问题,本专利技术提供一种环评用户画像构建及资源点击率预测方法及装置。
[0006]为了实现上述目的,本专利技术采用以下技术方案。
[0007]第一方面,本专利技术提供一种环评用户画像构建及资源点击率预测方法,包括以下步骤:
[0008]基于环评云助手中的标题短文本和摘要长文本提取文本资源特征;
[0009]通过对用户与环评云助手资源的交互行为评分提取用户行为特征;
[0010]基于文本资源特征和用户行为特征构建多维用户画像;
[0011]利用DeepFM模型基于所述用户画像对资源点击率进行预测。
[0012]进一步地,基于标题短文本提取文本资源特征包括:从标题短文本中提取行业词、关键词和主题词。
[0013]更进一步地,基于标题短文本提取文本资源特征还包括:采用词频—逆文档频率算法进行词频统计,计算每个候选关键词的权重,从而根据所述权重值对候选关键词进行
排序,将排在前面的几个候选关键词作为用户画像标签的词汇。
[0014]更进一步地,基于标题短文本提取文本资源特征还包括:采用LDA主题模型以概率分布形式给出文档的主题词,通过文档分析、主题分布抽取进行主题聚类,得到每个主题下的行业主题词。
[0015]进一步地,基于摘要长文本提取文本资源特征包括:将摘要长文本划分为多个句子,基于每个句子与其它句子的关联程度计算每个句子的权重,提取权重最大的几个句子作为从摘要长文本提取的文本资源特征。
[0016]更进一步地,基于摘要长文本提取文本资源特征具体包括:
[0017]对摘要长文本进行句子分割,得到N个句子S
i
,i=1,2,

,N;
[0018]对每个句子进行分词,并过滤掉停用词和无意义的词,得到对每个句子进行分词,并过滤掉停用词和无意义的词,得到为S
i
的m
i
个分词;
[0019]以每个句子为节点、以句子之间的关联权重为边,构建图模型;
[0020]对各节点的权重进行迭代计算,直到计算结果收敛,其公式如下:
[0021][0022]式中,In(V
i
)为指向节点V
i
的节点集,Out(V
j
)为指向节点V
j
的节点集,w
ji
为由节点V
j
指向节点V
i
的边的权重,w
jk
为由节点V
j
指向节点V
k
的边的权重,d为阻尼系数,WS(V
i
)、WS(V
j
)分别为节点V
i
、V
j
的权重;
[0023]提取节点权重即句子权重最大的几个句子,作为从摘要长文本提取的文本资源特征。
[0024]进一步地,所述通过对用户与环评云助手资源的交互行为评分提取用户行为特征,具体包括:
[0025]根据用户对环评云助手文本资源的浏览、收藏、分享和评论的次数,对每种交互行为分别进行打分;
[0026]对各项打分进行加权求和得到用户行为评分,公式如下:
[0027][0028][0029]式中,R为用户行为评分,r1、r2、r3、r4分别为浏览、收藏、分享和评论的打分,k1、k2、k3、k4分别浏览、收藏、分享和评论打分的权重或奖励因子。
[0030]进一步地,所述资源点击率的预测方法包括:
[0031]将用户画像同一特征经One

Hot编码生成的数值特征放入同一field;
[0032]将每个filed传入嵌入层,得到维度相同的向量;
[0033]将所述向量输入到一个DeepFM模型,模型输出即为资源点击率。
[0034]更进一步地,DeepFM模型的输出Y为:
[0035]Y=sigmoid(y
FM
,y
DNN
)
[0036]式中,y
FM
、y
DNN
分别为FM和深度神经网络的输出;
[0037]y
FM
的表达式为:
[0038][0039]式中,w
i
为特征x
i
的权重,X
i
和X
j
分别为特征x
i
和x
j
的潜在特征向量,(X
i
,X
j
)为X
i
和X
j
的内积,n为特征的数量;
[0040]y
DNN
的表达式为:
[0041]y
DNN
=Sigmoid(W
(|H|+1)
a
(|H|+1)
+b
(|H|+1)
)
[0042]a
(l+1)
=σ(W
(l)
a
(l)
+b
(l)
)
[0043]式中,a(0)={e1,e2,...,e
m
}为深度神经网络的输入,m为filed数量,σ是激活函数,a
(l)
、W
(l)
、本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种环评用户画像构建及资源点击率预测方法,其特征在于,包括以下步骤:基于环评云助手中的标题短文本和摘要长文本提取文本资源特征;通过对用户与环评云助手资源的交互行为评分提取用户行为特征;基于文本资源特征和用户行为特征构建多维用户画像;利用DeepFM模型基于所述用户画像对资源点击率进行预测。2.根据权利要求1所述的环评用户画像构建及资源点击率预测方法,其特征在于,基于标题短文本提取文本资源特征包括:从标题短文本中提取行业词、关键词和主题词。3.根据权利要求2所述的环评用户画像构建及资源点击率预测方法,其特征在于,基于标题短文本提取文本资源特征还包括:采用词频—逆文档频率算法进行词频统计,计算每个候选关键词的权重,从而根据所述权重值对候选关键词进行排序,将排在前面的几个候选关键词作为用户画像标签的词汇。4.根据权利要求3所述的环评用户画像构建及资源点击率预测方法,其特征在于,基于标题短文本提取文本资源特征还包括:采用LDA主题模型以概率分布形式给出文档的主题词,通过文档分析、主题分布抽取进行主题聚类,得到每个主题下的行业主题词。5.根据权利要求1所述的环评用户画像构建及资源点击率预测方法,其特征在于,基于摘要长文本提取文本资源特征包括:将摘要长文本划分为多个句子,基于每个句子与其它句子的关联程度计算每个句子的权重,提取权重最大的几个句子作为从摘要长文本提取的文本资源特征。6.根据权利要求5所述的环评用户画像构建及资源点击率预测方法,其特征在于,基于摘要长文本提取文本资源特征具体包括:对摘要长文本进行句子分割,得到N个句子S
i
,i=1,2,

,N;对每个句子进行分词,并过滤掉停用词和无意义的词,得到对每个句子进行分词,并过滤掉停用词和无意义的词,得到为S
i
的m
i
个分词;以每个句子为节点、以句子之间的关联权重为边,构建图模型;对各节点的权重进行迭代计算,直到计算结果收敛,其公式如下:式中,In(V
i
)为指向节点V
i
的节点集,Out(V
j
)为指向节点V
j
的节点集,w
ji
为由节点V
j
指向节点V
i
的边的权重,w
jk
为由节点V
j
指向节点V
k
的边的权重,d为阻尼系数,WS(V
i
)、WS(V
j
)分别为节点V
i
、V
j
的权重;提取节点权重即句子权重最大的几个句子,作为从摘要长文本提取的文本资源特征。7.根据权利要求1所述的环评用户画像构建及资源点击率预测方法,其特征在于,所述通过对用户与环评云助手资源...

【专利技术属性】
技术研发人员:车蕾李天玉丁峰
申请(专利权)人:北京尚云环境有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1