一种基于用户偏好与知识图谱的个性化产品描述生成方法技术

技术编号:29047238 阅读:15 留言:0更新日期:2021-06-26 06:04
本发明专利技术公开了一种基于用户偏好与知识图谱的个性化产品描述生成方法,通过对产品标题进行实体信息提取,再使用Graph Attention从外部知识库中提取与实体信息最相关的知识并进行融合,进一步增强实体中的知识;同时基于模型预测出用户的多个兴趣标签,再对用户进行聚类分析,通过TFIDF为同类用户构建专属的个性化词库;最后提出了一种多重指针生成网络融合来自产品标题、外部知识库与个性化词库中的知识,最终生成具有信息量、多样性的个性化产品描述。本发明专利技术能够通过产品标题与外部知识库,依据用户历史行为自动批量生成个性化的产品描述,解决人工撰写产品描述费事费力的问题。题。题。

【技术实现步骤摘要】
一种基于用户偏好与知识图谱的个性化产品描述生成方法


[0001]本专利技术属于知识表示
,具体涉及一种个性化产品描述生成方法。

技术介绍

[0002]计算机与互联网技术极大的改变了人们的生活与行为方式,其中居民消费习惯的变化最为明显。依据商务部数据,2019年电子商务交易额已经达全年GDP的35.13%,可以看出,电子商务经济已经成为中国经济体系的重要组成部分。
[0003]与传统线下商店相不同,用户在网络空间中无法与产品实体进行交互,只能依靠产品描述进一步了解产品信息,从而做出购买决策。产品描述是用户获取产品信息的主要渠道,其目的是向顾客提供有关产品的特性和优点。传统的产品描述通常是由商家聘用“专家”,根据产品信息进行手工撰写。然而手工撰写商品描述效率低下且成本较高,对于公司推广产品来说是一个较大的负担。在互联网如此庞大的电商规模之下,传统的手工撰写产品描述的方式已无法满足新时代的需求。人类撰写的商品描述受限于撰写者的经验、知识、对于产品的了解程度,在这样大规模、高频率的产品更新的情况下,人类撰写者没有时间、也没有精力去了解每一个产品的详细情况,导致写出的商品描述质量难以保证。另一方面,人工撰写的产品描述难以满足个性化需求,大多是尽可能覆盖所有的产品卖点,不同用户看到的都是相同的产品描述,可能会导致用户无法瞬间抓取到自己感兴趣的信息,最终丧失了进一步了解产品的动力。
[0004]现有的关于商品描述和评论生成的方法,大多基于人工构建的规则或简单的生成模型,根据产品标题或结合外部知识库生成通用的产品描述。其仍然存在一些问题需要解决。首先,现有的方法大多停留在通用产品描述的层面,并没有考虑用户的偏好,从而进一步生成个性化的产品描述。其次,已有的方法大多仅利用产品标题作为输入信息。由于产品标题内包含的信息极为有限,因而生成的产品描述的信息量与多样性普遍不佳。第三,少部分方法引入了外部知识库用于丰富产品知识,但外部知识库中包含了大量冗余、低质的信息,对于这些信息,现有工作并没有很好的进行处理。

技术实现思路

[0005]为了克服现有技术的不足,本专利技术提供了一种基于用户偏好与知识图谱的个性化产品描述生成方法,通过对产品标题进行实体信息提取,再使用Graph Attention从外部知识库中提取与实体信息最相关的知识并进行融合,进一步增强实体中的知识;同时基于模型预测出用户的多个兴趣标签,再对用户进行聚类分析,通过TFIDF为同类用户构建专属的个性化词库;最后提出了一种多重指针生成网络融合来自产品标题、外部知识库与个性化词库中的知识,最终生成具有信息量、多样性的个性化产品描述。本专利技术能够通过产品标题与外部知识库,依据用户历史行为自动批量生成个性化的产品描述,解决人工撰写产品描述费事费力的问题。
[0006]本专利技术解决其技术问题所采用的技术方案包括以下步骤:
[0007]步骤1:获取产品描述数据集,采集互联网电商网站中的产品描述Y=(y1,y2,...y
n
)、产品标题X=(x1,x2,...x
m
)、与用户评论数据<user
id
,user
review
>;
[0008]步骤2:以产品标题中的实体在知识库中进行检索,将检索出的知识G分为两个部分:关系r=DESC的知识表示为G1=G
r=DESC
,剩余的知识表示为G2=G
r≠DESC
;使用TransE将知识库中检索到的实体与关系映射到低维空间;
[0009]步骤3:将知识库中检索到的知识G1所包含三元组K1中的值按照它们对应的实体在产品标题X中的顺序进行拼接,然后使用双向GRU对K1进行编码;
[0010]使用Attention机制选择知识,Attention机制描述为式(1):
[0011][0012][0013][0014]其中,为编码阶段的第i个时间步的隐状态,是解码阶段第t个时间步的隐向量,W
k
,W

k
,b
k
和v是需进行学习的参数,v用于调整权重的维度,j表示时间步,为用Attention机制选择结果的上下文向量;
[0015]步骤4:将知识库中检索到的知识G2,使用TransE将知识G2中所有的实体与关系映射为低维向量,知识G2的三元组K2被映射为τ=(e,r,val)=MLP(TransE(e,r,val)),其中τ,e,r和val分别为τ,e,r和val的TransE向量表示,MLP是全连接神经网络,用于消除结构化数据与非结构化的文本数据之间的隔阂,τ为映射后的三元组,e表示实体,val表示值;
[0016]使用Graph Attention对检索出的知识进行选择与整合,如以下式(2)所示:
[0017][0018][0019][0020]其中,r
n
,与val
n
分别是g
i
中第n个三元组的实体、关系与值;α
n
为Attention权重,α
n
用来衡量关系r
n
与实体和值val
n
之间连接的紧密性;表示将x
i
作为关键实体从G2中抽取得到的信息;W
ek
和W
rk
为可学习参数;
[0021]将与xi进行拼接,将拼接后的向量输入编码时的每一个GRU单元;
[0022]步骤5:由步骤1采集的用户评论数据对用户进行分类,根据用户类别获取该类别对应的产品描述,使用TF

IDF从产品描述中选取词汇构成用户专属个性化词库V
u

[0023]使用Attention机制对个性化词库V
u
中的词汇进行选取,表示为式(3):
[0024][0025][0026][0027]其中,为用户专属词库中第i个词汇的编码表示,,W
v
,W

k
与b
v
均为可学习的参数,m
T
为进行维度变换的矩阵,即为计算出的第i个词汇的权重,表示上下文向量;
[0028]步骤6:使用多重指针生成网络计算从知识库、个性化词库和产品标题中进行单词复制时的生成概率,表示为式(4):
[0029][0030][0031][0032]其中,P
k
、P
v
、P
g
分别为从知识库、个性化词库和产品标题中进行单词复制时的生成概率,σ为系数,均为可学习参数,x
t
为为输入词汇的编码向量;
[0033]步骤7:计算最终生成的个性化产品描述词汇概率,表示为式(5):
[0034][0035]其中与为当生成第t个词汇时,分别从知识库、个性化词库与产品标题中选取第i个词的权重信息,W
p
为可学本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于用户偏好与知识图谱的个性化产品描述生成方法,其特征在于,包括以下步骤:步骤1:获取产品描述数据集,采集互联网电商网站中的产品描述Y=(y1,y2,...y
n
)、产品标题X=(x1,x2,...x
m
)、与用户评论数据<user
id
,user
review
>;步骤2:以产品标题中的实体在知识库中进行检索,将检索出的知识G分为两个部分:关系r=DESC的知识表示为G1=G
r=DESC
,剩余的知识表示为G2=G
r≠DESC
;使用TransE将知识库中检索到的实体与关系映射到低维空间;步骤3:将知识库中检索到的知识G1所包含三元组K1中的值按照它们对应的实体在产品标题X中的顺序进行拼接,然后使用双向GRU对K1进行编码;使用Attention机制选择知识,Attention机制描述为式(1):ttention机制选择知识,Attention机制描述为式(1):ttention机制选择知识,Attention机制描述为式(1):其中,为编码阶段的第i个时间步的隐状态,是解码阶段第t个时间步的隐向量,W
k
,W

k
,b
k
和v是需进行学习的参数,v用于调整权重的维度,j表示时间步,为用Attention机制选择结果的上下文向量;步骤4:将知识库中检索到的知识G2,使用TransE将知识G2中所有的实体与关系映射为低维向量,知识G2的三元组K2被映射为τ=(e,r,val)=MLP(TransE(e,r,val)),其中τ,e,r和val分别为τ,e,r和val的TransE向量表示,MLP是全连接神经网络,用于消除结构化数据与非结构化的文本数据之间的隔阂,τ为映射后的三元组,e表示实体,val表示值;使用GraphAttention对检索出的知识进行选择与整合,如以下式(2)所示:ttention对检索出的知识进行选择与整合,如以下式(2)所示:ttention对检索出的知识进行选择与整合,如以下式(2)所...

【专利技术属性】
技术研发人员:郭斌郝少阳於志文梁韵基王柱
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1