一种结合用户行为数据的问答交互方法及装置制造方法及图纸

技术编号:37844799 阅读:12 留言:0更新日期:2023-06-14 22:28
本发明专利技术涉及自然语言处理领域,提供了一种结合用户行为数据的问答交互方法及装置。目的在于解决现有方法中随机性较高的数据未被简化、归类化,从而噪声较大对影响最终结果的准确性。主要方案包括对用户行为数据进行“频率弱化”操作和特征编码操作,生成三分类标签向量。对用户固有的画像数据进行编码,得到用户画像的隐藏向量;对商品信息数据和用户提问数据进行编码,分别得到商品数据隐藏向量和问题隐藏向量。对三分类标签向量、用户画像的隐藏向量、商品数据隐藏向量进行融合特征提取,得到融合隐藏特征向量,然后得到图解码特征向量,对图解码特征向量和问题隐藏向量融合的组合进行指针解码,得到答案关键词,对答案关键词进行模板匹配,得答案。得答案。得答案。

【技术实现步骤摘要】
一种结合用户行为数据的问答交互方法及装置


[0001]本专利技术涉及自然语言处理领域,提供了一种结合用户行为数据的问答交互方法及装置。

技术介绍

[0002]技术背景(当前工作依赖的NLP算法)
[0003]计算机应用技术——自然语言处理方向:当前场景需要结合用户在个性化问卷中反馈的结果与数据库中已有的行为标签、商品信息数据进行大小数据交融,为用户提供更适合、更具有针对性的服务,在这个过程中需要使用到自然语言处理相关算法。
[0004]管理与信息科学——电子商务方向:当前场景基于电商平台的问卷信息,其目的是为了更好地维持用户黏性,通过生成个性化问卷的方式尽最大可能了解用户兴趣,并能够自动而有效地回答用户的问题,从而实现吸引用户购物的目的。这个过程中,需要使用电子商务领域数据的特征构建上述所有文本内容。
[0005]当前工作需要将不同来源和类别的数据融合在一起,为用户提出的问题给出一个合理的答案,因此主要的技术方向是混合编码策略与机器问答。混合编码策略的目的在与将不同来源的数据使用不同参数的编码器生成多组隐藏向量表示,再将这些向量表示通过拼接、相加、加权相加等策略生成一组融合向量,用于后续解码。在这个过程中,编码器需要用到预训练模型,以实现对样本数据的通用语义捕捉过程。用到的预训练模型包括:RoBERTa、XLNet、GPT3,将某用户曾经的问卷数据、用户画像数据和指定商品数据融合起来,用于后续的问答过程。机器问答的目的在于能够自动回答用户提出的问题,将已有的混合编码和用户的问题组合起来,生成答案。在这个过程中,使用到的技术包括GCN、Pointer Network、模板匹配。GCN用于处理文本中的链接关系,为远距离文本关联提供了解决方案;Pointer Network生成处理词库对答案的映射,以获取答案关键词;模板匹配策略可以使得答案具备可读性,使得语句通顺。
[0006]现有技术的解决策略
[0007]当前解决这个问题的通用方案为机器问答。机器问答的过程可以表述为:将问题和依赖的文本拼接起来,然后使用编码器进行编码,并使用解码器获取原文位置的关键词,再将结果关键词映射到模板空缺中,得到最终的答案。这个方案中的重点在于编码器和解码器的处理策略,即选择何种编码器和解码器以及如何将数据以正确的流程导入这个流式框架中。编码器和解码器需要使用同源词向量的对应关系,因此若使用BERT作为编码器,则需要同时使用BERT作为解码器,然后将它与指针层、Softmax层或CRF层拼接,以得到映射的结果。数据导入过程的常规方案是顺序导入,即以“编码器

解码器

映射过程”的顺序进行。当存在多类数据时,在编码器部分使用合并、嵌入策略进行。现有策略存在不能很好地处理多源数据融合条件下产生的问题,当数据来源不同,在信息量层面上的表现不同时,直接拼接的策略难以直接准确地将这些信息进行归类并作特征值提取,而这是当前项目解决的关键问题。当前项目将原始信息分类、转化为固定类别之后,能够实现对特征值的整合、简化,
从而提高准确率。

技术实现思路

[0008]本专利技术的目的在于解决现有方法中随机性较高的数据未被简化、归类化,从而噪声较大对影响最终结果的准确性。现有的方法对生成的数据没能很好的先将文本中的内部关联挖掘出来影响结果精准性。
[0009]一种结合用户行为数据的问答交互方法,包括以下步骤:
[0010]步骤1:对用户数据中的用户提交的问卷数据、用户行为数据进行“频率弱化”操作和特征编码操作,生成三分类标签向量。
[0011]步骤2:对用户固有的画像数据进行编码,得到用户画像的隐藏向量;
[0012]步骤3:对商品信息数据和用户提问数据使用相同的编码器进行编码,分别得到商品数据隐藏向量和问题隐藏向量。
[0013]步骤4:对三分类标签向量、用户画像的隐藏向量、商品数据隐藏向量进行融合特征提取,得到融合隐藏特征向量,融合过程同时使用拼接、加权相加融合方式,然后经过一个线性映射过程,保证融合后的结果与单一向量的维度保持一致;
[0014]步骤5:对融合隐藏特征向量进行图卷积映射解码,得到图解码特征向量;
[0015]步骤6:对图解码特征向量和问题隐藏向量融合的组合进行指针解码,得到答案关键词。
[0016]步骤7:对答案关键词进行模板匹配,得到最终的答案。
[0017]上述技术方案中,步骤1包括以下步骤:
[0018]步骤1.1、用户的行为数据分为五类数据,具体为用户回答问卷的数据、用户点击行为数据、用户停留时间数据、用户购物数据、用户收藏行为数据,用户的行为数据经过编码器编码之后,得到多组中间结果隐藏向量;
[0019]步骤1.2、多组中间结果隐藏向量经过三分类器之后,得到对应的多组三分类结果,收集这些三分类结果,并整合成一个向量,即为三分类标签向量
[0020]三分类标签向量保存的是实际结果重编码之后的结果,用户的行为数据为X
a
,则根据上述五类数据可以将此数据分为[X
a1
;X
a2
;X
a3
;X
a4
;X
a5
],则这样的数据经过三分类标签向量的过程如下:
[0021]V
P
=W
p
(softmax(W
m
[X
a1
;X
a2
;X
a3
;X
a4
;X
a5
]+b
m
))+b
P
[0022]上述公式中W
m
和b
m
为三分类融合的计算参数,通过softmax函数映射到给定的结果空间,W
p
和b
P
为映射到三分类标签向量的计算参数,V
P
为三分类标签向量,映射过程中使用线性映射过程。
[0023]上述技术方案中,步骤2具体包括以下步骤:
[0024]用户的画像原始数据包含两类数据,具体为用户固有特征和用户外部特征,固有特征包括用户年龄、性别这些短时间内的不可变特征,外部特征包括用户当前位置(IP地址)、用户主要登录时间、用户总消费金额这些可变特征;
[0025]用户固有特征和用户外部特征,经过编码器编码,然后拼接成一个用户画像的隐藏向量,设用户画像数据为X
b
,则根据上述两类数据可以将此数据分为[X
bx
,X
bo
],则用户画像的编码过程由公式描述如下:
[0026]V
U
=W
U
([X
bx
;X
bo
])+b
U
[0027]上述公式中W
U
和b
U
为画像数据编码的计算参数,V
U
为得到的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合用户行为数据的问答交互方法,其特征在于,包括以下步骤:步骤1:对用户数据中的用户提交的问卷数据、用户行为数据进行“频率弱化”操作和特征编码操作,生成三分类标签向量;步骤2:对用户固有的画像数据进行编码,得到用户画像的隐藏向量;步骤3:对商品信息数据和用户提问数据使用相同的编码器进行编码,分别得到商品数据隐藏向量和问题隐藏向量;步骤4:对三分类标签向量、用户画像的隐藏向量、商品数据隐藏向量进行融合特征提取,得到融合隐藏特征向量,融合过程同时使用拼接、加权相加融合方式,然后经过一个线性映射过程,保证融合后的结果与单一向量的维度保持一致;步骤5:对融合隐藏特征向量进行图卷积映射解码,得到图解码特征向量;步骤6:对图解码特征向量和问题隐藏向量融合的组合进行指针解码,得到答案关键词;步骤7:对答案关键词进行模板匹配,得到最终的答案。2.根据权利要求1所述的一种结合用户行为数据的问答交互方法,其特征在于,步骤1包括以下步骤:步骤1.1、用户的行为数据分为五类数据,具体为用户回答问卷的数据、用户点击行为数据、用户停留时间数据、用户购物数据、用户收藏行为数据,用户的行为数据经过编码器编码之后,得到多组中间结果隐藏向量;步骤1.2、多组中间结果隐藏向量经过三分类器之后,得到对应的多组三分类结果,收集这些三分类结果,并整合成一个向量,即为三分类标签向量三分类标签向量保存的是实际结果重编码之后的结果,用户的行为数据为X
a
,则根据上述五类数据可以将此数据分为[X
a1
;X
a2
;X
a3
;X
a4
;X
a5
],则这样的数据经过三分类标签向量的过程如下:V
P
=W
p
(softmax(W
m
[X
a1
;X
a2
;X
a3
;X
a4
;X
a5
]+b
m
))+b
P
上述公式中W
m
和b
m
为三分类融合的计算参数,通过softmax函数映射到给定的结果空间,W
p
和b
P
为映射到三分类标签向量的计算参数,V
P
为三分类标签向量,映射过程中使用线性映射过程。3.根据权利要求1所述的一种结合用户行为数据的问答交互方法,其特征在于,步骤2具体包括以下步骤:用户的画像原始数据包含两类数据,具体为用户固有特征和用户外部特征,固有特征包括用户年龄、性别这些短时间内的不可变特征,外部特征包括用户当前位置、用户主要登录时间、用户总消费金额这些可变特征;用户固有特征和用户外部特征,经过编码器编码,然后拼接成一个用户画像的隐藏向量,设用户画像数据为X
b
,则根据上述两类数据可以将此数据分为[X
bx
,X
bo
],则用户画像的编码过程由公式描述如下:V
U
=W
U
([X
bx
;X
bo
])+b
U
上述公式中W
U
和b
U
为画像数据编码的计算参数,V
U
为得到的用户画像数据隐藏向量,因为不需要进行融合转换,因此不再嵌套内层的公式。4.根据权利要求1所述的一种结合用户行为数据的问答交互方法,其特征在于,步骤3
具体包括以下步骤:步骤3.1、商品特征和用户提问数据分别为X
c
和X
q
,使用同一组公式进行表达:[V
I
;V
Q
]=W
F
([X
c
;X
q
])+b
F
上述公式中的中W
F
和b
F
为画像数据编码的计算公式,V
I
和V
Q
为得到的商品隐藏向量和问题隐藏向量。5.根据权利要求1所述的一种结合用户行为数据的问答交互方法,其特征在于,步骤5包括以下步骤:步骤5.1、两两构建一个初始的权重,然后使用GCN模型对整体的权重矩阵进行多次的拉普拉斯算子迭代输出,更新这个权重;最后一次得到的权重与原始数据做矩阵乘法,得到图解码特征向量,公式描述如下:上述公式中W
G
和b
G
为图解码过程的计算参数,A
G
为图解码过程边关联权重的矩阵,在初始化过程,A
G
的主对角线上的参数均为1,其余的参数使用正态分布随机初始化,从而在训练过程中找到不同来源向量之间的权重,将A
G
非主对角线上的元素表现出来。6.根据权利要求1所...

【专利技术属性】
技术研发人员:杜晓梦苏萌刘译璟苏海波赵群
申请(专利权)人:北京百分点科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1