一种融合用户属性的文本数据处理方法技术

技术编号:38683889 阅读:10 留言:0更新日期:2023-09-02 22:56
本申请涉及电数字数据处理技术领域,特别是涉及一种融合用户属性的文本数据处理方法。该方法包括以下步骤:获取目标用户的文本数据A;遍历A1,获取a

【技术实现步骤摘要】
一种融合用户属性的文本数据处理方法


[0001]本专利技术涉及电数字数据处理
,特别是涉及一种融合用户属性的文本数据处理方法。

技术介绍

[0002]用户生成内容作为一种新兴的信息形式,在信息传播、参与互动、创作、知识共享以及社会影响等方面发挥着重要作用且具有多重价值,充分的挖掘其中潜在的信息能够有助于获取用户的需求。当前对用户生成的文本信息的分析主要是提取其中的关键信息,但是,单纯进行用户生成的文本信息的分析无法全面理解用户的需求,也无法针对性地为用户推荐与其需求匹配的信息。

技术实现思路

[0003]本专利技术目的在于,提供一种融合用户属性的文本数据处理方法,以为用户推荐更为匹配的信息。
[0004]根据本专利技术,提供了一种融合用户属性的文本数据处理方法,包括以下步骤:S100,获取目标用户的文本数据A,A=(A1,A2),A1为目标用户的非数值型文本数据,A1=(a
1,1
,a
2,1
,

,a
n,1
,

,a
N,1
),a
n,1
为第n个目标用户的非数值型文本数据,A2为目标用户的数值型文本数据,A2=(a
1,2
,a
2,2
,

,a
n,2
,

,a
N,2
),a
n,2
为第n个目标用户的数值型文本数据;n的取值范围为1到N,N为目标用户的数量;所述非数值型文本数据为不只包括数值的文本数据;所述数值型文本数据为只包括数值的文本数据。
[0005]S200,遍历A1,获取a
n,1
对应的主题情感向量B
n,1
,B
n,1
=(b
1n,1
,b
2n,1
,

,b
mn,1
,

,b
Mn,1
),b
mn,1
为a
n,1
对应的第m个主题的情感值,m的取值范围为1到M,M为a
n,1
对应的主题数量。
[0006]S300,根据B
n,1
获取第n个目标用户对应的第一表征向量V
n,1

[0007]S400,获取第n个目标用户对应的第二表征向量V
n,2
,V
n,2
=(s
1n,2
,s
2n,2
,

,s
in,2
,

,s
un,2
),s
in,2
为第n个用户的第i个预设属性对应的元素值,i的取值范围为1到u,u为预设属性的数量。
[0008]S500,根据V
n,1
、a
n,2
和V
n,2
获取第n个目标用户对应的目标表征向量V
n

[0009]S600,根据每一V
n
对N个目标用户进行聚类,得到聚类结果C,C=(c1,c2,

,c
j
,

,c
k
),c
j
为聚类得到的第j个簇,j的取值范围为1到k,k为聚类得到的簇的数量;c
j
=(c
j,1
,c
j,2
,

,c
j,e
,

,c
j,E
),c
j,e
为c
j
包括的第e个目标用户,e的取值范围为1到E,E为c
j
包括的目标用户的数量。
[0010]S700,获取待匹配的非数值型文本数据A

,A

=(a
’1,a
’2,

,a

l
,

,a

L
),a

l
为第l个待匹配的非数值型文本数据,l的取值范围为1到L,L为待匹配的非数值型文本数据的数量。
[0011]S800,遍历C和A

,将与c
j
对应的非数值型文本数据匹配的a

l
作为c
j
的目标文本数据。
[0012]本专利技术与现有技术相比,其至少具有以下有益效果:本专利技术获取了目标用户的非数值型文本数据和数值型文本数据,对于目标用户的非数值型文本数据,本专利技术得到了其对应的主题情感向量,并基于该主题情感向量得到了目标用户的第一表征向量;在目标用户的第一表征向量和目标用户的数值型文本数据的基础上,本专利技术还获取了与目标用户的属性相关的目标用户的第二表征向量,该第二表征向量用于表征对应目标用户的属性信息;本专利技术结合了第一表征向量、数值型文本数据和第二表征向量得到了目标用户对应的目标表征向量,该目标表征向量融合了目标用户的非数值型文本、数值型文本和目标用户的属性三方面的数据;本专利技术将各目标用户对应的目标表征向量作为对目标用户进行聚类的基础,由此得到的同一个簇中目标用户的属性和对应的文本的相似性较高,对应的需求差异较小;不同簇中目标用户的属性和对应的文本的相似性较低,对应的需求差异较大;对于同一簇中的目标用户,本专利技术将待匹配的非数值型文本数据中与该簇匹配的非数值型文本作为与该簇中各目标用户匹配的文本数据,使得各目标用户都能够获得与其较为匹配的文本数据,使得各目标用户都能够获得与其需求较为匹配的信息。
附图说明
[0013]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0014]图1为本专利技术实施例提供的融合用户属性的文本数据处理方法的流程图。
具体实施方式
[0015]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0016]根据本专利技术,提供了一种融合用户属性的文本数据处理方法,包括以下步骤,如图1所示:S100,获取目标用户的文本数据A,A=(A1,A2),A1为目标用户的非数值型文本数据,A1=(a
1,1
,a
2,1
,

,a
n,1
,

,a
N,1...

【技术保护点】

【技术特征摘要】
1.一种融合用户属性的文本数据处理方法,其特征在于,包括以下步骤:S100,获取目标用户的文本数据A,A=(A1,A2),A1为目标用户的非数值型文本数据,A1=(a
1,1
,a
2,1
,

,a
n,1
,

,a
N,1
),a
n,1
为第n个目标用户的非数值型文本数据,A2为目标用户的数值型文本数据,A2=(a
1,2
,a
2,2
,

,a
n,2
,

,a
N,2
),a
n,2
为第n个目标用户的数值型文本数据;n的取值范围为1到N,N为目标用户的数量;所述非数值型文本数据为不只包括数值的文本数据;所述数值型文本数据为只包括数值的文本数据;S200,遍历A1,获取a
n,1
对应的主题情感向量B
n,1
,B
n,1
=(b
1n,1
,b
2n,1
,

,b
mn,1
,

,b
Mn,1
),b
mn,1
为a
n,1
对应的第m个主题的情感值,m的取值范围为1到M,M为a
n,1
对应的主题数量;S300,根据B
n,1
获取第n个目标用户对应的第一表征向量V
n,1
;S400,获取第n个目标用户对应的第二表征向量V
n,2
,V
n,2
=(s
1n,2
,s
2n,2
,

,s
in,2
,

,s
un,2
),s
in,2
为第n个用户的第i个预设属性对应的元素值,i的取值范围为1到u,u为预设属性的数量;S500,根据V
n,1
、a
n,2
和V
n,2
获取第n个目标用户对应的目标表征向量V
n
;S600,根据每一V
n
对N个目标用户进行聚类,得到聚类结果C,C=(c1,c2,

,c
j
,

,c
k
),c
j
为聚类得到的第j个簇,j的取值范围为1到k,k为聚类得到的簇的数量;c
j
=(c
j,1
,c
j,2
,

,c
j,e
,

,c
j,E
),c
j,e
为c
j
包括的第e个目标用户,e的取值范围为1到E,E为c
j
包括的目标用户的数量;S700,获取待匹配的非数值型文本数据A

,A

=(a
’1,a
’2,

,a

l
,

,a

L
),a

l
为第l个待匹配的非数值型文本数据,l的取值范围为1到L,L为待匹配的非数值型文本数据的数量;S800,遍历C和A

,将与c
j
对应的非数值型文本数据匹配的a

l
作为c
j
的目标文本数据。2.根据权利要求1所述的融合用户属性的文本数据处理方法,其特征在于,S800包括:S810,获取c
j
对应的非数值型文本数据G
j
,G
j
=(g
j,1
,g
j,2
,

,g
j,e
,

,g
j,E
),g
j,e
为A1中c
j,e
对应的非数值型文本数据;S820,遍历G
j
,获取g
j,e
对应的语义向量f
j,e
;S830,遍历A

,获取a

l
对应的语义向量f

l
;S840,获取g
j,e
与a

l
的语义相似度w
lj,e
;S850,获取c
j
与a

l
的语义相似度w
l
,w
l
=(∑
Ee=1
w
lj,e
)/E;S860,获取c
j
对应的语义相似度序列w,w=(w1,w2,

,w
l
,

,w
L
);S870,将max(w)对应的A

中待匹配的非数值型文本数据判定为与c
j
对应的非数值型文本数据匹配的a

l
,max( )为取最大值。3.根据权利要求1所述的融合用户属性的文本数据处理方法,其特征在于,S200包括:S210,使用经训练的XLNet模型获取a
n,1
对应的语义向量q
n,1
;q
n,1
由a
n,1
包括的每一个词的词向量相加求平均得到;S220,使用经训练的BiLSTM模型获取q
n,1
对应的隐层状态Q
n,1
;S230,将Q
n,1
...

【专利技术属性】
技术研发人员:董啸天李健增冯源张晓凡张振伟孟祥飞孙娜
申请(专利权)人:天河超级计算淮海分中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1