【技术实现步骤摘要】
一种融合用户属性的文本数据处理方法
[0001]本专利技术涉及电数字数据处理
,特别是涉及一种融合用户属性的文本数据处理方法。
技术介绍
[0002]用户生成内容作为一种新兴的信息形式,在信息传播、参与互动、创作、知识共享以及社会影响等方面发挥着重要作用且具有多重价值,充分的挖掘其中潜在的信息能够有助于获取用户的需求。当前对用户生成的文本信息的分析主要是提取其中的关键信息,但是,单纯进行用户生成的文本信息的分析无法全面理解用户的需求,也无法针对性地为用户推荐与其需求匹配的信息。
技术实现思路
[0003]本专利技术目的在于,提供一种融合用户属性的文本数据处理方法,以为用户推荐更为匹配的信息。
[0004]根据本专利技术,提供了一种融合用户属性的文本数据处理方法,包括以下步骤:S100,获取目标用户的文本数据A,A=(A1,A2),A1为目标用户的非数值型文本数据,A1=(a
1,1
,a
2,1
,
…
,a
n,1
,
…
,a
N,1
),a
n,1
为第n个目标用户的非数值型文本数据,A2为目标用户的数值型文本数据,A2=(a
1,2
,a
2,2
,
…
,a
n,2
,
…
,a
N,2
),a
n,2
为第n个目标用户的数值型文本数据;n的取值范围为1到N
【技术保护点】
【技术特征摘要】
1.一种融合用户属性的文本数据处理方法,其特征在于,包括以下步骤:S100,获取目标用户的文本数据A,A=(A1,A2),A1为目标用户的非数值型文本数据,A1=(a
1,1
,a
2,1
,
…
,a
n,1
,
…
,a
N,1
),a
n,1
为第n个目标用户的非数值型文本数据,A2为目标用户的数值型文本数据,A2=(a
1,2
,a
2,2
,
…
,a
n,2
,
…
,a
N,2
),a
n,2
为第n个目标用户的数值型文本数据;n的取值范围为1到N,N为目标用户的数量;所述非数值型文本数据为不只包括数值的文本数据;所述数值型文本数据为只包括数值的文本数据;S200,遍历A1,获取a
n,1
对应的主题情感向量B
n,1
,B
n,1
=(b
1n,1
,b
2n,1
,
…
,b
mn,1
,
…
,b
Mn,1
),b
mn,1
为a
n,1
对应的第m个主题的情感值,m的取值范围为1到M,M为a
n,1
对应的主题数量;S300,根据B
n,1
获取第n个目标用户对应的第一表征向量V
n,1
;S400,获取第n个目标用户对应的第二表征向量V
n,2
,V
n,2
=(s
1n,2
,s
2n,2
,
…
,s
in,2
,
…
,s
un,2
),s
in,2
为第n个用户的第i个预设属性对应的元素值,i的取值范围为1到u,u为预设属性的数量;S500,根据V
n,1
、a
n,2
和V
n,2
获取第n个目标用户对应的目标表征向量V
n
;S600,根据每一V
n
对N个目标用户进行聚类,得到聚类结果C,C=(c1,c2,
…
,c
j
,
…
,c
k
),c
j
为聚类得到的第j个簇,j的取值范围为1到k,k为聚类得到的簇的数量;c
j
=(c
j,1
,c
j,2
,
…
,c
j,e
,
…
,c
j,E
),c
j,e
为c
j
包括的第e个目标用户,e的取值范围为1到E,E为c
j
包括的目标用户的数量;S700,获取待匹配的非数值型文本数据A
’
,A
’
=(a
’1,a
’2,
…
,a
’
l
,
…
,a
’
L
),a
’
l
为第l个待匹配的非数值型文本数据,l的取值范围为1到L,L为待匹配的非数值型文本数据的数量;S800,遍历C和A
’
,将与c
j
对应的非数值型文本数据匹配的a
’
l
作为c
j
的目标文本数据。2.根据权利要求1所述的融合用户属性的文本数据处理方法,其特征在于,S800包括:S810,获取c
j
对应的非数值型文本数据G
j
,G
j
=(g
j,1
,g
j,2
,
…
,g
j,e
,
…
,g
j,E
),g
j,e
为A1中c
j,e
对应的非数值型文本数据;S820,遍历G
j
,获取g
j,e
对应的语义向量f
j,e
;S830,遍历A
’
,获取a
’
l
对应的语义向量f
’
l
;S840,获取g
j,e
与a
’
l
的语义相似度w
lj,e
;S850,获取c
j
与a
’
l
的语义相似度w
l
,w
l
=(∑
Ee=1
w
lj,e
)/E;S860,获取c
j
对应的语义相似度序列w,w=(w1,w2,
…
,w
l
,
…
,w
L
);S870,将max(w)对应的A
’
中待匹配的非数值型文本数据判定为与c
j
对应的非数值型文本数据匹配的a
’
l
,max( )为取最大值。3.根据权利要求1所述的融合用户属性的文本数据处理方法,其特征在于,S200包括:S210,使用经训练的XLNet模型获取a
n,1
对应的语义向量q
n,1
;q
n,1
由a
n,1
包括的每一个词的词向量相加求平均得到;S220,使用经训练的BiLSTM模型获取q
n,1
对应的隐层状态Q
n,1
;S230,将Q
n,1
...
【专利技术属性】
技术研发人员:董啸天,李健增,冯源,张晓凡,张振伟,孟祥飞,孙娜,
申请(专利权)人:天河超级计算淮海分中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。