一种融合用户属性的文本数据处理方法技术

技术编号：38683889 阅读：10 留言：0更新日期：2023-09-02 22:56

本申请涉及电数字数据处理技术领域，特别是涉及一种融合用户属性的文本数据处理方法。该方法包括以下步骤：获取目标用户的文本数据A；遍历A1，获取a

全部详细技术资料下载

【技术实现步骤摘要】
一种融合用户属性的文本数据处理方法

[0001]本专利技术涉及电数字数据处理
，特别是涉及一种融合用户属性的文本数据处理方法。

技术介绍

[0002]用户生成内容作为一种新兴的信息形式，在信息传播、参与互动、创作、知识共享以及社会影响等方面发挥着重要作用且具有多重价值，充分的挖掘其中潜在的信息能够有助于获取用户的需求。当前对用户生成的文本信息的分析主要是提取其中的关键信息，但是，单纯进行用户生成的文本信息的分析无法全面理解用户的需求，也无法针对性地为用户推荐与其需求匹配的信息。

技术实现思路

[0003]本专利技术目的在于，提供一种融合用户属性的文本数据处理方法，以为用户推荐更为匹配的信息。
[0004]根据本专利技术，提供了一种融合用户属性的文本数据处理方法，包括以下步骤：S100，获取目标用户的文本数据A，A=(A1,A2)，A1为目标用户的非数值型文本数据，A1=(a
1,1
,a
2,1
,
…
,a
n,1
,
…
,a
N,1
)，a
n,1
为第n个目标用户的非数值型文本数据，A2为目标用户的数值型文本数据，A2=(a
1,2
,a
2,2
,
…
,a
n,2
,
…
,a
N,2
)，a
n,2
为第n个目标用户的数值型文本数据；n的取值范围为1到N

【技术保护点】

【技术特征摘要】
1.一种融合用户属性的文本数据处理方法，其特征在于，包括以下步骤：S100，获取目标用户的文本数据A，A=(A1,A2)，A1为目标用户的非数值型文本数据，A1=(a
1,1
,a
2,1
,
…
,a
n,1
,
…
,a
N,1
)，a
n,1
为第n个目标用户的非数值型文本数据，A2为目标用户的数值型文本数据，A2=(a
1,2
,a
2,2
,
…
,a
n,2
,
…
,a
N,2
)，a
n,2
为第n个目标用户的数值型文本数据；n的取值范围为1到N，N为目标用户的数量；所述非数值型文本数据为不只包括数值的文本数据；所述数值型文本数据为只包括数值的文本数据；S200，遍历A1，获取a
n,1
对应的主题情感向量B
n,1
，B
n,1
=(b
1n,1
,b
2n,1
,
…
,b
mn,1
,
…
,b
Mn,1
)，b
mn,1
为a
n,1
对应的第m个主题的情感值，m的取值范围为1到M，M为a
n,1
对应的主题数量；S300，根据B
n,1
获取第n个目标用户对应的第一表征向量V
n,1
；S400，获取第n个目标用户对应的第二表征向量V
n,2
，V
n,2
=(s
1n,2
,s
2n,2
,
…
,s
in,2
,
…
,s
un,2
)，s
in,2
为第n个用户的第i个预设属性对应的元素值，i的取值范围为1到u，u为预设属性的数量；S500，根据V
n,1
、a
n,2
和V
n,2
获取第n个目标用户对应的目标表征向量V
n
；S600，根据每一V
n
对N个目标用户进行聚类，得到聚类结果C，C=(c1,c2,
…
,c
j
,
…
,c
k
)，c
j
为聚类得到的第j个簇，j的取值范围为1到k，k为聚类得到的簇的数量；c
j
=(c
j,1
,c
j,2
,
…
,c
j,e
,
…
,c
j,E
)，c
j,e
为c
j
包括的第e个目标用户，e的取值范围为1到E，E为c
j
包括的目标用户的数量；S700，获取待匹配的非数值型文本数据A
’
，A
’
=(a
’1,a
’2,
…
,a
’
l
,
…
,a
’
L
)，a
’
l
为第l个待匹配的非数值型文本数据，l的取值范围为1到L，L为待匹配的非数值型文本数据的数量；S800，遍历C和A
’
，将与c
j
对应的非数值型文本数据匹配的a
’
l
作为c
j
的目标文本数据。2.根据权利要求1所述的融合用户属性的文本数据处理方法，其特征在于，S800包括：S810，获取c
j
对应的非数值型文本数据G
j
，G
j
=(g
j,1
,g
j,2
,
…
,g
j,e
,
…
,g
j,E
)，g
j,e
为A1中c
j,e
对应的非数值型文本数据；S820，遍历G
j
，获取g
j,e
对应的语义向量f
j,e
；S830，遍历A
’
，获取a
’
l
对应的语义向量f
’
l
；S840，获取g
j,e
与a
’
l
的语义相似度w
lj,e
；S850，获取c
j
与a
’
l
的语义相似度w
l
，w
l
=(∑
Ee=1
w
lj,e
)/E；S860，获取c
j
对应的语义相似度序列w，w=(w1,w2,
…
,w
l
,
…
,w
L
)；S870，将max(w)对应的A
’
中待匹配的非数值型文本数据判定为与c
j
对应的非数值型文本数据匹配的a
’
l
，max( )为取最大值。3.根据权利要求1所述的融合用户属性的文本数据处理方法，其特征在于，S200包括：S210，使用经训练的XLNet模型获取a
n,1
对应的语义向量q
n,1
；q
n,1
由a
n,1
包括的每一个词的词向量相加求平均得到；S220，使用经训练的BiLSTM模型获取q
n,1
对应的隐层状态Q
n,1
；S230，将Q
n,1
...

【专利技术属性】
技术研发人员：董啸天，李健增，冯源，张晓凡，张振伟，孟祥飞，孙娜，
申请(专利权)人：天河超级计算淮海分中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人