一种用于进行用户分层的语义处理方法技术

技术编号:39428548 阅读:12 留言:0更新日期:2023-11-19 16:14
本发明专利技术提供了一种用于进行用户分层的语义处理方法,包括:构建用户画像标签体系,根据聊天会话场景和业务需求搭建用户画像标签体系,所述用户画像标签体系包括若干初始标签;构建用户分层初始化模型,基于当前用户的用户对话文本确定用户的初始标签,所述初始标签对应初步分层信息;对获取的用户对话文本中的问句进行至少两次关键词筛选,根据筛选结果挖掘标签,所述标签对应三个结果,所述标签属于初始标签,或所述标签位于所述用户画像标签体系中,或所述标签作为新标签添加进入用户画像标签体系,同时新标签用于更新用户分层

【技术实现步骤摘要】
一种用于进行用户分层的语义处理方法


[0001]本专利技术涉及用户分层领域,尤其涉及一种用于进行用户分层的语义处理方法


技术介绍

[0002]在产品迭代的过程中,用户的需求也会发生不同的变化

此时需要做用户分层,为不同用户提供个性化服务

用户分层是根据不同用户的行为特征划分成不同的用户群,进而制定不同的产品策略来满足其差异化需求,从而充分发挥每个层级用户的价值,达成产品目标

[0003]现有的用户分层方法,经常使用一些结构化用户特征数据,结合一定的人工或规则的方法进行用户分层的,效率低且不够全面

另外,在海量的聊天会话文本数据中,通常包含了较为丰富的用户信息,可以用来进行用户分层及圈选工作,以获得更为完整的用户画像特征

[0004]然而,鉴于文本数据非结构化属性,文本数据的挖掘难度较高,因此使用文本数据进行用户分层方法较为有限

现有的一些技术虽然可以一定程度上实现聊天会话文本的挖掘,但对于聊天会话中的文本信息度,缺乏较为精准的定位,加之客户的兴趣点可能会不断变化,笼统的文本数据挖掘可能导致所挖掘的用户标签缺乏时效性


技术实现思路

[0005]本专利技术的目的在于提供一种用于进行用户分层的语义处理方法,通过对高频问句的识别,确定圈定用户在当下最关心的话题,并结合关键词提取技术和语义模型的相似度计算,可以实现自动打标和分层,不仅可以实现更精准的定位,而且可以节省人工成本,提升自动化水平,便于推广复制

[0006]实现本专利技术目的的技术方案如下:
[0007]一种用于进行用户分层的语义处理方法,包括:
[0008]构建用户画像标签体系,根据聊天会话场景和业务需求搭建用户画像标签体系,所述用户画像标签体系包括若干初始标签;
[0009]构建用户分层初始化模型,基于当前用户的用户对话文本确定用户的初始标签,所述初始标签对应初步分层信息;
[0010]对获取的用户对话文本中的问句进行至少两次关键词筛选,根据筛选结果挖掘标签,所述标签对应三个结果,所述标签属于初始标签,或所述标签位于所述用户画像标签体系中,或所述标签作为新标签添加进入用户画像标签体系,同时新标签用于更新用户分层

[0011]优选地,对用户对话文本中的问句筛选包括:
[0012]构建自然语言处理算法模型,对获取的用户对话文本中提取第一关键词;
[0013]构建分类算法模型,针对用户对话文本的句子,判断并提取其中的问句,同时基于提取的第一关键词,问句的匹配及相似度计算定位出高频问句;
[0014]采用聚类算法对收集的高频问句进行聚类,以得到用一类簇下高频问句下的第二
关键词,并基于所述第二关键词更新初始标签,以形成用户新标签,所述新标签用于更新用户分层

[0015]其中用于分层主要用于确定客户类型,确定圈定用户在当下最关心的话题,并针对该用户类型更精准进行信息推送等,以提升工作效率

[0016]优选地,构建语级语义模型,对获取的关键词进行标签标定,进行相似度计算,确定筛选出的关键词的标签归属

[0017]优选地,构建自然语言处理算法模型具体包括:
[0018]对获取到的用户对话文本进行文本清洗加工

分句

分词处理后,然后采用
keyBert
算法,并通过设定阈值

去停用词,自动输出信息度高的关键词

[0019]优选地,使用
keyBert
算法作为关键词的提取

[0020]上述关键词提取模型使用
keyBert
算法,主要基于
Transformer
架构的多头注意力机制

通过注意力机制和相似度计算,可以输出对话中的词权重,根据词权重即可获得关键词的重要性,进而获取到有效关键词

[0021]其中,多头注意力机制的的表达式为:
[0022][0023]上述表达式中,
Q、K、V
均表示输入对话向量,其中,对话向量是由原始的对话内容通过文本编码技术所得

进一步计算对话向量中的自注意力,将原始的对话向量,通过线性运算,转变为
Q、K、V
三个分支,以更好地计算对话向量中的相关性,从而可以更好地突出关键字词的权重,进而得到字词的权重得分,作为后续关键词确定的主要依据

[0024]本专利技术实施例基于
keyBert
模型输出的关键词得分,可以设定一个阈值,来确定哪些关键词需要过滤

[0025]优选地,所述第一关键词代表用户信息量的大小,包括但限于用户的个人画像属性

关注点,提取第一关键词用于高频问句识别

[0026]优选地,基于提取的第一关键词,问句的匹配及相似度计算定位出高频问句具体包括:
[0027]根据第一关键词,判断获得问句中,是否包含第一关键词,如果包含第一关键词,则直接认定为高频句子,进入并存储到高频问句候选集
S

[0028]对于获得的问句,如果没有包含第一关键词,则需要进一步根据算法模型,计算该问句与高频问句候选集
S
中的高频问句的相似度,并设定阈值;高于阈值的,认为该问句与高频问句候选集
S
中的高频问句语义相似度高,则该问句可以进入到高频问句候选集
S
;反之,如果低于阈值,则舍弃该问句

[0029]现有技术都是基于全文本进行挖掘

但问句通常更精准地包含了用户的意图,所以先精准确定问句,再对问句进行挖掘,更符合用户的真实需求,并且所挖掘的用户标签的时效性更好
(
因为用户的问题更能代表当下用户感兴趣的点
)
;不同用户,可能会问相同

相似的问题,识别出高频问题,也是为了更加精准定位到用户真实的标签

[0030]优选地,采用聚类算法对收集的高频问句进行聚类具体包括:
[0031]基于相似度算法,根据不同的高频问句进行不同类簇进行分类,同一类簇所提取的用户初始标签信息,可以作为一类用户的初始标签信息

[0032]在进行二次关键词提取的时候,能够进行二次筛选定位,进一步提升用户分层的准确性和实效性;针对不同的聚类簇,进一步挖掘用户画像标签的信息

[0033]高频问句代表用户关注点和相关的问句集,则进一步在该圈定的问句集中挖掘用户标签,更能代表用户的真实标签属性

[0034]优选地,在更新初始标签之前还包括对第二关键词进行处理,通过阈值设定,确认中心词,所述中心词与所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种用于进行用户分层的语义处理方法,其特征在于,包括:构建用户画像标签体系,根据聊天会话场景和业务需求搭建用户画像标签体系,所述用户画像标签体系包括若干初始标签;构建用户分层初始化模型,基于当前用户的用户对话文本确定用户的初始标签,所述初始标签对应初步分层信息;对获取的用户对话文本中的问句进行至少两次关键词筛选,根据筛选结果挖掘标签,所述标签对应三个结果,所述标签属于初始标签,或所述标签位于所述用户画像标签体系中,或所述标签作为新标签添加进入用户画像标签体系,同时新标签用于更新用户分层
。2.
根据权利要求1所述的一种用于进行用户分层的语义处理方法,其特征在于,对用户对话文本中的问句筛选包括:构建自然语言处理算法模型,对获取的用户对话文本中提取第一关键词;构建分类算法模型,针对用户对话文本的句子,判断并提取其中的问句,同时基于提取的第一关键词,问句的匹配及相似度计算定位出高频问句;采用聚类算法对收集的高频问句进行聚类,以得到用一类簇下高频问句下的第二关键词,并基于所述第二关键词更新初始标签,以形成用户新标签,所述新标签用于更新用户分层
。3.
根据权利要求1所述的一种用于进行用户分层的语义处理方法,其特征在于,构建语义模型,对获取的关键词进行标签标定,进行相似度计算,确定筛选出的关键词的标签归属
。4.
根据权利要求1所述的一种用于进行用户分层的语义处理方法,其特征在于,构建自然语言处理算法模型具体包括:对获取到的用户对话文本进行文本清洗加工

分句

分词处理后,然后采用
keyBert
算法,并通过设定阈值

去停用词,自动输出信息度高的关键词
。5.
根据权利要求4所述的一种用于进行用户分层的语义处理方法,其特征在于,使用
keyBert
算法作为关键词的提取;
keyBert
算法基于
Transformer
架构的多头注意力机制,其中,多头注意力机制的的表达式为:上述表达式...

【专利技术属性】
技术研发人员:谢鹏
申请(专利权)人:上海众调信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1