基于会话场景的用户画像标签挖掘方法及装置制造方法及图纸

技术编号:31024259 阅读:73 留言:0更新日期:2021-11-30 03:22
本申请涉及一种基于会话场景的用户画像标签挖掘方法、装置、计算机设备和存储介质。所述方法包括:从会话场景信息中提取多个对话短文本,将对话短文本分词后,训练词向量语义模型,根据初始标签的词汇类别,将初始标签输入到对应的语义模型中得到初始标签的同级标签;将筛选后的同级标签作为新标签加入初始用户画像标签体系的标签集中,采用聚类算法对短文本进行计算得到多个类簇,从类簇中提取中心词,将标签集中的标签和中心词进行语义相似度计算,得到标记后的类簇或未标记的类簇,根据未标记的类簇的中心词,得到初始用户画像标签体系的新标签。采用本方法能够挖掘用户画像的新标签。新标签。新标签。

【技术实现步骤摘要】
基于会话场景的用户画像标签挖掘方法及装置


[0001]本申请涉及数据挖掘领域,特别是涉及一种基于会话场景的用户画像标签挖掘方法、装置、计算机设备和存储介质。

技术介绍

[0002]在会话场景,人与人之间的交流过程中,会提到一些个人情况、话题、生活习惯、兴趣爱好、产品偏好等,从这些数据中构建用户画像标签,可以更好的服务用户需求,从会话文本中挖掘用户画像标签,实现场景人像特征生成,在推荐系统中,能够更好的定位用户的偏好,实现个性化精准推荐;用户画像标签挖掘方法也可以应用与领域人物知识图谱的构建。
[0003]然而,现有的技术主要是基于短评和文章等内容构建业务标签体系,会话场景的难点在于会话场景中语料没有较好的连贯性,缺少针对会话场景的人物画像挖掘技术。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够挖掘针对会话场景的用户画像标签的基于会话场景的用户画像标签挖掘方法、装置、计算机设备和存储介质。
[0005]一种基于会话场景的用户画像标签挖掘方法,所述方法包括:
[0006]获取用户会话本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于会话场景的用户画像标签挖掘方法,其特征在于,所述方法包括:获取用户会话场景信息;所述用户会话场景信息中包含多个对话短文本;根据所述对话短文本搭建用户画像标签体系;在所述用户画像标签体系定义初始用户画像标签体系及初始标签;将所述对话短文本分词,根据分词后的词汇类别,预先训练词向量语义模型;所述词向量语义模型包括泛语义模型和场景语义模型;根据所述初始标签的词汇类别,将所述初始标签输入到对应的语义模型中得到所述初始标签的同级标签;将筛选后的同级标签作为新标签加入初始用户画像标签体系的标签集中;采用聚类算法对所述短文本进行计算得到多个类簇,从所述类簇中提取中心词;所述中心词为所述类簇数据分词后的高频词;将所述标签集中的标签和所述中心词进行语义相似度计算,根据相似度解算结果,得到标记后的类簇或未标记的类簇;根据所述未标记的类簇的中心词,得到初始用户画像标签体系的新标签。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述对话短文本数据采用规则挖掘算法,得到所有数值类数据;预先设置多个分类模型,根据所述数值类数据的类型,将所述数值类数据划分到对应的分类模型中;对所有分类模型进行标记,得到数值类数据的标签;将所述数值类数据的标签加入初始用户画像标签体系的标签集中。3.根据权利要求1所述的方法,其特征在于,将所述对话短文本分词,根据分词后的词汇类别,预先训练词向量语义模型;所述词向量语义模型包括泛语义模型和场景语义模型,包括:将所述对话短文本分词,将所述词汇分为泛领域词汇、垂直领域词汇和其他词汇;根据分词后的词汇类别,使用开放领域的语料训练泛语义模型,使用垂直领域的会话数据训练场景语义模型。4.根据权利要求3所述的方法,其特征在于,使用开放领域的语料训练泛语义模型,包括:根据分词后的泛领域词汇,利用爬虫爬取百科类网站文本内容,通过文本清洗,去除停用词;使用分词工具对去除停用词的文本进行分词,利用机器学习算法对分词后的词汇进行建模训练,得到泛语义模型。5.根据权利要求3所述的方法,其特征在于,使用垂直领域的会话数据训练场景语义模型,包括:根据分词后的垂直领域词汇,获取垂直领域的会话数据,通过文本清洗和高频词统计分析,将筛选后...

【专利技术属性】
技术研发人员:丑晓慧李煜
申请(专利权)人:上海深擎信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1