用户画像构建方法、装置、设备及可读存储介质制造方法及图纸

技术编号:24996130 阅读:27 留言:0更新日期:2020-07-24 17:58
本发明专利技术涉及大数据技术领域,公开了用户画像构建方法、装置、设备及可读存储介质,用于提高用户画像的准确率。该用户画像构建方法包括通过预先训练好的第一文本分类模型和第二文本分类模型分别对用户数据进行语义意图识别,得到第一语义意图识别结果;将第一语义意图识别结果输入语言表征bert模型,得到第二语义意图识别结果;从所述第二语义意图识别结果中获取符合第一预设规则的目标第二子语义意图,获得与所述目标第二子语义意图对应的第一应答数据;通过第三文本分类模型对第一应答数据和用户数据进行文本分类,得到分类结果;基于分类结果得到第一标签或第二标签,基于所述第一标签或所述第二标签生成用户画像。

【技术实现步骤摘要】
用户画像构建方法、装置、设备及可读存储介质
本专利技术涉及大数据
,尤其涉及一种用户画像构建方法、装置、设备及可读存储介质。
技术介绍
目前,在对语义意图进行识别时,一般都是将用户数据映射至语义框架模型中对应的语义槽,人机对话时,对访客问题进行主题类型的匹配,并将访客问题填充至主题类型对应的语义框架模型中的语义槽中,再根据访客问题从知识库中进行问题匹配,并将匹配的问题所对应的答案反馈给访客,这种方式的缺陷是,忽略了在不同的时刻用户的实际意图是存在转换的,因此输出的语义意图识别结果准确率较低,因此,在根据意图识别结果进行用户画像构建时,会造成用户画像准确率偏低。
技术实现思路
本专利技术的主要目的在于提供一种用户画像构建方法、装置、设备及可读存储介质,旨在解决现有的用户画像准确率低的技术问题。实时收集人机对话数据中的用户数据,并通过预先训练好的第一文本分类模型和第二文本分类模型分别对所述用户数据进行语义意图识别,得到第一语义意图识别结果,其中,所述第一语义意图识别结果包括多个第一子语义意图,所述人机对话数据包括:本文档来自技高网...

【技术保护点】
1.一种用户画像构建方法,其特征在于,所述用户画像构建方法包括以下步骤:/n实时收集人机对话数据中的用户数据,并通过预先训练好的第一文本分类模型和第二文本分类模型分别对所述用户数据进行语义意图识别,得到第一语义意图识别结果,其中,所述第一语义意图识别结果包括多个第一子语义意图,所述人机对话数据包括:用户数据和机器应答数据;/n将所述第一语义意图识别结果输入语言表征bert模型,得到第二语义意图识别结果,其中,所述第二语义意图识别结果包括多个第二子语义意图,所述第二子语义意图具有不同的优先级别;/n从所述第二语义意图识别结果中获取符合第一预设规则的目标第二子语义意图,根据预先设置的应答数据与语义...

【技术特征摘要】
1.一种用户画像构建方法,其特征在于,所述用户画像构建方法包括以下步骤:
实时收集人机对话数据中的用户数据,并通过预先训练好的第一文本分类模型和第二文本分类模型分别对所述用户数据进行语义意图识别,得到第一语义意图识别结果,其中,所述第一语义意图识别结果包括多个第一子语义意图,所述人机对话数据包括:用户数据和机器应答数据;
将所述第一语义意图识别结果输入语言表征bert模型,得到第二语义意图识别结果,其中,所述第二语义意图识别结果包括多个第二子语义意图,所述第二子语义意图具有不同的优先级别;
从所述第二语义意图识别结果中获取符合第一预设规则的目标第二子语义意图,根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与所述目标第二子语义意图对应的第一应答数据;
通过第三文本分类模型对所述第一应答数据和用户数据进行文本分类,得到分类结果;
根据所述分类结果与预置标签库中的标签的对应关系,判断所述预置标签库中是否存在与所述分类结果呈对应关系的标签;
若所述预置标签库中存在与所述分类结果呈对应关系的标签,则得到第一标签;
若所述预置标签库中不存在与所述分类结果呈对应关系的标签,则通过相似度查找,得到与所述分类结果相匹配的第二标签;
基于所述第一标签或所述第二标签生成用户画像。


2.如权利要求1所述的用户画像构建方法,其特征在于,所述将所述第一语义意图识别结果输入语言表征bert模型,得到第二语义意图识别结果,其中,所述第二语义意图识别结果包括多个第二子语义意图,所述第二子语义意图具有不同的优先级别,包括以下步骤:
将所述第一语义意图识别结果中的第一子语义意图按照人机对话时的时间顺序输入语言表征bert模型,以及通过所述bert模型对所述第一子语义意图进行识别,得到初始语义意图识别结果,其中,所述初始语义意图识别结果包括多个初始子语义意图;
通过归一化算法对所述初始语义意图识别结果中的每个初始子语义意图进行归一化处理,得到每个初始子语义意图的预测概率;
根据所述预测概率的大小确定所述多个初始子语义意图之间的优先级别;
根据所述优先级别得到具有优先级别的第二子语义意图,将所述具有优先级别的第二子语义意图作为第二语义意图识别结果,其中,所述第二语义意图识别结果包括多个第二子语义意图,所述第二子语义意图具有不同的优先级别。


3.如权利要求1所述的用户画像构建方法,其特征在于,在所述实时收集人机对话数据中的用户数据,并通过预先训练好的第一文本分类模型和第二文本分类模型分别对所述用户数据进行语义意图识别,得到第一语义意图识别结果之前,还包括以下步骤:
将预先标注好标识的意图识别结果和标准问答库中的数据均映射于高纬空间,得到空间向量集合;
按照预置训练轮数,采用所述空间向量集合分别对第一初始分类模型和第二初始分类模型进行训练,得到对应的第一中间分类模型和第二中间分类模型;
将待预测数据分别输入所述第一中间分类模型和第二中间分类模型,得到对应的第一初始应答数据和第二初始应答数据;
根据预置标准应答数据分别判断所述第一初始应答数据和第二初始应答数据的准确率是否大于或等于预置准确率;
若所述第一初始应答数据和第二初始应答数据的准确率大于或等于所述预置准确率,则得到对应的第一文本分类模型和对应的第二文本分类模型。


4.如权利要求1所述的用户画像构建方法,其特征在于,所述根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与所述目标第二子语义意图对应的第一应答数据包括以下步骤:
根据预先设置的应答数据与语义意图识别结果之间的映射关系,从预置标准问答库获得与所述目标第二子语义意图对应的初始第一应答数据;
通过机器学习排序LTR算法对所述初始第一应答数据进行排序,并输出与所述第二语义意图识结果别对应的第一应答数据。


5.如权利要求4所述的用户画像构建方法...

【专利技术属性】
技术研发人员:余尔特
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1