基于文本和结构化数据的用户意向识别和量化方法技术

技术编号:39755737 阅读:7 留言:0更新日期:2023-12-17 23:55
本发明专利技术提供了基于文本和结构化数据的用户意向识别和量化方法,包括以下步骤:获取用户社交中的文本数据,以及用户画像构成的结构化数据;根据业务场景,提取用户可能的潜在关注点,并总结概括,形成该业务场景下的初始意向类别;利用结构化数据,构建静态意向分类模型,同时利用文本数据构建实时动态意向分类模型,两者加权获得定性的初始意向分类;初始意向类别加权后的初始意向识别阈值大于等于设定阈值时,则进行意向度级别判断;分别利用结构化数据和文本数据构建静态意向度分级模型和动态意向度分级模型,两者加权获得定量的意向度分级结果

【技术实现步骤摘要】
基于文本和结构化数据的用户意向识别和量化方法


[0001]本专利技术涉及数据挖掘
,尤其涉及基于文本和结构化数据的用户意向识别和量化方法


技术介绍

[0002]针对一些语音或文本的服务场景,例如电话

语音

微信
、app
聊天等,用户可能存在不同的需求,例如售前

售后

购买

投诉等

或者更具体的,在电话或微信销售场景中,用户可能对不同的产品和服务,有不同的购买需求

以多样产品服务的销售为例,在营销中为了更好地促成交易发生,对于用户的实时需求判定和实时意向度判定有较高的业务场景需求

而当前大多数电话销售场景,都无法支持用户的意向分析和预测,或者无法精准识别用户的关注点和意向度


技术实现思路

[0003]本专利技术的目的在于提供一种语音或文本的服务场景中,用户意向类别和意向度等级实时判断的解决方案

具体的,通过对用户可能感兴趣的意向进行实时判断,并给出在对应意向类别中的意向度等级的实时预测

该功能不仅可以更精准地把握客户需求和意向的行为定性预测,给出对应意向下的可能性定量预测,且进一步形成用户行为倾向的动态监测结果

[0004]为实现上述目的,本专利技术通过以下技术方案予以实现

[0005]基于文本和结构化数据的用户意向识别和量化方法,包括以下步骤:
[0006]获取用户社交中的文本数据,以及用户画像构成的结构化数据;
[0007]根据业务场景,提取用户可能的潜在关注点,并总结概括,形成该业务场景下的初始意向类别;
[0008]利用结构化数据,构建静态意向分类模型,同时利用文本数据构建实时动态意向分类模型,两者加权获得定性的初始意向分类;
[0009]初始意向类别加权后的初始意向识别阈值大于等于设定阈值时,则进行意向度级别判断;
[0010]分别利用结构化数据和文本数据构建静态意向度分级模型和动态意向度分级模型,两者加权获得定量的意向度分级结果

[0011]优选地,所述文本数据包括但不局限于电话录音数据

语音数据

文字文本数据

[0012]优选地,还包括语音数据的转换,具体为:选用分段处理,将语音依次经过分帧

加窗

傅里叶变换

分段以及后续处理,使其在设定帧长范围内转换为频域信号,提取有用信号后,再将分段转换为文字的语音合成整体文本

[0013]优选地,还包括静态意向分类模型和静态意向度分级模型的构建,具体为:选用决策树模型,将静态数据和用户画像数据形成的数据源分为训练集和验证集,构建模型以形成静态意向分类模型和静态意向度分级模型

[0014]优选地,还包括动态意向分类模型和动态意向度分级模型的构建,具体为:
[0015]选取深度学习神经网络构建模型,用来实现文本向量化,并自动提取文本数据中的数据特征,最终通过构建文本分类模型,以形成动态意向分类模型和动态意向度分级模型

[0016]优选地,所述初始意向分类和意向度分级结果获得中,所述加权权重的比例为0‑
1。
[0017]优选地,静态和动态意向类别模型预测结果加权后,其阈值小于设定阈值时,则样本将存储更新到意向库中,定期经由业务人员提炼和确定后,再次更新模型会扩充意向类别,以覆盖更全面

[0018]优选地,所述定量的意向度分级结果至少包括为高中低三个意向分级

[0019]本专利技术的有益效果如下:
[0020]1)
用户意向的实时预测,实现用户的定性分析;对应意向下的意向度实时预测,实现用户的定量分析

[0021]2)
对话实时场景实现精准分析用户,有利于辅助实时决策

[0022]3)
记录用户的行为走势,扩充用户画像的维度

[0023]4)
自动化识别新的潜在意向,人工辅助扩充意向库

附图说明
[0024]图1为本专利技术提供的基于文本和结构化数据的用户意向识别和量化方法的流程图;
[0025]图2为本专利技术提供的基于文本和结构化数据的用户意向识别和量化方法的模块图;
[0026]图3为本专利技术提供的历史静态模型构建中的模块图

具体实施方式
[0027]下面结合附图所示的各实施方式对本专利技术进行详细说明,但应当说明的是,这些实施方式并非对本专利技术的限制,本领域普通技术人员根据这些实施方式所作的功能

方法

或者结构上的等效变换或替代,均属于本专利技术的保护范围之内

[0028]参照附图1‑2所示,本实专利技术中基于文本和结构化数据的用户意向识别和量化方法,包括以下步骤:
[0029]步骤一

实时获取用户社交中的录音数据

语音数据和文本数据,形成文本分类数据;
[0030]具体地,包括获取实时的电话录音
(ASR
文本
)
或聊天对话文本数据,以及用户画像数据
(
非聊天数据
)。
本实施例中,用户社交包括但不局限于电话录音

微信语音

文字文本

[0031]本实施例中,获取的文本数据,包括录音

语音以及直接的文字文本,
[0032]本实施例中,对于语音还需要借助借助
ASR
技术实现语音转文本

整个过程如下:
[0033]1)
引入语音增强技术:通过降噪

语音增强等技术,提高语音质量,减少噪音对
ASR
技术的影响

通过降噪和语音增强,使得语音或录音中的外界杂音等降低

[0034]2)
引入语音预处理技术:对语音进行预处理,如去除口音

调整语速等,以提高
ASR
技术的准确性和稳定性

[0035]3)
为了解决方言等问题,引入了多语种支持问题的解决方案:
[0036]引入多语种模型:建立多语种的语音转换文本模型,对不同语种的语音进行处理和转换

本实施例中,可以考虑英文

日文以及地方语言的数据库等,以确保准确性和可靠性

通过收集和标注多语种的语音数据集,用于训练和优化多语种模型

[0037]4)
针对长语音处理问题的解决方案本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于文本和结构化数据的用户意向识别和量化方法,其特征在于,包括以下步骤:获取用户社交中的文本数据,以及用户画像构成的结构化数据;根据业务场景,提取用户可能的潜在关注点,并总结概括,形成该业务场景下的初始意向类别;利用结构化数据,构建静态意向分类模型,同时利用文本数据构建实时动态意向分类模型,两者加权获得定性的初始意向分类;初始意向类别加权后的初始意向识别阈值大于等于设定阈值时,则进行意向度级别判断;分别利用结构化数据和文本数据构建静态意向度分级模型和动态意向度分级模型,两者加权获得定量的意向度分级结果
。2.
根据权利要求1所述的基于文本和结构化数据的用户意向识别和量化方法,其特征在于,所述文本数据包括但不局限于电话录音数据

语音数据

文字文本数据
。3.
根据权利要求2所述的基于文本和结构化数据的用户意向识别和量化方法,其特征在于,还包括语音数据的转换,具体为:选用分段处理,将语音依次经过分帧

加窗

傅里叶变换

分段以及后续处理,使其在设定帧长范围内转换为频域信号,提取有用信号后,再将分段转换为文字的语音合成整体文本
。4.
根据权利要求1所述的基于...

【专利技术属性】
技术研发人员:谢鹏
申请(专利权)人:上海众调信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1