一种基于聊天会话记录文本信息挖掘系统及方法技术方案

技术编号:39487554 阅读:8 留言:0更新日期:2023-11-24 11:07
本发明专利技术提供了一种基于聊天会话记录文本信息挖掘系统及方法,系统包括:数据采集调取单元

【技术实现步骤摘要】
一种基于聊天会话记录文本信息挖掘系统及方法


[0001]本专利技术涉及信息挖掘
,尤其涉及一种基于聊天会话记录文本信息挖掘系统及方法


技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术

[0003]信息挖掘是数据挖掘技术在信息处理中的应用,是从大量训练样本的基础上得到数据对象间的内在特征,并以此为依据进行有目的的信息提取

信息挖掘在各行业发挥着重要作用,随着数据资源的爆炸性增长,数据挖掘技术不仅成为政府部门提高治理能力的重要手段,而且成为提升各行业核心竞争力的关键

[0004]数据挖掘是从大量的

不完全的

有噪声的

模糊的

随机的数据中提取隐含在其中的

人们事先不知道的,但又是潜在有用的信息和知识的过程

数据挖掘主要通过机器学习或者是通过数学算法等相关的方法获取深层次的知识,把信息变成认知的工具,可以将数据分析得出的信息转化为有效的预测和决策

[0005]现有的数据信息挖掘较多应用于教育

风控

医疗等领域,然而针对实时聊天会话记录获取深层次认知并未进行过多研究

因此,如何基于聊天会话记录文本进行信息挖掘,成为一项亟待解决的问题


技术实现思路

[0006]本专利技术提供了一种基于聊天会话记录文本信息挖掘系统及方法,从实时聊天会话数据中提取关键词信息,根据历史聊天会话数据确定用户画像信息,根据实时聊天会话数据更新用户画像信息,根据需要选择性的从历史聊天会话数据中提取洞察信息,将关键词信息和用户画像信息或者将关键词信息

用户画像信息和洞察信息输入数据挖掘单元得到挖掘信息,进而获取用户的深层次信息,基于深层次信息更有利于为用户提供服务

[0007]实现本专利技术目的的技术方案如下:
[0008]一方面,本专利技术提供一种基于聊天会话记录文本信息挖掘系统,包括:
[0009]数据采集调取单元,所述数据采集调取单元采集用户的实时聊天会话数据;所述数据采集调取单元调取该用户的历史聊天会话数据,所述数据采集调取单元将历史聊天会话数据和实时聊天会话数据合并成该用户的聊天会话数据;
[0010]预处理单元,所述预处理单元预处理的实时聊天会话数据,得到实时数据和关键词信息;所述预处理单元预处理历史聊天会话数据,得到汇总数据和洞察信息;
[0011]数据处理单元,所述数据处理单元根据汇总数据得到该用户的用户画像信息;
[0012]数据挖掘单元,所述数据挖掘单元根据用户画像信息

关键词信息和
/
或洞察信息提取挖掘信息

[0013]基于一方面,在一种可能的实现方式中,所述数据采集调取单元设置机制实时收
集聊天会话记录,确保及时获取最新聊天会话数据;
[0014]所述数据采集调取单元将聊天会话记录中上下文无关且超过预设时间间隔的实时聊天会话数据反馈至历史聊天会话数据,以实时更新该用户的历史聊天会话数据;
[0015]所述数据采集调取单元将实时聊天会话数据中隐藏信息添加到历史聊天会话数据

[0016]基于一方面,在一种可能的实现方式中,所述预处理单元预处理实时聊天会话数据,得到实时数据和关键词信息,包括:
[0017]所述预处理单元包括数据预处理模块

自然语言处理模块和关键词筛选模块;
[0018]数据预处理模块对实时聊天会话数据清洗

加工

分句

分词后得到处理后的实时数据;
[0019]自然语言处理模块从实时数据中提取多个关键词,并针对每个关键词给出具体得分;
[0020]关键词筛选模块基于筛选标准过滤掉得分低于阈值的关键词,得到多个高信息度关键词

[0021]基于一方面,在一种可能的实现方式中,所述预处理单元预处理历史聊天会话数据,得到汇总数据和洞察信息,包括:
[0022]所述预处理单元包括数据预处理模块和自然语言处理模块;
[0023]数据预处理模块对历史聊天会话数据清洗和加工,得到汇总数据;
[0024]自然语言处理模块对汇总数据分词和分句,得到洞察信息

[0025]基于一方面,在一种可能的实现方式中,所述数据处理单元根据实时数据和汇总数据得到该用户的用户画像信息,包括:
[0026]所述数据处理单元根据聊天会话场景所体现的行业特性和业务特性,由人工搭建用户画像标签体系;
[0027]所述数据处理单元将实时数据和汇总数据输入用户画像标签体系,得到该用户的用户画像标签

[0028]基于一方面,在一种可能的实现方式中,所述数据挖掘单元根据用户画像标签

关键词信息和洞察信息提取挖掘信息,进而获取用户的深层次信息

[0029]另一方面,本专利技术提供一种基于聊天会话记录文本信息挖掘方法,包括:
[0030]采集并处理用户的实时聊天会话数据,调取该用户的历史聊天会话数据,形成该用户的聊天会话数据;
[0031]将聊天会话数据输入训练好的用户画像模型,所述用户画像模型构建并输出用户画像信息;
[0032]将实时聊天会话数据输入关键词提取模型,所述关键词提取模型提取并输出关键词;
[0033]将所述用户画像信息

所述关键词和
/
或基于历史聊天会话数据的洞察信息输入实时信息挖掘模型,所述实时信息挖掘模型挖掘并输出挖掘信息

[0034]基于一方面,在一种可能的实现方式中,所述调取该用户的历史聊天会话数据,包括:
[0035]将聊天会话记录中上下文无关且超过预设时间间隔的实时聊天会话数据反馈至
历史聊天会话数据,以实时更新该用户的历史聊天会话数据

[0036]基于一方面,在一种可能的实现方式中,所述用户画像模型构建并输出用户画像信息,包括:
[0037]用户画像模型根据聊天会话场景所体现的行业特性和业务特性,由人工搭建用户画像标签;
[0038]将实时数据和汇总数据输入用户画像模型,用户画像模型输出该用户的用户画像标签

[0039]上述关键词提取模型使用
keyBert
算法,主要基于
Transformer
架构的多头注意力机制

通过注意力机制和相似度计算,可以输出对话中的词权重,根据词权重即可获得关键词的重要性,进而获取到有效关键词

[0040]其中,多头注意力机制的的表达式为:
[0041][004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于聊天会话记录文本信息挖掘系统,其特征在于,包括:数据采集调取单元,所述数据采集调取单元采集用户的实时聊天会话数据;所述数据采集调取单元调取该用户的历史聊天会话数据,所述数据采集调取单元将历史聊天会话数据和实时聊天会话数据合并成该用户的聊天会话数据;预处理单元,所述预处理单元预处理实时聊天会话数据,得到实时数据和关键词信息;所述预处理单元预处理历史聊天会话数据,得到汇总数据和洞察信息;数据处理单元,所述数据处理单元根据汇总数据得到该用户的用户画像信息;数据挖掘单元,所述数据挖掘单元根据用户画像信息

关键词信息和
/
或洞察信息提取挖掘信息
。2.
根据权利要求1所述的一种基于聊天会话记录文本信息挖掘系统,其特征在于,所述数据采集调取单元设置机制实时收集聊天会话记录,确保及时获取最新聊天会话数据;所述数据采集调取单元将聊天会话记录中上下文无关且超过预设时间间隔的实时聊天会话数据反馈至历史聊天会话数据,以实时更新该用户的历史聊天会话数据;所述数据采集调取单元将实时聊天会话数据中隐藏信息添加到历史聊天会话数据
。3.
根据权利要求1所述的一种基于聊天会话记录文本信息挖掘系统,其特征在于,所述预处理单元预处理实时聊天会话数据,得到实时数据和关键词信息,包括:所述预处理单元包括数据预处理模块

自然语言处理模块和关键词筛选模块;数据预处理模块对实时聊天会话数据清洗

加工

分句

分词后得到处理后的实时数据;自然语言处理模块从实时数据中提取多个关键词,并针对每个关键词给出具体得分;关键词筛选模块基于筛选标准过滤掉得分低于阈值的关键词,得到多个高信息度关键词
。4.
根据权利要求1所述的一种基于聊天会话记录文本信息挖掘系统,其特...

【专利技术属性】
技术研发人员:谢鹏
申请(专利权)人:上海众调信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1