一种基于大数据的智能客服交互数据管理方法技术

技术编号:39433597 阅读:10 留言:0更新日期:2023-11-19 16:17
本发明专利技术涉及数据处理技术领域,具体涉及一种基于大数据的智能客服交互数据管理方法

【技术实现步骤摘要】
一种基于大数据的智能客服交互数据管理方法


[0001]本专利技术涉及数据处理
,具体涉及一种基于大数据的智能客服交互数据管理方法


技术介绍

[0002]随着大数据时代的到来,越来越多的企业开始利用基于大数据的智能客服系统来优化业务和提升用户体验

大数据智能客服系统在运行过程中需要处理大量的交互数据,包括用户的提问

系统回答

对话记录等

这些信息的数据量庞大,对这些数据进行存储和处理时变得非常困难和消耗时间,因此需要对这些数据进行压缩,以减少存储空间和时间,减少存储成本

[0003]rANS
编码是一种兼顾压缩率以及压缩时间的压缩算法

传统的
rANS
编码通过统计数据中的各类字符的频率来构建固定的累计分布表,通过固定的累计分布表对数据进行压缩

而智能客服交互系统中不断的有实时的数据输入,固定的累计分布表对实时输入的数据流进行压缩不能达到良好的压缩效果


技术实现思路

[0004]为了解决压缩效果较差的技术问题,本专利技术提供一种基于大数据的智能客服交互数据管理方法,所采用的技术方案具体如下:本专利技术提出了一种基于大数据的智能客服交互数据管理方法,该方法包括以下步骤:获取历史对话数据;对历史对话数据进行分段获取多个数据段并标号,对于每个数据段获取其所有字符种类以及每个字符的索引位置,根据每一类字符在数据段内的索引位置以及数据段的字符数量获取每一类字符的周期性;将数据段转换为句子向量,根据句子向量计算标号相邻的数据段的相似度;根据所有相邻的数据段的相似度获取周期性影响因子;根据每一类字符的周期性和周期性影响因子获取每一类字符的加权周期性;根据每一类字符的加权周期性获取每一类字符的频率,根据每一类字符的频率进行数据压缩

[0005]优选的,所述对历史对话数据进行分段获取多个数据段并标号的方法为:使用分词根据历史对话数据内的句号

感叹号

问号对历史对话数据划分,获取若干数据段,按照数据段的先后顺序从小到大标号

[0006]优选的,所述根据每一类字符在数据段内的索引位置以及数据段的字符数量获取每一类字符的周期性的方法为:
式中,表示第
a
个数据段中第
i
类字符的数量,表示第
a
个数据段中第
b
个第
i
类字符的索引位置,表示第
a
个数据段的字符的数量,表示第
a
‑1个数据段中第
i
类字符的数量,表示第
a
‑1个数据段中第
b
个第
i
类字符的索引位置,表示第
a
‑1个数据段的字符的数量,
m
表示历史对话数据分成的数据段的数量,表示第
i
类字符的周期性

[0007]优选的,所述将数据段转换为句子向量,根据句子向量计算标号相邻的数据段的相似度的方法为:利用模型将每个数据段转换为句子向量,对于两个标号相邻的句子向量,计算两个句子向量的余弦相似度作为相邻句子向量对应的相邻数据段的相似度

[0008]优选的,所述根据所有相邻的数据段的相似度获取周期性影响因子的方法为:式中,表示第
a
‑1个数据段和第
a
个数据段的相似度,表示第
a
‑2个数据段和第
a
‑1个数据段的相似度,
m
表示历史对话数据分成的数据段的数量,为超参数,为周期性影响因子

[0009]优选的,所述根据每一类字符的周期性和周期性影响因子获取每一类字符的加权周期性的方法为:令每一类字符的周期性与周期性影响因子的乘积作为每一类字符的加权周期性

[0010]优选的,所述根据每一类字符的加权周期性获取每一类字符的频率的方法为:令每一类字符的加权周期性与所有种类字符的加权周期性的和的比值作为每一类字符的频率

[0011]优选的,所述根据每一类字符的频率进行数据压缩的方法为:根据每一类字符的频率和所有字符的种类构建分布累计表利用
rANS
编码算对历史对话数据进行压缩

[0012]优选的,所述获取历史对话数据的方法为:每经过预设时间采集一次对话信息,所采集的对话信息为上一次采集后到这一次采集完成的所有对话信息,将每一次采集的对话信息记为历史对话数据

[0013]优选的,所述字符的索引位置的获取方法为:将数据段内的字符按照从前到后的顺序对每个字符进行标号,所述标号为字符的索引位置

[0014]本专利技术具有如下有益效果:本专利技术通过对数据进行分段处理,根据每一类字符在每一段数据中的分布情况,计算该类字符的周期性,通过每一分段间的数据相似度变化情况计算每一类字符的加权周期性,避免了用户与智能客服交互过程中的上下文数据的影


根据每一类字符的加权周期性自适应调整累计分布表,使实时数据利用调整后的累计分布表进行压缩时达到良好的压缩效果,从而减少存储空间和时间,达到节约存储成本的目的

附图说明
[0015]为了更清楚地说明本专利技术实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图

[0016]图1为本专利技术一个实施例所提供的一种基于大数据的智能客服交互数据管理方法流程图

具体实施方式
[0017]为了更进一步阐述本专利技术为达成预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术提出的一种基于大数据的智能客服交互数据管理方法,其具体实施方式

结构

特征及其功效,详细说明如下

在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例

此外,一或多个实施例中的特定特征

结构或特点可由任何合适形式组合

[0018]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同

[0019]下面结合附图具体的说明本专利技术所提供的一种基于大数据的智能客服交互数据管理方法的具体方案

[0020]一种基于大数据的智能客服交互数据管理方法实施例:请参阅图1,其示出了本专利技术一个实施例提供的一种基于大数据的智能客服交互数据管理方法流程图,该方法包括以下步骤:步骤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于大数据的智能客服交互数据管理方法,其特征在于,该方法包括以下步骤:获取历史对话数据;对历史对话数据进行分段获取多个数据段并标号,对于每个数据段获取其所有字符种类以及每个字符的索引位置,根据每一类字符在数据段内的索引位置以及数据段的字符数量获取每一类字符的周期性;将数据段转换为句子向量,根据句子向量计算标号相邻的数据段的相似度;根据所有相邻的数据段的相似度获取周期性影响因子;根据每一类字符的周期性和周期性影响因子获取每一类字符的加权周期性;根据每一类字符的加权周期性获取每一类字符的频率,根据每一类字符的频率进行数据压缩
。2.
如权利要求1所述的一种基于大数据的智能客服交互数据管理方法,其特征在于,所述对历史对话数据进行分段获取多个数据段并标号的方法为:使用分词根据历史对话数据内的句号

感叹号

问号对历史对话数据划分,获取若干数据段,按照数据段的先后顺序从小到大标号
。3.
如权利要求1所述的一种基于大数据的智能客服交互数据管理方法,其特征在于,所述根据每一类字符在数据段内的索引位置以及数据段的字符数量获取每一类字符的周期性的方法为:式中,表示第
a
个数据段中第
i
类字符的数量,表示第
a
个数据段中第
b
个第
i
类字符的索引位置,表示第
a
个数据段的字符的数量,表示第
a
‑1个数据段中第
i
类字符的数量,表示第
a
‑1个数据段中第
b
个第
i
类字符的索引位置,表示第
a
‑1个数据段的字符的数量,
m
表示历史对话数据分成的数据段的数量,表示第
i
类字符的周期性
。4.
如权利要求1所述的一种基于大数据的智能客服交互数据管理方法,其特征在于,所述将数据段转换为句子向量,根据句子向量计算标号相...

【专利技术属性】
技术研发人员:李边芳耿晓娜黄湘云邓栋王亮高晓磊
申请(专利权)人:青岛海尔乐信云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1