【技术实现步骤摘要】
一种基于大数据的智能客服交互数据管理方法
[0001]本专利技术涉及数据处理
,具体涉及一种基于大数据的智能客服交互数据管理方法
。
技术介绍
[0002]随着大数据时代的到来,越来越多的企业开始利用基于大数据的智能客服系统来优化业务和提升用户体验
。
大数据智能客服系统在运行过程中需要处理大量的交互数据,包括用户的提问
、
系统回答
、
对话记录等
。
这些信息的数据量庞大,对这些数据进行存储和处理时变得非常困难和消耗时间,因此需要对这些数据进行压缩,以减少存储空间和时间,减少存储成本
。
[0003]rANS
编码是一种兼顾压缩率以及压缩时间的压缩算法
。
传统的
rANS
编码通过统计数据中的各类字符的频率来构建固定的累计分布表,通过固定的累计分布表对数据进行压缩
。
而智能客服交互系统中不断的有实时的数据输入,固定的累计分布表对实时输入的数据流进行压缩不能达到良好的压缩效果
。
技术实现思路
[0004]为了解决压缩效果较差的技术问题,本专利技术提供一种基于大数据的智能客服交互数据管理方法,所采用的技术方案具体如下:本专利技术提出了一种基于大数据的智能客服交互数据管理方法,该方法包括以下步骤:获取历史对话数据;对历史对话数据进行分段获取多个数据段并标号,对于每个数据段获取其所有字符种类以及每个字符的索引位置,根据每一类字符在数据段内的索引 ...
【技术保护点】
【技术特征摘要】
1.
一种基于大数据的智能客服交互数据管理方法,其特征在于,该方法包括以下步骤:获取历史对话数据;对历史对话数据进行分段获取多个数据段并标号,对于每个数据段获取其所有字符种类以及每个字符的索引位置,根据每一类字符在数据段内的索引位置以及数据段的字符数量获取每一类字符的周期性;将数据段转换为句子向量,根据句子向量计算标号相邻的数据段的相似度;根据所有相邻的数据段的相似度获取周期性影响因子;根据每一类字符的周期性和周期性影响因子获取每一类字符的加权周期性;根据每一类字符的加权周期性获取每一类字符的频率,根据每一类字符的频率进行数据压缩
。2.
如权利要求1所述的一种基于大数据的智能客服交互数据管理方法,其特征在于,所述对历史对话数据进行分段获取多个数据段并标号的方法为:使用分词根据历史对话数据内的句号
、
感叹号
、
问号对历史对话数据划分,获取若干数据段,按照数据段的先后顺序从小到大标号
。3.
如权利要求1所述的一种基于大数据的智能客服交互数据管理方法,其特征在于,所述根据每一类字符在数据段内的索引位置以及数据段的字符数量获取每一类字符的周期性的方法为:式中,表示第
a
个数据段中第
i
类字符的数量,表示第
a
个数据段中第
b
个第
i
类字符的索引位置,表示第
a
个数据段的字符的数量,表示第
a
‑1个数据段中第
i
类字符的数量,表示第
a
‑1个数据段中第
b
个第
i
类字符的索引位置,表示第
a
‑1个数据段的字符的数量,
m
表示历史对话数据分成的数据段的数量,表示第
i
类字符的周期性
。4.
如权利要求1所述的一种基于大数据的智能客服交互数据管理方法,其特征在于,所述将数据段转换为句子向量,根据句子向量计算标号相...
【专利技术属性】
技术研发人员:李边芳,耿晓娜,黄湘云,邓栋,王亮,高晓磊,
申请(专利权)人:青岛海尔乐信云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。