System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于短信数据的智能化管理系统技术方案_技高网

用于短信数据的智能化管理系统技术方案

技术编号:40998088 阅读:3 留言:0更新日期:2024-04-18 21:37
本发明专利技术涉及数据压缩处理技术领域,具体涉及用于短信数据的智能化管理系统,所述系统包括:短信数据采集模块:采集短信管理平台的每条短信;短信的分类及压缩模块:基于排列熵算法在各时间延迟下分段后相邻短信段之间的距离获取每条短信的最优选字典长度;根据任意两条短信之间的长度、距离差异以及最优选字典长度构建任意两条短信之间的聚类距离,得到优化后的各聚类簇;根据各聚类簇内短信的最优选字典长度差异、相似性构建任意两个聚类簇合并的必要性;结合预设合并阈值以及合并的必要性完成聚类簇的合并,实现短信数据的压缩处理本发明专利技术提高了不同类型短信的压缩效率,降低压缩成本。

【技术实现步骤摘要】

本申请涉及数据压缩处理,具体涉及用于短信数据的智能化管理系统


技术介绍

1、短信平台目前是企业营销中不可或缺的工具,除了群发和营销的基本功能外,还有多渠道接入、多功能可定制、数据分析实时监测、智能筛选防骚扰、安全保密等实用性功能。短信管理平台通常需要处理大量的短信数据,这可能会对实时监测功能的性能和存储需求提出挑战。在实时监测过程中,如果数据量过大或存储容量不足,可能会导致系统响应变慢或无法正常运行。

2、传统的短信服务本身并不支持大数据量的传输,平台需要具备足够的计算和存储资源来支持实时监测功能的高效运行。同时,为了更好的存储用户信息,短信数据平台通常对用户短信进行压缩存储,但是现有的lz77算法存在人为定义的字典长度,使得在存储不同用户信息时,使用相同字典长度进行压缩可能达不到较好的数据压缩效果。


技术实现思路

1、为了解决上述技术问题,本专利技术的目的在于提供用于短信数据的智能化管理系统,所采用的技术方案具体如下:

2、本专利技术提出了用于短信数据的智能化管理系统,所述系统包括:

3、短信数据采集模块:采集短信管理平台的每条短信;

4、短信的分类及压缩模块:对于每条短信,基于排列熵算法在各时间延迟下分段后相邻短信段之间的距离以及排列熵构建各时间延迟下的短信内容重复度;基于短信内容重复度获取每条短信的最优字典长度;根据任意两条短信之间的长度、距离差异以及最优字典长度构建任意两条短信之间的相似度;根据任意两条短信之间的相似度、最优字典长度差异构建任意两条短信之间的聚类距离;将聚类距离作为聚类算法的度量距离对所有短信进行聚类,得到优化后的各聚类簇;

5、根据各聚类簇内短信的最优字典长度差异构建任意两个聚类簇之间的初始字典长度差异;根据各聚类簇内任意两条短信之间的相似度以及与其他聚类簇之间的初始字典长度差异构建各聚类簇内短信的重要程度;根据任意两个聚类簇内短信的重要程度以及初始字典长度差异构建任意两个聚类簇合并的必要性;结合预设合并阈值以及合并的必要性完成聚类簇的合并,实现短信数据的压缩处理。

6、优选的,所述基于排列熵算法在各时间延迟下分段后相邻短信段之间的距离以及排列熵构建各时间延迟下的短信内容重复度,包括:

7、采用排列熵算法获取短信内容在各时间延迟下的排列熵;

8、对于各时间延迟,分别以短信的前时间延迟数值个数据为起始点,分别以时间延迟大小对短信进行分段,将所有分段方式下的所有相邻短信段之间的编辑距离进行求和,将各时间延迟下的求和结果与排列熵的乘积的相反数,作为以自然常数为底数的指数函数的指数,将指数函数的计算结果作为各时间延迟下的短信内容重复度。

9、优选的,所述基于短信内容重复度获取每条短信的最优字典长度具体为:将每条短信中最大的短信内容重复度对应的时间延迟记为每条短信的最优字典长度。

10、优选的,所述根据任意两条短信之间的长度、距离差异以及最优字典长度构建任意两条短信之间的相似度,包括:

11、分别获取任意两条短信之间汉字字符数量的差值绝对值、除汉字字符的其他字符数量的差值绝对值;获取任意两条短信之间的最优字典长度的差值绝对值;将1与三个差值绝对值进行求和;

12、获取任意两条短信之间的文本编辑距离;将求和结果与所述文本编辑距离的乘积的相反数作为以自然常数为底数的指数函数的指数,将1与指数函数的计算结果的差值作为任意两条短信之间的相似度。

13、优选的,所述根据任意两条短信之间的相似度、最优字典长度差异构建任意两条短信之间的聚类距离,包括:

14、从采集的所有短信中随机选择一条短信作为锚定短信;任意两条短信之间的聚类距离表达式为:

15、

16、其中,d表示第a条短信与第b条短信之间的聚类距离,表示第a条短信与锚定短信之间的相似度和第b条短信与锚定短信之间的相似度的差值平方,表示第a条短信与第b条短信的最优字典长度的差值平方。

17、优选的,所述根据各聚类簇内短信的最优字典长度差异构建任意两个聚类簇之间的初始字典长度差异,包括:

18、计算各聚类簇内所有短信的最优字典长度均值,将任意两个聚类簇之间的所述最优字典长度均值的差值绝对值作为任意两个聚类簇之间的初始字典长度差异。

19、优选的,所述根据各聚类簇内任意两条短信之间的相似度以及与其他聚类簇之间的初始字典长度差异构建各聚类簇内短信的重要程度,包括:

20、根据各聚类簇内任意两条短信之间的相似度获取各聚类簇内短信之间的相似性;计算各聚类簇与剩余所有聚类簇之间的初始字典长度差异的差值绝对值的和值;获取各聚类簇内短信的数量;

21、将所述数量、所述和值与所述各聚类簇内短信之间的相似性的乘积的归一化值作为各聚类簇内短信的重要程度。

22、优选的,所述获取各聚类簇内短信之间的相似性,包括:

23、将各聚类簇内所有任意两个短信之间的相似度的和值,作为各聚类簇内短信之间的相似性。

24、优选的,所述根据任意两个聚类簇内短信的重要程度以及初始字典长度差异构建任意两个聚类簇合并的必要性,包括:

25、获取任意两个聚类簇之间的初始字典长度差异;计算任意两个聚类簇内短信的重要程度的乘积;将所述乘积与所述初始字典长度差异相乘结果的倒数的归一化值作为任意两个聚类簇合并的必要性。

26、优选的,所述结合预设合并阈值以及合并的必要性完成聚类簇的合并,实现短信数据的压缩处理,包括:

27、选择所有任意两个聚类簇之间合并的必要性中的最大值;当最大值大于预设合并阈值时,将最大值所在的两个聚类簇进行合并,作为一个新的聚类簇;直到所述最大值小于等于预设合并阈值时,则停止合并;

28、将合并后各聚类簇内所有短信的最优字典长度的均值记为合并后各聚类簇的最终字典长度,将具有相同最终字典长度的聚类簇进行拼接,基于拼接结果完成短信数据的压缩。

29、本专利技术至少具有如下有益效果:

30、本专利技术通过对所得用户短信数据进行分析,获取用户短信内容重复度,通过分析在不同时间延迟下的分段方式下相邻段落之间的距离,挖掘短信内容的复杂度,基于复杂度初步确定短信压缩时的最优字典长度,便于后续对压缩时最优字典长度的进一步修正;并且进一步根据所得的最优字典大小、短信长度以及距离等参数,计算任意两条短信之间的相似度,结合相似度以及最优字典长度优化传统聚类算法中的聚类距离,从而得到优化后的聚类效果,进而对用户短信进行初步分类,减少存储空间的使用,增加平台存储用户信息的效率。

31、本专利技术通过对不同聚类簇内的短信内容进行分析,基于聚类簇内短信数量、相似度以及最优字典长度,挖掘聚类簇内短信的重要程度,针对簇内重要性以及簇间差异性两个角度进行全方位的分析,计算不同聚类簇内短信的合并必要性,从而有利于实现聚类簇合并的精准性,做好数据压缩前的短信分类准备,降低压缩成本本文档来自技高网...

【技术保护点】

1.用于短信数据的智能化管理系统,其特征在于,所述系统包括:

2.如权利要求1所述的用于短信数据的智能化管理系统,其特征在于,所述基于排列熵算法在各时间延迟下分段后相邻短信段之间的距离以及排列熵构建各时间延迟下的短信内容重复度,包括:

3.如权利要求1所述的用于短信数据的智能化管理系统,其特征在于,所述基于短信内容重复度获取每条短信的最优字典长度具体为:将每条短信中最大的短信内容重复度对应的时间延迟记为每条短信的最优字典长度。

4.如权利要求1所述的用于短信数据的智能化管理系统,其特征在于,所述根据任意两条短信之间的长度、距离差异以及最优字典长度构建任意两条短信之间的相似度,包括:

5.如权利要求1所述的用于短信数据的智能化管理系统,其特征在于,所述根据任意两条短信之间的相似度、最优字典长度差异构建任意两条短信之间的聚类距离,包括:

6.如权利要求1所述的用于短信数据的智能化管理系统,其特征在于,所述根据各聚类簇内短信的最优字典长度差异构建任意两个聚类簇之间的初始字典长度差异,包括:

7.如权利要求1所述的用于短信数据的智能化管理系统,其特征在于,所述根据各聚类簇内任意两条短信之间的相似度以及与其他聚类簇之间的初始字典长度差异构建各聚类簇内短信的重要程度,包括:

8.如权利要求7所述的用于短信数据的智能化管理系统,其特征在于,所述获取各聚类簇内短信之间的相似性,包括:

9.如权利要求1所述的用于短信数据的智能化管理系统,其特征在于,所述根据任意两个聚类簇内短信的重要程度以及初始字典长度差异构建任意两个聚类簇合并的必要性,包括:

10.如权利要求1所述的用于短信数据的智能化管理系统,其特征在于,所述结合预设合并阈值以及合并的必要性完成聚类簇的合并,实现短信数据的压缩处理,包括:

...

【技术特征摘要】

1.用于短信数据的智能化管理系统,其特征在于,所述系统包括:

2.如权利要求1所述的用于短信数据的智能化管理系统,其特征在于,所述基于排列熵算法在各时间延迟下分段后相邻短信段之间的距离以及排列熵构建各时间延迟下的短信内容重复度,包括:

3.如权利要求1所述的用于短信数据的智能化管理系统,其特征在于,所述基于短信内容重复度获取每条短信的最优字典长度具体为:将每条短信中最大的短信内容重复度对应的时间延迟记为每条短信的最优字典长度。

4.如权利要求1所述的用于短信数据的智能化管理系统,其特征在于,所述根据任意两条短信之间的长度、距离差异以及最优字典长度构建任意两条短信之间的相似度,包括:

5.如权利要求1所述的用于短信数据的智能化管理系统,其特征在于,所述根据任意两条短信之间的相似度、最优字典长度差异构建任意两条短信之间的聚类距离,包括:

...

【专利技术属性】
技术研发人员:周颖蓝丹丹黄瑞先曾永明
申请(专利权)人:深圳市诚立业科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1