多语言短信文本的聚类系统、方法、电子设备及存储介质技术方案

技术编号:36685616 阅读:18 留言:0更新日期:2023-02-27 19:48
本发明专利技术实施例公开了一种多语言短信文本的聚类系统、方法、电子设备及存储介质,多语言短信文本的聚类方法包括:对多语言短信文本进行标准化处理;对所述多语言短信文本的发送方名称进行归一化处理,并基于归一化后的发送方名称对多语言短信文本进行分组;将分组后的多语言短信文本转换为单词词组;通过编辑距离算法对所述单词词组进行聚类得到聚类结果。该多语言短信文本的聚类方法改善了现有技术中无法准确提取海外短信内容的有效特征的问题。法准确提取海外短信内容的有效特征的问题。法准确提取海外短信内容的有效特征的问题。

【技术实现步骤摘要】
多语言短信文本的聚类系统、方法、电子设备及存储介质


[0001]本专利技术涉及计算机
,具体涉及一种多语言短信文本的聚类系统、方法、电子设备及存储介质。

技术介绍

[0002]随着智能手机的普及,智能时代已经来临,通知类短信,营销类短信,营销广告等会充满在手机短信中,合理的短信聚类,可以更好的帮助用户管理,及信息挖掘,减少骚扰短信带给用户的苦恼。
[0003]传统的聚类算法先采用规则的方法然后通过K均值算法对文本进行聚类,但如果短信是字数少且上下文信息不完整,语言复杂多变的海外短信内容,传统的聚类方法很难准确的抽取有效的特征,聚类效果不好。

技术实现思路

[0004]本专利技术实施例的目的在于提供一种多语言短信文本的聚类系统、方法、电子设备及存储介质,用以解决现有技术中无法准确提取海外短信内容的有效特征的问题。
[0005]为实现上述目的,本专利技术实施例提供一种多语言短信文本的聚类方法,所述方法具体包括:
[0006]对多语言短信文本进行标准化处理;
[0007]对所述多语言短信文本的发送方名称进行归一化处理,并基于归一化后的发送方名称对多语言短信文本进行分组;
[0008]将分组后的多语言短信文本转换为单词词组;
[0009]通过编辑距离算法对所述单词词组进行聚类得到聚类结果。
[0010]在上述技术方案的基础上,本专利技术还可以做如下改进:
[0011]进一步地,所述对多语言短信文本进行标准化处理,包括;
[0012]通过正则表达式将多语言短信文本中的文本内容替换为固定值,其中,所述文本内容包括电话、邮件、网址、时间、日期和数字。
[0013]进一步地,所述通过编辑距离算法对所述单词词组进行聚类得到聚类结果,包括;
[0014]构造行数为m+1,列数为n+1的矩阵;
[0015]初始化所述矩阵,第一行为0到n,第一列为0到m;
[0016]检查每个从1到n的s[i]字符和每个从1到m的s[i]字符;
[0017]将串s和串t的每一个字符进行两两比较,如果相等,则让cost为0,如果不等,则让cost为1;
[0018]计算最短编辑距离。
[0019]进一步地,所述通过编辑距离算法对所述单词词组进行聚类得到聚类结果,包括;
[0020]通过正则表达式校验所述聚类结果。
[0021]一种多语言短信文本的聚类系统,包括:
[0022]标准化处理模块,用于对多语言短信文本进行标准化处理;
[0023]归一化处理模块,用于对所述多语言短信文本的发送方名称进行归一化处理,并基于归一化后的发送方名称对多语言短信文本进行分组;
[0024]转换模块,用于将分组后的多语言短信文本转换为单词词组;
[0025]聚类模块,用于通过编辑距离算法对所述单词词组进行聚类得到聚类结果。
[0026]进一步地,所述标准化处理模块还用于:
[0027]通过正则表达式将多语言短信文本中的文本内容替换为固定值,其中,所述文本内容包括电话、邮件、网址、时间、日期和数字。
[0028]进一步地,所述聚类模块还用于:
[0029]构造行数为m+1,列数为n+1的矩阵;
[0030]初始化所述矩阵,第一行为0到n,第一列为0到m;
[0031]检查每个从1到n的s[i]字符和每个从1到m的s[i]字符;
[0032]将串s和串t的每一个字符进行两两比较,如果相等,则让cost为0,如果不等,则让cost为1;
[0033]计算最短编辑距离。
[0034]进一步地,所述聚类系统还包括:
[0035]校验模块,用于通过正则表达式校验所述聚类结果。
[0036]一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如所述方法的步骤。
[0037]一种非暂态计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述方法的步骤。
[0038]本专利技术实施例具有如下优点:
[0039]本专利技术中的多语言短信文本的聚类方法,对多语言短信文本进行标准化处理;对所述多语言短信文本的发送方名称进行归一化处理,并基于归一化后的发送方名称对多语言短信文本进行分组;将分组后的多语言短信文本转换为单词词组;通过编辑距离算法对所述单词词组进行聚类得到聚类结果;解决了现有技术中无法准确提取海外短信内容的有效特征的问题。
附图说明
[0040]为了更清楚地说明本专利技术的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
[0041]本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本专利技术可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本专利技术所能产生的功效及所能达成的目的下,均应仍落在本专利技术所揭示的
技术实现思路
得能涵盖的范围内。
[0042]图1为本专利技术多语言短信文本的聚类方法的流程图;
[0043]图2为本专利技术多语言短信文本的聚类方法的流程图;
[0044]图3为本专利技术多语言短信文本的聚类系统的框图;
[0045]图4为本专利技术多语言短信文本的聚类系统的框图;
[0046]图5为本专利技术提供的电子设备实体结构示意图。
[0047]其中附图标记为:
[0048]标准化处理模块10,归一化处理模块20,转换模块30,聚类模块40,校验模块50,电子设备60,处理器601,存储器602,总线603。
具体实施方式
[0049]以下由特定的具体实施例说明本专利技术的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本专利技术的其他优点及功效,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0050]实施例
[0051]图1

2为本专利技术多语言短信文本的聚类方法实施例流程图,如图1

2所示,本专利技术实施例提供的一种多语言短信文本的聚类方法包括以下步骤:
[0052]S101,对多语言短信文本进行标准化处理;
[0053]具体的,通过正则表达式将多语言短信文本中的文本内容替换为固定值,其中,所述文本内容包括电话、邮件、网址、时间、日期和数字。
[0054]多语言短信文本指的是多种语言组成的短信。
[0055]多语言短信文本的文本内容中,会包含较多的数字,邮件,网址,日期,时间等内容,这本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多语言短信文本的聚类方法,其特征在于,所述方法具体包括:对多语言短信文本进行标准化处理;对所述多语言短信文本的发送方名称进行归一化处理,并基于归一化后的发送方名称对多语言短信文本进行分组;将分组后的多语言短信文本转换为单词词组;通过编辑距离算法对所述单词词组进行聚类得到聚类结果。2.根据权利要求1所述的多语言短信文本的聚类方法,其特征在于,所述对多语言短信文本进行标准化处理,包括;通过正则表达式将多语言短信文本中的文本内容替换为固定值,其中,所述文本内容包括电话、邮件、网址、时间、日期和数字。3.根据权利要求1所述的多语言短信文本的聚类方法,其特征在于,所述通过编辑距离算法对所述单词词组进行聚类得到聚类结果,包括;构造行数为m+1,列数为n+1的矩阵;初始化所述矩阵,第一行为0到n,第一列为0到m;检查每个从1到n的s[i]字符和每个从1到m的s[i]字符;将串s和串t的每一个字符进行两两比较,如果相等,则让cost为0,如果不等,则让cost为1;计算最短编辑距离。4.根据权利要求1所述的多语言短信文本的聚类方法,其特征在于,所述通过编辑距离算法对所述单词词组进行聚类得到聚类结果,包括;通过正则表达式校验所述聚类结果。5.一种多语言短信文本的聚类系统,其特征在于,包括:标准化处理模块,用于对多语言短信文本进行标准化处理;归一化处理模块,用于对所述多语言短信文本的发送方名称...

【专利技术属性】
技术研发人员:吴德新费洋张吉彬
申请(专利权)人:上海创蓝云智信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1