短信分类方法、装置、系统和存储介质制造方法及图纸

技术编号:25002769 阅读:63 留言:0更新日期:2020-07-24 18:03
本发明专利技术公开了一种短信分类方法、装置、系统和存储介质。该方法包括:对行业短信的训练文本进行分词处理,利用分词处理得到的单词的频率和单词之间组成的词组的频率,确定训练文本的分词结果;构建分词数组,确定分词结果的特征向量;通过分词结果的特征向量,训练短信分类模型,并在训练过程中使用权值衰减项的代价函数,得到训练后的短信分类模型的模型参数;利用模型参数构建分词向量权重矩阵,基于分词向量权重矩阵,确定待分类短信文本所属的短信分类,分词向量权重矩阵中的矩阵元素用于表示分词结果的特征向量的权重值。根据本发明专利技术实施例提供的方法,可以提高分词的准确性、模型分类的准确性和性能。

【技术实现步骤摘要】
短信分类方法、装置、系统和存储介质
本专利技术涉及计算机
,尤其涉及一种短信分类方法、装置、系统和存储介质。
技术介绍
面对行业端口发送垃圾短信的问题,政府部门通过相关管理规定,明确要求短信息服务提供者、短信息内容提供者未经用户同意或请求,不得向其发送商业性短信息。并规定,短信息服务提供者、短信息内容提供者用于发送业务管理和服务类短信息的端口,不得用于发送商业性短信息。而相关法律也明确规定:发布广告的媒体,必须审查广告发布者的资质和内容合法性。为了更好地规范行业端口,需要对行业端口的发送内容进行管控。通常,可以对行业端口发送的短信内容进行智能语义分析,将行业端口的发送内容进行分类。具体地,可以对短信内容的训练样本信息和测试样本信息进行管理(已经分类的行业短信),训练样本用于后台应用系统依据模型训练样本库,结合相应机器学习算法训练分类模型;测试样本用于评估分类模型的准备度。后台应用系统利用分类模型对行业短信内容进行分类。但是在利用分类模型对行业短信进行分类判定时,需要先进行分词,由于词库有限,以及目前的分词算法例如正向最大匹本文档来自技高网...

【技术保护点】
1.一种短信分类方法,包括:/n对行业短信的训练文本进行分词处理,利用所述分词处理得到的单词的频率和所述单词之间组成的词组的频率,确定所述训练文本的分词结果;/n根据所述训练文本的分词结果,构建分词数组,将所述训练文本的分词结果中包含的单词与所述分词数组中的单词进行匹配,根据匹配结果确定所述分词结果的特征向量;/n通过所述分词结果的特征向量,训练短信分类模型,并在训练过程中使用权值衰减项的代价函数,得到训练后的短信分类模型的模型参数;/n利用所述模型参数构建分词向量权重矩阵,基于所述分词向量权重矩阵,确定待分类短信文本所属的短信分类,所述分词向量权重矩阵中的矩阵元素用于表示所述分词结果的特征向...

【技术特征摘要】
1.一种短信分类方法,包括:
对行业短信的训练文本进行分词处理,利用所述分词处理得到的单词的频率和所述单词之间组成的词组的频率,确定所述训练文本的分词结果;
根据所述训练文本的分词结果,构建分词数组,将所述训练文本的分词结果中包含的单词与所述分词数组中的单词进行匹配,根据匹配结果确定所述分词结果的特征向量;
通过所述分词结果的特征向量,训练短信分类模型,并在训练过程中使用权值衰减项的代价函数,得到训练后的短信分类模型的模型参数;
利用所述模型参数构建分词向量权重矩阵,基于所述分词向量权重矩阵,确定待分类短信文本所属的短信分类,所述分词向量权重矩阵中的矩阵元素用于表示所述分词结果的特征向量的权重值。


2.根据权利要求1所述的短信分类方法,其中,所述对行业短信的训练文本进行分词处理,利用所述分词处理得到的单词的频率和所述单词之间组成的词组的频率,确定所述训练文本的分词结果,包括:
确定词典中词的权重值,将所述训练文本与词典进行匹配,得到不同匹配方式下的匹配结果,根据所述匹配结果重新确定所述词典中词的权重值;
确定词组关系表中词组的权重值,根据所述词组关系表,确定所述匹配结果中存在的词组,根据所述匹配结果中的词组,重新确定所述词组关系表中词组的权重值;
基于重新确定的不同匹配方式下匹配结果中词的权重值,以及重新确定的不同匹配方式下匹配结果中词组的权重值,计算所述不同匹配方式下的匹配结果的权重值;
选择计算得到的权重值最大的匹配方式下的匹配结果,作为所述训练文本的分词结果。


3.根据权利要求2所述的短信分类方法,其中,所述确定词典中词的权重值,将所述训练文本与词典进行匹配,得到不同匹配方式下的匹配结果,根据所述匹配结果重新确定所述词典中词的权重值,包括:
获取词典中词的权重值,首次使用所述词典时,为所述词典中的每个词设置权重值;
按照所述训练文本的指定顺序,以所述训练文本中的当前字符为开始字符,以所述当前字符之后的每个字符依次为结束字符,依次确定由所述开始字符到每个结束字符形成的字符串是否与所述词典中的词匹配;
如果与所述词典中的词匹配,增加所述匹配到的词的权重值,按照所述训练文本的指定顺序,以所述当前字符的下一字符为新的开始字符,直到所述下一字符为空字符,得到所述训练文本与所述词典不同匹配方式下的匹配结果。


4.根据权利要求2所述的短信分类方法,其中,所述确定词组关系表中词组的权重值,根据所述词组关系表,确定所述匹配结果中存在的词组,根据所述匹配结果中的词组,重新确定所述词组关系表中词组的权重值,包括:
获取词组关系表中词组的权重值,首次使用所述词组关系表时,为所述词组关系表中的每个词组设置权重值;
根据所述词组关系表,确定所述不同分配方式下的匹配结果的词之间是否存在词组关系;
如果所述不同分配方式下的匹配结果的词之间存在词组关系,获取所述匹配结果中的词组,增加所述词组关系表中与所述匹配结果中的词组相同的词组的权重值。


5.根据权利要求1所述的短信分类方法,其中,所述根据所述训练文本的分词结果,构建分词数组,将所述训练文本的分词结果中包含的单词与所述分词数组中的单词进行匹配,根据匹配结果确定所述分词结果的特征向量,包括:
通过每个训练文本的分词结果,得到全部分词结果,对所述全部分词结果进行去重处理,得到去重后的分词结果;
根据所述去重后的分词结果中的单词数量,确定特征向量维度,构建分词数组,将所述去重后的分词结果中的单词保存在所述分词数组中,所述分词数组的维度等于所述特征向量维度;
针对每个训练文本的分词结果,将所述训练文本的分词结果中的单词与所述分词数组中的单词进行匹配,根据匹配到的单词在所述分词数组中的位置,确定所述训练文本的特征向量的取值,得到所述分词结果的特征向量。


6.根据权利要求1所述的短信分类方法,其中,所述通过所述分词结果的特征向量,训练短信分类模型,并在训练过程中使用权值衰减项的代价函数,得到训练后的短信分类模型的模型参数,包括:
使用softmax回归模型构建短信分类模型,所述短信分类模型用于确定所述分词结果针对每一个预设文本类型的概率值;
确定所述短信分类模型的代价函数,在所述代价函数中添加权重衰减项,所述权重衰减项用于使所述代价函数收敛;
通过梯度下降法,通过所述分词结果的特征向量和...

【专利技术属性】
技术研发人员:王浩
申请(专利权)人:中国移动通信集团辽宁有限公司中国移动通信集团有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1