一种长短信精简方法及系统技术方案

技术编号:20917028 阅读:35 留言:0更新日期:2019-04-20 09:47
本申请所提供的一种长短信精简方法,包括:利用分词算法对长短信进行分词处理得到对应的特征词表及特征词空间;利用特征词表和特征词空间得到对应的特征向量;将特征向量代入BP神经网络进行训练,得到输出向量;根据输出向量,利用特征词库中的精简等价短词对特征词表中的目标特征词进行替换,形成目标特征词表;利用分词算法对应的逆算法对目标特征词表进行处理,得到目标长短信。可见,该方法用特征词库中的精简等价短词替换了长短信中的特征词,对长短信进行了精简,减少了拆成的普通短信的条数,进而节约成本。本申请还提供一种长短信精简系统、设备及计算机可读存储介质,均具有上述有益效果。

A Method and System for Short Message Reduction

This application provides a method of long short message simplification, including: using word segmentation algorithm to segment long messages to get the corresponding feature word list and feature word space; using the feature word table and feature word space to get the corresponding feature vector; training the feature vector into BP neural network to get the output vector; using the output vector to simplify the feature word library, and so on. Value short words replace the target feature words in the feature vocabulary to form the target feature vocabulary. The inverse algorithm corresponding to the word segmentation algorithm is used to process the target feature vocabulary and get the target long message. It can be seen that the method replaces the feature words in the long short message with the shortened equivalent short words in the feature lexicon, simplifies the long short message, reduces the number of splitted ordinary short messages, and consequently saves the cost. The application also provides a long short message streamlining system, equipment and computer readable storage medium, all of which have the above beneficial effects.

【技术实现步骤摘要】
一种长短信精简方法及系统
本申请涉及IT信息通讯
,特别涉及一种长短信精简方法、系统、设备及计算机可读存储介质。
技术介绍
短信平台负责发送日常办公短信和业务服务短信,如停电通知,扣电费通知,台风预警等。每日的短信发送量较大,随着业务的发展,短信发送数量也在逐渐上升。但是,标准短信协议规定每条短信发送的最大长度是140个字节,即最多允许包含70个汉字。而在实际使用中,发送的短信一般都含有数百个字节,有的短信长度甚至长达数千甚至上万个字节。因此,在进行短信发送时,需要将长短信先拆成普通短信进行发送。用户手机在收到短信后,按长短信组装规则进行短信合并,最终获得一条完整的长短信。短信服务由运营商提供的一种收费服务,是按条进行计费的,企业发送短信一般按5分/条的费用进行结算,企业发送的短信量越多,需要支付的短信结算费用越高。因此,如何对长短信进行精简,减少拆成的普通短信的条数,进而节约成本是本领域技术人员需要解决的技术问题。
技术实现思路
本申请的目的是提供一种长短信精简方法、系统、设备及计算机可读存储介质,能够对长短信进行精简,减少拆成的普通短信的条数,进而节约成本。为解决上述技术问题,本申请提供一种长短信精简方法,包括:利用分词算法对长短信进行分词处理得到对应的特征词表及特征词空间;利用所述特征词表和所述特征词空间得到对应的特征向量;将所述特征向量代入BP神经网络进行训练,得到输出向量;根据所述输出向量,利用特征词库中的精简等价短词对所述特征词表中的目标特征词进行替换,形成目标特征词表;利用所述分词算法对应的逆算法对所述目标特征词表进行处理,得到目标长短信。优选地,所述利用分词算法对长短信进行分词处理得到对应的特征词表及特征词空间,包括:利用所述分词算法对所述长短信进行分词处理得到各个特征词及对应的特征词空间、各个停用词及对应的停用词空间;根据停用词库过滤各个所述停用词及对应的停用词空间,得到所述特征词表及所述特征词空间。优选地,将所述特征向量代入BP神经网络进行训练之后,还包括:利用所述BP神经网络将所述特征向量对应的特征词表保存至所述特征词库中。优选地,所述利用特征词库中的精简等价短词对所述特征词表中的目标特征词进行替换,包括:在所述特征词库中建立所述精简等价短词与所述目标特征词之间的映射关系;利用所述精简等价短词对所述目标特征词进行替换。本申请还提供一种长短信精简系统,包括:分词处理模块,用于利用分词算法对长短信进行分词处理得到对应的特征词表及特征词空间;特征向量获取模块,用于利用所述特征词表和所述特征词空间得到对应的特征向量;BP神经网络训练模块,用于将所述特征向量代入BP神经网络进行训练,得到输出向量;目标特征词替换模块,用于根据所述输出向量,利用特征词库中的精简等价短词对所述特征词表中的目标特征词进行替换,形成目标特征词表;目标特征词表处理模块,用于利用所述分词算法对应的逆算法对所述目标特征词表进行处理,得到目标长短信。优选地,所述分词处理模块包括:分词处理单元,用于利用所述分词算法对所述长短信进行分词处理得到各个特征词及对应的特征词空间、各个停用词及对应的停用词空间;过滤单元,用于根据停用词库过滤各个所述停用词及对应的停用词空间,得到所述特征词表及所述特征词空间。优选地,该长短信精简系统还包括:存储模块,用于利用所述BP神经网络将所述特征向量对应的特征词表保存至所述特征词库中。优选地,所述目标特征词替换模块包括:映射关系建立单元,用于在所述特征词库中建立所述精简等价短词与所述目标特征词之间的映射关系;目标特征词替换单元,用于利用所述精简等价短词对所述目标特征词进行替换。本申请还提供一种设备,包括:存储器和处理器;其中,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序时实现上述所述的长短信精简方法的步骤。本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的长短信精简方法的步骤。本申请所提供的一种长短信精简方法,包括:利用分词算法对长短信进行分词处理得到对应的特征词表及特征词空间;利用所述特征词表和所述特征词空间得到对应的特征向量;将所述特征向量代入BP神经网络进行训练,得到输出向量;根据所述输出向量,利用特征词库中的精简等价短词对所述特征词表中的目标特征词进行替换,形成目标特征词表;利用所述分词算法对应的逆算法对所述目标特征词表进行处理,得到目标长短信。该方法在利用分词算法对长短信进行分词处理得到对应的特征词表及特征词空间后,利用所述特征词表和所述特征词空间得到对应的特征向量,然后将所述特征向量代入BP神经网络进行训练得到输出向量,再根据所述输出向量,利用特征词库中的精简等价短词对所述特征词表中的目标特征词进行替换,形成目标特征词表,最后利用所述分词算法对应的逆算法对所述目标特征词表进行处理,得到目标长短信。可见,该方法用特征词库中的精简等价短词替换了长短信中的特征词,对长短信进行了精简,减少了拆成的普通短信的条数,进而节约成本。本申请还提供一种长短信精简系统、设备及计算机可读存储介质,均具有上述有益效果,在此不再赘述。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例所提供的一种长短信精简方法的流程图;图2为本申请实施例所提供的BP神经网络的拓扑结构示意图;图3为本申请实施例所提供的BP神经网络学习误差曲线;图4为本申请实施例所提供的一种长短信精简系统的结构框图。具体实施方式本申请的核心是提供一种长短信精简方法,能够对长短信进行精简,减少拆成的普通短信的条数,进而节约成本。本申请的另一核心是提供一种长短信精简系统、设备及计算机可读存储介质。为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。随着业务的发展,短信发送数量也在逐渐上升,但是标准短信协议规定每条短信发送的最大长度是140个字节,即最多允许包含70个汉字。因此,在进行短信发送时,需要将长短信先拆成多条普通短信进行发送。而且,运营商是按条进行计费的,企业发送短信一般按5分/条的费用进行结算,企业发送的短信量越多,需要支付的短信结算费用越高。本申请实施例能够对长短信进行精简,减少拆成的普通短信的条数,进而节约成本。具体请参考图1,图1为本申请实施例所提供的一种长短信精简方法的流程图,该长短信精简方法具体包括:S101、利用分词算法对长短信进行分词处理得到对应的特征词表及特征词空间;本申请实施例先是利用分词算法对长短信进行分词处理得到对应的特征词表及特征词空间,分词算法是神经语音程序学(NLP)最成熟的部分,对于工业界绝大部分常见问题都可使用分词算法解决,最多只需要优化词本文档来自技高网...

【技术保护点】
1.一种长短信精简方法,其特征在于,包括:利用分词算法对长短信进行分词处理得到对应的特征词表及特征词空间;利用所述特征词表和所述特征词空间得到对应的特征向量;将所述特征向量代入BP神经网络进行训练,得到输出向量;根据所述输出向量,利用特征词库中的精简等价短词对所述特征词表中的目标特征词进行替换,形成目标特征词表;利用所述分词算法对应的逆算法对所述目标特征词表进行处理,得到目标长短信。

【技术特征摘要】
1.一种长短信精简方法,其特征在于,包括:利用分词算法对长短信进行分词处理得到对应的特征词表及特征词空间;利用所述特征词表和所述特征词空间得到对应的特征向量;将所述特征向量代入BP神经网络进行训练,得到输出向量;根据所述输出向量,利用特征词库中的精简等价短词对所述特征词表中的目标特征词进行替换,形成目标特征词表;利用所述分词算法对应的逆算法对所述目标特征词表进行处理,得到目标长短信。2.根据权利要求1所述的长短信精简方法,其特征在于,所述利用分词算法对长短信进行分词处理得到对应的特征词表及特征词空间,包括:利用所述分词算法对所述长短信进行分词处理得到各个特征词及对应的特征词空间、各个停用词及对应的停用词空间;根据停用词库过滤各个所述停用词及对应的停用词空间,得到所述特征词表及所述特征词空间。3.根据权利要求1所述的长短信精简方法,其特征在于,将所述特征向量代入BP神经网络进行训练之后,还包括:利用所述BP神经网络将所述特征向量对应的特征词表保存至所述特征词库中。4.根据权利要求1所述的长短信精简方法,其特征在于,所述利用特征词库中的精简等价短词对所述特征词表中的目标特征词进行替换,包括:在所述特征词库中建立所述精简等价短词与所述目标特征词之间的映射关系;利用所述精简等价短词对所述目标特征词进行替换。5.一种长短信精简系统,其特征在于,包括:分词处理模块,用于利用分词算法对长短信进行分词处理得到对应的特征词表及特征词空间;特征向量获取模块,用于利用所述特征词表和所述特征词空间得到对应的特征向量;B...

【专利技术属性】
技术研发人员:黄晓波黄巨涛林强唐亮亮陈守明肖建毅臧笑宇王飞鸣吴丽琼
申请(专利权)人:广东电网有限责任公司广东电网有限责任公司信息中心
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1