信息处理的方法、装置及存储介质制造方法及图纸

技术编号:36391920 阅读:13 留言:0更新日期:2023-01-18 09:56
本申请提供一种信息处理的方法、装置及存储介质,该方法包括:获取信息发送用户发出的目标信息;利用目标朴素贝叶斯算法模型对目标信息进行识别,确定目标信息的分类结果;以及根据目标信息的分类结果对目标信息进行处理。本申请提供的信息处理的方法、装置及存储介质通过对识别出的目标信息的类别采取相应的处理措施。避免了用户输入或发出的信息一旦被非法人员植入非正常信息,该目标信息便一律被拦截,而导致为用户带来不便的问题。而导致为用户带来不便的问题。而导致为用户带来不便的问题。

【技术实现步骤摘要】
信息处理的方法、装置及存储介质


[0001]本申请涉及信息安全
,具体而言,涉及信息处理的方法、装置及存储介质。

技术介绍

[0002]迄今为止,我国将近有73%的用户使用网络,对网络的需求也越来越大,网络信息安全和垃圾信息也成为如今的焦点。当人们在网上聊天、填写信息、打开未知网站等动作时都可能会产生不良信息(广告、诈骗、传销以及影响社会稳定的谣言等)或造成安全隐患。
[0003]现目前采用的方案,主要是将信息识别后,从而拦截非法信息,通过正常信息。假设A发送一条正常信息给B,但中途被非法人员植入垃圾信息。那么B将接收不到A的消息。
[0004]这样的处理方式,也对用户带来了极大的不便。

技术实现思路

[0005]本申请实施例的目的在于一种信息处理的方法、装置、电子设备及存储介质,通过对识别出的目标信息的类别采取相应的处理措施。以避免用户输入或发出的信息一旦被非法人员植入非正常信息,该目标信息便一律被拦截,而导致为用户带来不便的问题。
[0006]第一方面,本申请实施例提供了信息的处理方法,包括:获取信息发送用户发出的目标信息;利用目标朴素贝叶斯算法模型对所述目标信息进行识别,确定所述目标信息的分类结果;以及根据所述目标信息的分类结果对所述目标信息进行处理。
[0007]上述信息处理的方法,通过目标朴素贝叶斯算法模型对用户发送的信息进行识别并分类,再根据分类结果,对目标信息进行相对应的处理,解决了现有技术中,一旦发现目标信息中包含有不良信息便一律做拦截处理给用户带来不便的问题,实现了只要用户本身所编辑的目标信息是正常信息,无论非法人员是否植入不正常信息,该目标信息都能在被去除不正常信息后发送出去,改善了用户上网聊天、在网页上留言、交流等的体验。
[0008]结合第一方面,可选地,其中,所述目标朴素贝叶斯算法模型通过以下方式获得:
[0009]获取包含所述目标信息的第一训练信息集;利用分词库提取所述目标信息中的词汇并分类,获得所述目标信息的分类列表;以及将所述分类列表作为特征值,并通过输入所述特征值和第一训练信息集对预先构建的初始朴素贝叶斯算法模型进行训练,获得所述目标朴素贝叶斯算法模型。
[0010]上述信息处理的方法,通过分词库将包含目标信息的第一训练集进行分词处理,在将经过分词处理后获得词汇进行分类得到该目标信息的分类列表,并将该分类列表作为初始朴素贝叶斯算法模型训练的特征值。经过训练后获得的目标朴素贝叶斯算法模型能够更加准确地对目标信息的分类进行识别。
[0011]结合第一方面,可选地,其中,所述分词库包括jieba库。
[0012]所述利用分词库提取所述目标信息中的词汇并分类,获得所述目标信息的分类列表,包括:根据所述目标信息的语法结构,提取所述目标信息中的第一类词汇,对所述第一
类词汇进行分类,并将所述第一类词汇进行分类的结果作为分类列表;或将所述目标信息中所有至少两个相邻的文字组合成文字组,从所述文字组中提取出与词库中的词汇对应的第二类词汇,对所述第二类词汇进行分类,并将所述第二类词汇进行分类的结果作为分类列表;或根据所述目标信息的语法结构,提取所述目标信息中的第一类词汇,对所述第一类词汇进行分类,并将所述第一类词汇进行分类的结果依照预设条件进行切分,将切分后的结果作为分类列表。
[0013]上述信息处理的方法,由于jieba库是目前相对最好的python分词组件,安装便捷,只需要使用pip安装且不需要另外下载其它的数据包。加之其功能强大,得出的分词结果更能满足用户的需求。因此,本申请实施例采用jieba库作为分词环节的分词工具,方案的可行性高,基于jieba库做对目标信息做出的词汇提取和分类,提高了对目标信息进行识别的准确性。
[0014]结合第一方面,可选地,其中,所述分类列表包括违禁词汇列表、垃圾词汇列表以及正常词汇列表。
[0015]上述信息处理的方法,将目标信息中提取的词汇分为违禁词汇列表、垃圾词汇列表以及正常词汇列表三类,便于对目标信息按照违禁词汇列表、垃圾词汇列表以及正常词汇列表三类进行分类,进而便于针对目标信息的不同分类采取相应的处理方式。避免了凡是目标信息中包含非正常信息便一律做拦截处理,进而导致用户因导致用户不能正常发送或接收正常信息的问题,从而改善了用户的体验。
[0016]结合第一方面,可选地,其中,所述目标信息的分类结果包括违禁信息。
[0017]所述根据所述目标信息的分类结果对所述目标信息进行处理,包括:若判断所述目标信息的分类结果中存在违禁信息,则对包含所述违禁信息的所述目标信息进行拦截。
[0018]上述信息处理的方法,通过判断识别出目标信息属于违禁信息的情况下,为了阻止该违禁信息,才对该目标信息做拦截处理。避免了凡是对包含非正常信息的目标信息一律做拦截处理为用户带来的不便。
[0019]结合第一方面,可选地,其中,所述根据所述目标信息的分类结果对所述目标信息进行处理,还包括:若所述目标信息的分类结果中存在违禁信息,则向信息发送用户发送警告信息。
[0020]上述信息处理的方法,通过对发送或输入违禁信息的用户进行警告,一定程度上控制了对不良信息的宣扬,进而改善了网络环境。
[0021]结合第一方面,可选地,其中,所述目标信息的分类结果包括垃圾信息。
[0022]所述根据所述目标信息的分类结果对所述目标信息进行处理,包括:若所述目标信息的分类结果中存在垃圾信息,则判断是否获取到由信息接收用户发出的处理所述垃圾信息的处理指令;若判定获取到由信息接收用户发出的处理所述垃圾信息的处理指令,则剔除所述目标信息中的垃圾信息,获得所述目标信息中的正常信息;以及对所述正常信息进行重组,获得信息发送用户输入的原始信息。
[0023]上述信息处理的方法,通过在判断出目标信息属于垃圾信息的类别的情况下,表明目标信息中所包含的原始信息是用户需要发送或接收的。因此,通过将其中由非法人员所植入的广告等垃圾剔除,并对经过剔除操作所获得正常信息进行重组,便能获得用户需要发送或接收的原始信息。为用户上网带来了便利。
[0024]结合第一方面,可选地,其中,所述正常信息包括至少一个正常子信息。
[0025]所述对所述正常信息进行重组,获得信息发送用户输入的原始信息,包括:利用目标余弦相似度算法模型计算各所述正常子信息的契合度;根据所述契合度排列所述正常子信息,获得所述原始信息。
[0026]上述信息处理的方法,通过基于余弦相似度算法构建的目标余弦相似度算法模型计算经过剔除处理后得到的各正常子信息的契合度,再根据各正常子信息的契合度排列并重组该各正常子信息,便更加准确地得到了用户输入的原始信息。粉碎了非法人员的不良企图的同时,进一步地确保了用户能够发出或接收原始信息。
[0027]第二方面,本申请实施例还提供了一种信息处理的装置,包括:
[0028]获取模块,用于获取信息发送用户发出的目标信息;
[0029]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息的处理方法,其特征在于,包括:获取信息发送用户发出的目标信息;利用目标朴素贝叶斯算法模型对所述目标信息进行识别,确定所述目标信息的分类结果;以及根据所述目标信息的分类结果对所述目标信息进行处理。2.根据权利要求1所述的信息的处理方法,其特征在于,其中,所述目标朴素贝叶斯算法模型通过以下方式获得:获取包含所述目标信息的第一训练信息集;利用分词库提取所述目标信息中的词汇并分类,获得所述目标信息的分类列表;以及将所述分类列表作为特征值,并通过输入所述特征值和第一训练信息集对预先构建的初始朴素贝叶斯算法模型进行训练,获得所述目标朴素贝叶斯算法模型。3.根据权利要求2所述的信息的处理方法,其特征在于,其中,所述分词库包括jieba库;所述利用分词库提取所述目标信息中的词汇并分类,获得所述目标信息的分类列表,包括:根据所述目标信息的语法结构,提取所述目标信息中的第一类词汇,对所述第一类词汇进行分类,并将所述第一类词汇进行分类的结果作为分类列表;或将所述目标信息中所有至少两个相邻的文字组合成文字组,从所述文字组中提取出与词库中的词汇对应的第二类词汇,对所述第二类词汇进行分类,并将所述第二类词汇进行分类的结果作为分类列表;或根据所述目标信息的语法结构,提取所述目标信息中的第一类词汇,对所述第一类词汇进行分类,并将所述第一类词汇进行分类的结果依照预设条件进行切分,将切分后的结果作为分类列表。4.根据权利要求2或3所述的信息的处理方法,其特征在于,其中,所述分类列表包括违禁词汇列表、垃圾词汇列表以及正常词汇列表。5.根据权利要求1所述的信息的处理方法,其特征在于,其中,所述目标信息的分类结果包括违禁信息;所述根据所述目标信...

【专利技术属性】
技术研发人员:孔佑记宋居成
申请(专利权)人:上海极豆科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1