基于自然语言处理技术的垃圾文本识别方法、设备及介质技术

技术编号:35578766 阅读:27 留言:0更新日期:2022-11-12 16:04
本申请公开了基于自然语言处理技术的垃圾文本识别方法、设备及介质,用以解决现有技术在人们警惕性较低时,无法及时对不明来源的短信和邮件进行判断,存在安全风险的技术问题。方法包括:接收待处理文本信息并通过大数据处理技术对待处理文本信息进行文本清洗,过滤待处理文本信息中的超链接;基于自然语言处理技术将过滤后的待处理文本信息转化为对应的词矩阵;基于垃圾文本训练集对文本分析模型进行训练,并将词矩阵输入至预先训练好的文本分析模型以确定待处理文本信息的文本类型是否为垃圾文本类型;若否则从缓存中获取未过滤的待处理文本信息进行展示,若是则对待处理文本信息添加警示标签,并将过滤后的待处理文本信息进行展示。信息进行展示。信息进行展示。

【技术实现步骤摘要】
基于自然语言处理技术的垃圾文本识别方法、设备及介质


[0001]本申请涉及互联网
,尤其涉及基于自然语言处理技术的垃圾文本识别方法、设备及介质。

技术介绍

[0002]随着互联网技术的飞速发展,全球进入大数据时代,越来越多的人通过互联网分享数据、获得数据,人们在享受这种便利的同时,危险也悄然降临。我们在浏览网页或者注册app时,都离不开输入手机号获取验证码或者绑定电子邮箱,这就是一种个人信息的泄露,使我们暴露在不同程度的风险之下。
[0003]目前,不少商家利用不合法途径获取到的手机号码,向消费者进行推销,给人们的日常生活造成不小的困扰,更有甚者,向群众发送诈骗短信或者钓鱼邮件,在我们点击进入虚假网址的瞬间,手机和电脑中的机密信息,如银行卡号、支付密码等就已经被窃取,使得我们每个人都面临着未知的、极大的财产安全风险。虽然人人都有危机意识,在阅读短信和邮件时都会打起精神判断真伪,但是难免有疏忽的时候,比如在人们身体疲劳或者心烦气躁时,可能会失去耐心。在这种状态下如果不小心点击了短信或者邮件里的钓鱼链接,可能会导致我们操作端存储的重要信息文件泄露,更有甚者将直接窃取我们的储蓄卡号和支付密码,造成巨大的精神和财产损失。

技术实现思路

[0004]本申请实施例提供了基于自然语言处理技术的垃圾文本识别方法、设备及介质,用以解决现有技术在人们警惕性较低时,无法及时对不明来源的短信和邮件进行判断,存在安全风险的技术问题。
[0005]一方面,本申请实施例提供了基于自然语言处理技术的垃圾文本识别方法,包括:
[0006]接收待处理文本信息,并通过大数据处理技术,对所述待处理文本信息进行文本清洗,过滤所述待处理文本信息中的超链接;
[0007]基于自然语言处理技术,将过滤后的所述待处理文本信息转化为对应的词矩阵;
[0008]基于垃圾文本训练集,对文本分析模型进行训练,并将所述词矩阵输入至训练好的所述文本分析模型中,以确定所述待处理文本信息的文本类型是否为垃圾文本类型;
[0009]若否,则从缓存中获取未过滤的所述待处理文本信息,并将未过滤的所述待处理文本信息进行展示,若是,则对所述待处理文本信息添加警示标签,并将过滤后的所述待处理文本信息进行展示。
[0010]在本申请的一种实现方式中,所述通过大数据处理技术,对所述待处理文本信息进行文本清洗,过滤所述待处理文本信息中的超链接,具体包括:
[0011]基于大数据处理技术,识别所述待处理文本信息中的数据类型;所述数据类型包括文本类型和链接类型;
[0012]根据所述待处理文本信息对应的数据类型,将所述链接类型的待处理文本信息进
行清洗,以过滤所述待处理文本信息中的超链接。
[0013]在本申请的一种实现方式中,所述基于自然语言处理技术,将过滤后的所述待处理文本信息转化为对应的词矩阵,具体包括:
[0014]通过自然语言处理技术,对过滤后的所述待处理文本信息进行分割,得到对应的若干词语,并将所述若干词语缓存至文本数据集;
[0015]统计所述文本数据集中各每个词语对应的数量,以得到所述词语对应的词向量;
[0016]基于各所述词语对应的词向量,将过滤后的所述待处理文本转化为对应的词矩阵。
[0017]在本申请的一种实现方式中,所述基于垃圾文本训练集,对文本分析模型进行训练,具体包括:
[0018]从垃圾文本训练集中获取一个预先确定出文本类型为垃圾文本类型的文本信息,并将所述文本信息对应的词矩阵输入至卷积神经网络进行训练;所述文本类型包括垃圾文本类型和非垃圾文本类型;
[0019]通过所述卷积神经网络根据所述词矩阵中的词语种类,将所述词矩阵中的词向量进行划分;
[0020]通过所述卷积神经网络的卷积层,分别对词向量划分后的词矩阵进行卷积,以得到组合矩阵,并通过所述卷积层提取所述组合矩阵的若干属性特征,得到对应的特征矩阵;
[0021]对所述特征矩阵进行处理,输出所述文本信息对应的组合向量;
[0022]通过预设算法对所述组合向量进行处理,并在确定输出的所述文本信息的文本类型与所述文本信息预先确定出的文本类型相匹配时,实现对所述文本分析模型的训练。
[0023]在本申请的一种实现方式中,所述预设算法为朴素贝叶斯算法;
[0024]所述通过预设算法对所述组合向量进行处理,具体包括:
[0025]通过所述朴素贝叶斯算法对所述组合向量进行计算,得到对应的计算结果,并根据所述计算结果确定所述文本信息属于垃圾文本类型的概率;
[0026]根据所述文本信息属于垃圾文本类型的概率,确定所述文本信息的文本类型与所述文本信息预先确定出的文本类型是否相匹配。
[0027]在本申请的一种实现方式中,所述基于自然语言处理技术,将过滤后的所述待处理文本信息转化为对应的词矩阵之前,所述方法还包括:
[0028]确定过滤后的所述待处理文本信息中是否包括非风险信息;所述非风险信息至少包括以下一项或多项:表情信息、符号信息以及回复信息;
[0029]若是,则将所述待处理文本信息中的所述表情信息、所述符号信息以及所述回复信息删除。
[0030]在本申请的一种实现方式中,所述对所述待处理文本信息添加警示标签,并将过滤后的所述待处理文本信息进行展示,具体包括:
[0031]在确定出所述待处理文本信息的文本类型为垃圾文本类型时,在所述待处理文本信息的标题中添加警示标签;所述警示标签是基于所述待处理文本信息对应的文本类型进行设置的;
[0032]对所述警示标签进行显著性设置,并将具有所述警示标签且过滤后的所述待处理文本信息向对应的用户进行展示。
[0033]在本申请的一种实现方式中,所述接收待处理文本信息,具体包括:
[0034]获取用户端接收到的待处理文本信息;所述待处理文本信息中至少包括以下一项或多项:文本、号码、超链接;
[0035]将获取到的所述待处理文本信息进行缓存,以存储所述待处理文本信息的全部内容。
[0036]另一方面,本申请实施例还提供了基于自然语言处理技术的垃圾文本识别设备,所述设备包括:
[0037]至少一个处理器;
[0038]以及,与所述至少一个处理器通信连接的存储器;
[0039]其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述的基于自然语言处理技术的垃圾文本识别方法。
[0040]另一方面,本申请实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
[0041]如上述的基于自然语言处理技术的垃圾文本识别方法。
[0042]本申请实施例提供了基于自然语言处理技术的垃圾文本识别方法、设备及介质,至少包括以下有益效果:
[0043]通过对接收到的待处理文本信息进行文本清洗,能够将待本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于自然语言处理技术的垃圾文本识别方法,其特征在于,所述方法包括:接收待处理文本信息,并通过大数据处理技术,对所述待处理文本信息进行文本清洗,过滤所述待处理文本信息中的超链接;基于自然语言处理技术,将过滤后的所述待处理文本信息转化为对应的词矩阵;基于垃圾文本训练集,对文本分析模型进行训练,并将所述词矩阵输入至训练好的所述文本分析模型中,以确定所述待处理文本信息的文本类型是否为垃圾文本类型;若否,则从缓存中获取未过滤的所述待处理文本信息,并将未过滤的所述待处理文本信息进行展示,若是,则对所述待处理文本信息添加警示标签,并将过滤后的所述待处理文本信息进行展示。2.根据权利要求1所述的基于自然语言处理技术的垃圾文本识别方法,其特征在于,所述通过大数据处理技术,对所述待处理文本信息进行文本清洗,过滤所述待处理文本信息中的超链接,具体包括:基于大数据处理技术,识别所述待处理文本信息中的数据类型;所述数据类型包括文本类型和链接类型;根据所述待处理文本信息对应的数据类型,将所述链接类型的待处理文本信息进行清洗,以过滤所述待处理文本信息中的超链接。3.根据权利要求1所述的基于自然语言处理技术的垃圾文本识别方法,其特征在于,所述基于自然语言处理技术,将过滤后的所述待处理文本信息转化为对应的词矩阵,具体包括:通过自然语言处理技术,对过滤后的所述待处理文本信息进行分割,得到对应的若干词语,并将所述若干词语缓存至文本数据集;统计所述文本数据集中各每个词语对应的数量,以得到所述词语对应的词向量;基于各所述词语对应的词向量,将过滤后的所述待处理文本转化为对应的词矩阵。4.根据权利要求1所述的基于自然语言处理技术的垃圾文本识别方法,其特征在于,所述基于垃圾文本训练集,对文本分析模型进行训练,具体包括:从垃圾文本训练集中获取一个预先确定出文本类型为垃圾文本类型的文本信息,并将所述文本信息对应的词矩阵输入至卷积神经网络进行训练;所述文本类型包括垃圾文本类型和非垃圾文本类型;通过所述卷积神经网络根据所述词矩阵中的词语种类,将所述词矩阵中的词向量进行划分;通过所述卷积神经网络的卷积层,分别对词向量划分后的词矩阵进行卷积,以得到组合矩阵,并通过所述卷积层提取所述组合矩阵的若干属性特征,得到对应的特征矩阵;对所述特征矩阵进行处理,输出所述文本信息对应的组合向量;通过预设算法对所述组合向量进行处理,并在确定输出的所述文本信息的文本类型与所述文本信息预先确定出的文本类型相匹配...

【专利技术属性】
技术研发人员:贾晓萌单震
申请(专利权)人:浪潮卓数大数据产业发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1