基于自然语言处理技术的垃圾文本识别方法、设备及介质技术

技术编号：35578766 阅读：27 留言：0更新日期：2022-11-12 16:04

本申请公开了基于自然语言处理技术的垃圾文本识别方法、设备及介质，用以解决现有技术在人们警惕性较低时，无法及时对不明来源的短信和邮件进行判断，存在安全风险的技术问题。方法包括：接收待处理文本信息并通过大数据处理技术对待处理文本信息进行文本清洗，过滤待处理文本信息中的超链接；基于自然语言处理技术将过滤后的待处理文本信息转化为对应的词矩阵；基于垃圾文本训练集对文本分析模型进行训练，并将词矩阵输入至预先训练好的文本分析模型以确定待处理文本信息的文本类型是否为垃圾文本类型；若否则从缓存中获取未过滤的待处理文本信息进行展示，若是则对待处理文本信息添加警示标签，并将过滤后的待处理文本信息进行展示。信息进行展示。信息进行展示。

全部详细技术资料下载

【技术实现步骤摘要】
基于自然语言处理技术的垃圾文本识别方法、设备及介质

[0001]本申请涉及互联网
，尤其涉及基于自然语言处理技术的垃圾文本识别方法、设备及介质。

技术介绍

[0002]随着互联网技术的飞速发展，全球进入大数据时代，越来越多的人通过互联网分享数据、获得数据，人们在享受这种便利的同时，危险也悄然降临。我们在浏览网页或者注册app时，都离不开输入手机号获取验证码或者绑定电子邮箱，这就是一种个人信息的泄露，使我们暴露在不同程度的风险之下。
[0003]目前，不少商家利用不合法途径获取到的手机号码，向消费者进行推销，给人们的日常生活造成不小的困扰，更有甚者，向群众发送诈骗短信或者钓鱼邮件，在我们点击进入虚假网址的瞬间，手机和电脑中的机密信息，如银行卡号、支付密码等就已经被窃取，使得我们每个人都面临着未知的、极大的财产安全风险。虽然人人都有危机意识，在阅读短信和邮件时都会打起精神判断真伪，但是难免有疏忽的时候，比如在人们身体疲劳或者心烦气躁时，可能会失去耐心。在这种状态下如果不小心点击了短信或者邮件里的钓鱼链接，可能会导致我们操作端存储的重要信息文件泄露，更有甚者将直接窃取我们的储蓄卡号和支付密码，造成巨大的精神和财产损失。

技术实现思路

[0004]本申请实施例提供了基于自然语言处理技术的垃圾文本识别方法、设备及介质，用以解决现有技术在人们警惕性较低时，无法及时对不明来源的短信和邮件进行判断，存在安全风险的技术问题。
[0005]一方面，本申请实施例提供了基于自然语言处理技术的垃圾文本识别...

【技术保护点】

【技术特征摘要】
1.基于自然语言处理技术的垃圾文本识别方法，其特征在于，所述方法包括：接收待处理文本信息，并通过大数据处理技术，对所述待处理文本信息进行文本清洗，过滤所述待处理文本信息中的超链接；基于自然语言处理技术，将过滤后的所述待处理文本信息转化为对应的词矩阵；基于垃圾文本训练集，对文本分析模型进行训练，并将所述词矩阵输入至训练好的所述文本分析模型中，以确定所述待处理文本信息的文本类型是否为垃圾文本类型；若否，则从缓存中获取未过滤的所述待处理文本信息，并将未过滤的所述待处理文本信息进行展示，若是，则对所述待处理文本信息添加警示标签，并将过滤后的所述待处理文本信息进行展示。2.根据权利要求1所述的基于自然语言处理技术的垃圾文本识别方法，其特征在于，所述通过大数据处理技术，对所述待处理文本信息进行文本清洗，过滤所述待处理文本信息中的超链接，具体包括：基于大数据处理技术，识别所述待处理文本信息中的数据类型；所述数据类型包括文本类型和链接类型；根据所述待处理文本信息对应的数据类型，将所述链接类型的待处理文本信息进行清洗，以过滤所述待处理文本信息中的超链接。3.根据权利要求1所述的基于自然语言处理技术的垃圾文本识别方法，其特征在于，所述基于自然语言处理技术，将过滤后的所述待处理文本信息转化为对应的词矩阵，具体包括：通过自然语言处理技术，对过滤后的所述待处理文本信息进行分割，得到对应的若干词语，并将所述若干词语缓存至文本数据集；统计所述文本数据集中各每个词语对应的数量，以得到所述词语对应的词向量；基于各所述词语对应的词向量，将过滤后的所述待处理文本转化为对应的词矩阵。4.根据权利要求1所述的基于自然语言处理技术的垃圾文本识别方法，其特征在于，所述基于垃圾文本训练集，对文本分析模型进行训练，具体包括：从垃圾文本训练集中获取一个预先确定出文本类型为垃圾文本类型的文本信息，并将所述文本信息对应的词矩阵输入至卷积神经网络进行训练；所述文本类型包括垃圾文本类型和非垃圾文本类型；通过所述卷积神经网络根据所述词矩阵中的词语种类，将所述词矩阵中的词向量进行划分；通过所述卷积神经网络的卷积层，分别对词向量划分后的词矩阵进行卷积，以得到组合矩阵，并通过所述卷积层提取所述组合矩阵的若干属性特征，得到对应的特征矩阵；对所述特征矩阵进行处理，输出所述文本信息对应的组合向量；通过预设算法对所述组合向量进行处理，并在确定输出的所述文本信息的文本类型与所述文本信息预先确定出的文本类型相匹配...

【专利技术属性】
技术研发人员：贾晓萌，单震，
申请(专利权)人：浪潮卓数大数据产业发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人