信息识别模型的建立方法及系统、拦截方法及系统技术方案

技术编号：24331246 阅读：31 留言：0更新日期：2020-05-29 19:40

本发明专利技术公开了一种信息识别模型的建立方法及系统、网络信息的拦截方法及系统、设备、存储介质。所述建立方法包括以下步骤：获取已标识类型的网络信息作为训练样本，并对每则网络信息的文本内容进行分词处理，得到特征词；计算每则网络信息中，至少两个特征词组合后的词组的TF‑IDF值；根据所述TF‑IDF值训练SVM模型，得到所述信息识别模型；所述信息识别模型用于识别所述网络信息的类型。本发明专利技术提高了网络信息类别识别的准确度，为广告、骚扰信息的快速、准确拦截提供帮助。

全部详细技术资料下载

【技术实现步骤摘要】
信息识别模型的建立方法及系统、拦截方法及系统
本专利技术涉及互联网
，特别涉及一种信息识别模型的建立方法及系统、网络信息的拦截方法及系统、设备、存储介质。
技术介绍
随着互联网络的发展，越来越多的用户倾向于通过网络发表自己的观点，或将网络作为与他人沟通的工具。然而部分人员会利用网络的便捷性，传播敏感信息、发布虚假广告或发送骚扰信息，需要对其进行拦截过滤。例如，在电商平台中，IM(InstantMessaging，即时通讯)作为消费者和店铺运营人员之间的沟通工具，在提升店铺的运营效率、改善用户体验方面发挥着重要的作用。但有部分人员，例如刷单、刷排名、刷评论等人员，借助IM工具向店铺运营人员频繁发送广告和骚扰消息，影响店铺的正常运营。这些广告、骚扰消息不仅影响到店铺正常运营，同时也侵害了电商平台的利益。因此在保障消费者和店铺通过IM进行正向消息交流的前提下，有效检测广告和骚扰等负向消息并进行相应的拦截过滤处理，成为了一个关注的焦点。目前，对于信息的拦截过滤主要采用数据分析方法：通过聊天消息流水统计出发送广告和骚扰消...

【技术保护点】
1.一种信息识别模型的建立方法，其特征在于，所述建立方法包括以下步骤：/n获取已标识类型的网络信息作为训练样本，并对每则网络信息的文本内容进行分词处理，得到特征词；/n计算每则网络信息中，至少两个特征词组合后的词组的TF-IDF值；/n根据所述TF-IDF值训练SVM模型，得到所述信息识别模型；/n所述信息识别模型用于识别所述网络信息的类型。/n

【技术特征摘要】
1.一种信息识别模型的建立方法，其特征在于，所述建立方法包括以下步骤：
获取已标识类型的网络信息作为训练样本，并对每则网络信息的文本内容进行分词处理，得到特征词；
计算每则网络信息中，至少两个特征词组合后的词组的TF-IDF值；
根据所述TF-IDF值训练SVM模型，得到所述信息识别模型；
所述信息识别模型用于识别所述网络信息的类型。

2.如权利要求1所述的信息识别模型的建立方法，其特征在于，所述网络信息的类型包括：待拦截信息和正常信息；
所述TF-IDF值的计算公式如下：
TF-IDF＝TF*IDF；
TF＝{j:ni∈dneg}/dneg；
IDF＝log(D/{j:ni∈dpos})；
其中，dneg表示所述训练样本中待拦截信息的条数；{j:ni∈dneg}表示所述待拦截信息中包含词组ni的消息的条数；dpos表示所述训练样本中正常信息的条数；{j:ni∈dpos}表示所述正常信息中包含词组ni的消息的条数；D表示所述训练样本中所述网络信息的条数；j∈{1,2,…,D}。

3.如权利要求1所述的信息识别模型的建立方法，其特征在于，根据所述TF-IDF值训练SVM模型的步骤，具体包括：
选取数值最大的若干TF-IDF值输入SVM模型进行模型训练；
或，将大于训练阈值的TF-IDF值输入SVM模型进行模型训练。

4.如权利要求1所述的信息识别模型的建立方法，其特征在于，对每则网络信息的文本内容进行分词处理的步骤之后，还包括：
对分词结果进行清洗以去除所述文本内容中的停用词。

5.如权利要求1所述的信息识别模型的建立方法，其特征在于，将至少两个特征词组合成词组的步骤，具体包括：
将所述文本内容中顺序的两个特征词组合成一个词组。

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任意一项所述的信息识别模型的建立方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任意一项所述的信息识别模型的建立方法的步骤。

8.一种网络信息的拦截方法，其特征在于，所述拦截方法包括：
利用权利要求1-5中任意一项所述的信息识别模型的建立方法建立信息识别模型；
根据所述信息识别模型识别网络信息的类别；
根据所述类别拦截网络信息。

9.如权利要求8所述的网络信息的拦截方法，其特征在于，根据所述类别拦截网络信息的步骤，具体包括：
判断所述类别为待拦截信息的网络信息与所述SVM模型的分类函数的几何距离是否大于距离阈值；
在判断为是时，拦截所述网络信息。

10.如权利要求9所述的网络信息的拦截方法，其特征在于，在判断所述几何距离不大于所述距离阈值时，所述拦截方法还包括：
获取每个特征词的TF-IDF值并累加；
在判断累加结果在第一范围内时，拦截所述网络信息。

11.如权利要求10所述的网络信息的拦截方法，其特征在于，在判断所述累加结果在第二范围内时，发送验证提醒至发布所述网络信息的客户端；
在接收到验证信息时，发布所述网络信息；
所述第二范围的上限值小于所述第一范围的下限值。

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求8至11中任意一项...

【专利技术属性】
技术研发人员：仇路，余隆平，陈俊伟，李鑫，姚书清，金薇薇，田玉杰，朱林，李务军，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人