信息识别模型的建立方法及系统、拦截方法及系统技术方案

技术编号:24331246 阅读:31 留言:0更新日期:2020-05-29 19:40
本发明专利技术公开了一种信息识别模型的建立方法及系统、网络信息的拦截方法及系统、设备、存储介质。所述建立方法包括以下步骤:获取已标识类型的网络信息作为训练样本,并对每则网络信息的文本内容进行分词处理,得到特征词;计算每则网络信息中,至少两个特征词组合后的词组的TF‑IDF值;根据所述TF‑IDF值训练SVM模型,得到所述信息识别模型;所述信息识别模型用于识别所述网络信息的类型。本发明专利技术提高了网络信息类别识别的准确度,为广告、骚扰信息的快速、准确拦截提供帮助。

【技术实现步骤摘要】
信息识别模型的建立方法及系统、拦截方法及系统
本专利技术涉及互联网
,特别涉及一种信息识别模型的建立方法及系统、网络信息的拦截方法及系统、设备、存储介质。
技术介绍
随着互联网络的发展,越来越多的用户倾向于通过网络发表自己的观点,或将网络作为与他人沟通的工具。然而部分人员会利用网络的便捷性,传播敏感信息、发布虚假广告或发送骚扰信息,需要对其进行拦截过滤。例如,在电商平台中,IM(InstantMessaging,即时通讯)作为消费者和店铺运营人员之间的沟通工具,在提升店铺的运营效率、改善用户体验方面发挥着重要的作用。但有部分人员,例如刷单、刷排名、刷评论等人员,借助IM工具向店铺运营人员频繁发送广告和骚扰消息,影响店铺的正常运营。这些广告、骚扰消息不仅影响到店铺正常运营,同时也侵害了电商平台的利益。因此在保障消费者和店铺通过IM进行正向消息交流的前提下,有效检测广告和骚扰等负向消息并进行相应的拦截过滤处理,成为了一个关注的焦点。目前,对于信息的拦截过滤主要采用数据分析方法:通过聊天消息流水统计出发送广告和骚扰消息的用户、IP(互联本文档来自技高网...

【技术保护点】
1.一种信息识别模型的建立方法,其特征在于,所述建立方法包括以下步骤:/n获取已标识类型的网络信息作为训练样本,并对每则网络信息的文本内容进行分词处理,得到特征词;/n计算每则网络信息中,至少两个特征词组合后的词组的TF-IDF值;/n根据所述TF-IDF值训练SVM模型,得到所述信息识别模型;/n所述信息识别模型用于识别所述网络信息的类型。/n

【技术特征摘要】
1.一种信息识别模型的建立方法,其特征在于,所述建立方法包括以下步骤:
获取已标识类型的网络信息作为训练样本,并对每则网络信息的文本内容进行分词处理,得到特征词;
计算每则网络信息中,至少两个特征词组合后的词组的TF-IDF值;
根据所述TF-IDF值训练SVM模型,得到所述信息识别模型;
所述信息识别模型用于识别所述网络信息的类型。


2.如权利要求1所述的信息识别模型的建立方法,其特征在于,所述网络信息的类型包括:待拦截信息和正常信息;
所述TF-IDF值的计算公式如下:
TF-IDF=TF*IDF;
TF={j:ni∈dneg}/dneg;
IDF=log(D/{j:ni∈dpos});
其中,dneg表示所述训练样本中待拦截信息的条数;{j:ni∈dneg}表示所述待拦截信息中包含词组ni的消息的条数;dpos表示所述训练样本中正常信息的条数;{j:ni∈dpos}表示所述正常信息中包含词组ni的消息的条数;D表示所述训练样本中所述网络信息的条数;j∈{1,2,…,D}。


3.如权利要求1所述的信息识别模型的建立方法,其特征在于,根据所述TF-IDF值训练SVM模型的步骤,具体包括:
选取数值最大的若干TF-IDF值输入SVM模型进行模型训练;
或,将大于训练阈值的TF-IDF值输入SVM模型进行模型训练。


4.如权利要求1所述的信息识别模型的建立方法,其特征在于,对每则网络信息的文本内容进行分词处理的步骤之后,还包括:
对分词结果进行清洗以去除所述文本内容中的停用词。


5.如权利要求1所述的信息识别模型的建立方法,其特征在于,将至少两个特征词组合成词组的步骤,具体包括:
将所述文本内容中顺序的两个特征词组合成一个词组。


6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任意一项所述的信息识别模型的建立方法。


7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任意一项所述的信息识别模型的建立方法的步骤。


8.一种网络信息的拦截方法,其特征在于,所述拦截方法包括:
利用权利要求1-5中任意一项所述的信息识别模型的建立方法建立信息识别模型;
根据所述信息识别模型识别网络信息的类别;
根据所述类别拦截网络信息。


9.如权利要求8所述的网络信息的拦截方法,其特征在于,根据所述类别拦截网络信息的步骤,具体包括:
判断所述类别为待拦截信息的网络信息与所述SVM模型的分类函数的几何距离是否大于距离阈值;
在判断为是时,拦截所述网络信息。


10.如权利要求9所述的网络信息的拦截方法,其特征在于,在判断所述几何距离不大于所述距离阈值时,所述拦截方法还包括:
获取每个特征词的TF-IDF值并累加;
在判断累加结果在第一范围内时,拦截所述网络信息。


11.如权利要求10所述的网络信息的拦截方法,其特征在于,在判断所述累加结果在第二范围内时,发送验证提醒至发布所述网络信息的客户端;
在接收到验证信息时,发布所述网络信息;
所述第二范围的上限值小于所述第一范围的下限值。


12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求8至11中任意一项...

【专利技术属性】
技术研发人员:仇路余隆平陈俊伟李鑫姚书清金薇薇田玉杰朱林李务军
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1