一种引流信息识别方法和装置制造方法及图纸

技术编号:21914126 阅读:23 留言:0更新日期:2019-08-21 12:28
本发明专利技术实施例提供一种引流信息识别方法和装置,其中,该方法包括:获取目标IP地址下,在预定时长内多个登录账号所使用的登录设备的类型信息;在所述类型信息满足预设条件的情况下,获取所述多个登录账号发布的携带有网址链接的内容文本信息;通过自然语言处理,对所述多个登录账号发布的内容文本信息进行主题识别,根据主题识别结果确定所述多个登录账号发布的内容文本信息是否为引流信息。通过上述方案解决了现有的基于人工审核的方式确定引流信息所存在的效率和准确率较低的问题,达到了简单准确确定引流信息的技术效果。

A Method and Device for Recognition of Drainage Information

【技术实现步骤摘要】
一种引流信息识别方法和装置
本专利技术涉及互联网
,尤其涉及一种引流信息识别方法和装置。
技术介绍
随着互联网技术的不断发展,网络信息越来越多。然而,也会有越来越多的不健康信息进入互联网进行传播。目前,为了滤除这些不健康信息,通常是采用人工收集关键词的方式,然后再通过信息管理系统用这些收集的关键词去检索匹配到的文本信息,之后再通过人工审核方式判断是否为不健康信息,如果是不健康的信息内容,则进行删除处理。然而,这种人工搜集和人工审核的方式,成本太高,尤其在网络信息量过大的情况下,成本过高,且人工处理的方式容易产生误判,导致有些非不健康信息也被删除了。针对上述问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供一种引流信息识别方法和装置,以达到简单高效准确识别引流信息的目的。一方面,本专利技术实施例提供了一种引流信息识别方法,所述方法包括:获取目标IP地址下,在预定时长内多个登录账号所使用的登录设备的类型信息;在所述类型信息满足预设条件的情况下,获取所述多个登录账号发布的携带有网址链接的内容文本信息,其中,所述内容文本信息中携带有第三方网站链接;通过自然语言处理,对所述多个登录账号发布的内容文本信息进行主题识别,根据主题识别结果确定所述多个登录账号发布的内容文本信息是否为引流信息。另一方面,本专利技术实施例提供了一种引流信息识别装置,包括:第一获取模块,用于获取目标IP地址下,在预定时长内多个登录账号所使用的登录设备的类型信息;第二获取模块,用于在所述类型信息满足预设条件的情况下,获取所述多个登录账号发布的携带有网址链接的内容文本信息;识别模块,用于通过自然语言处理,对所述多个登录账号发布的内容文本信息进行主题识别,根据主题识别结果确定所述多个登录账号发布的内容文本信息是否为引流信息。上述技术方案具有如下有益效果:通过获取目标IP地址下,在预定时长内多个登录账号所使用的登录设备的类型信息,确定类型信息是否满足条件,如果满足那么就获取多个登录账号发布的携带有网站链接的内容文本信息,然后,通过自然语言处理,对多个登录账号发布的内容文本信息进行主题识别,以确定多个登录账号发布的内容文本信息是否为引流信息,即通过设备类型和自然语言处理方法联合的方式,确定出是否为引流信息,从而解决现有的基于人工审核的方式确定引流信息所存在的效率和准确率较低的问题,达到了简单准确确定引流信息的技术效果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例一种引流信息识别方法的方法流程图;图2为本专利技术实施例一种引流信息识别方法的逻辑流程示意图;图3为本专利技术实施例一种引流信息识别装置的结构示意图;图4为本专利技术实施例一种识别模块的结构示意图;图5为本专利技术实施例一种第一获取模块的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。考虑到随着互联网的快速发展,在网上平台(例如:微博等),用户每天在平台上生产的信息量是爆炸式、海量的数据,如果通过人工方式去搜集关键词、人工审核的方式去处理不健康信息,那么成本太高。且现在不健康信息的产生者,一般会对不健康信息的引流信息进行变形处理,在信息中加入很多的文本信息进行干扰,这也给人工搜索增加了难度,且人工处理会存在天然的误判情况,如果直接就对这些信息进行删除处理,往往会造成用户投诉。目前,不健康信息的发布,一般采用图片+内容文本的方式,图片识别的方式已经比较成熟,然后基于内容文本的引流信息则相对比较难识别。针对以上问题,在本例中,提供了一种引流信息识别方法,如图1所示,可以包括如下步骤:步骤101:获取目标IP地址下,在预定时长内多个登录账号所使用的登录设备的类型信息;例如:可以采用聚类分析的方式,获取一定时间内特定单个IP下,所有登录账号使用的登录设备的类型信息。步骤102:在所述类型信息满足预设条件的情况下,获取所述多个登录账号发布的携带有网址链接的内容文本信息;即,可以设置一个预设条件,再进行判断。例如:如果一定时间内特定单个IP下,所有登录账号使用的登录设备的类型信息集中在一个或者有限几个型号(例如:单个IP下,1分钟内登录成功了超过20个微博帐号,在这些所有登录成功的帐号,所有的帐号使用的登录设备型号不超过5个或者五类设备,或者是,其中90%的帐号是登录是一个或者一类登录设备),那么可以判断类型信息满足预设条件。因为要实现引流的判断,因此需要搜集和判断的消息需要是携带有网址链接的,在实现的时候,该网址链接可以是第三方网址链接,也可以是内部网址链接等等,可以对携带有网址链接的内容文本信息都作为判断对象进行识别,从而避免遗漏。步骤103:通过自然语言处理,对所述多个登录账号发布的内容文本信息进行主题识别,根据主题识别结果确定所述多个登录账号发布的内容文本信息是否为引流信息。为了确定发布的内容文本信息是否为引流信息,可以通过NLP(NaturalLanguageProcessing,自然语言处理)方法,对上述这些登录信息发布的信息的文本内容进行主题分析,例如,可以将文本中的第一个名词作为主题词汇,语句中其它名词作为内容词汇。然后,确定这些标记账号发布的信息的文本内容中主题词与内容词汇之间的语义距离,如果主题词与内容词汇之间的语义距离超出预设主题距离的比例大于预定阈值,则认为账户发布了携带有大量干扰信息的引流信息,也可以采用采用适当的处理。例如:如果90%以上内容词汇与主题词汇之间的语义距离大于6,那么可以认为该账户发布了带有大量干扰信息的不健康引流信息,则对满足上述条件的信息内容进行仅自己可见的处理。在上例中,通过获取目标IP地址下,在预定时长内多个登录账号所使用的登录设备的类型信息,确定类型信息是否满足条件,如果满足那么就获取多个登录账号发布的携带有第三方网站链接的内容文本信息,然后,通过自然语言处理,对多个登录账号发布的内容文本信息进行主题识别,以确定多个登录账号发布的内容文本信息是否为引流信息,即通过设备类型和自然语言处理方法联合的方式,确定出是否为引流信息,从而解决现有的基于人工审核的方式确定引流信息所存在的效率和准确率较低的问题,达到了简单准确确定引流信息的技术效果。在实现的过程中,可以通过确定内容文本信息中的主要主题词汇(例如,文本内容中第一个名词)和内容文本信息中的次要主题词汇(例如:文本内容中除第一个名词之外的名词)之间的语义距离,来确定内容文本信息是否为引流信息,即,根据语义距离确定内容文本信息是否是携带有大量干扰信息的引流信息。具体的,通过自然语言处理,对所述多个登录账号发布的内容文本信息进行主题识别,以确定所述多个登录账号发布的内容文本信息是否为引流信息,可以包括:S1:获取所述多个登录账号发布的内容文本信本文档来自技高网...

【技术保护点】
1.一种引流信息识别方法,其特征在于,包括:获取目标IP地址下,在预定时长内多个登录账号所使用的登录设备的类型信息;在所述类型信息满足预设条件的情况下,获取所述多个登录账号发布的携带有网址链接的内容文本信息;通过自然语言处理,对所述多个登录账号发布的内容文本信息进行主题识别,根据主题识别结果确定所述多个登录账号发布的内容文本信息是否为引流信息。

【技术特征摘要】
1.一种引流信息识别方法,其特征在于,包括:获取目标IP地址下,在预定时长内多个登录账号所使用的登录设备的类型信息;在所述类型信息满足预设条件的情况下,获取所述多个登录账号发布的携带有网址链接的内容文本信息;通过自然语言处理,对所述多个登录账号发布的内容文本信息进行主题识别,根据主题识别结果确定所述多个登录账号发布的内容文本信息是否为引流信息。2.根据权利要求1所述的方法,其特征在于,通过自然语言处理,对所述多个登录账号发布的内容文本信息进行主题识别,根据主题识别结果确定所述多个登录账号发布的内容文本信息是否为引流信息,包括:获取所述多个登录账号发布的内容文本信息中的主要主题词汇和多个次要主题词汇;分别计算所述主要主题词汇与每一个次要主题词汇之间的语义距离;在所述主要主题词汇与每一个次要主题词汇之间的语义距离都大于预设距离的情况下,确定所述多个登录账号发布的内容文本信息为引流信息。3.根据权利要求1所述的方法,其特征在于,在通过自然语言处理,对所述多个登录账号发布的内容文本信息进行主题识别,根据主题识别结果确定所述多个登录账号发布的内容文本信息是否为引流信息之后,还包括:在确定所述多个登录账号发布的内容文本信息为引流信息之后,将所述多个登录账号发布的内容文本信息设置为仅发布者可见。4.根据权利要求1所述的方法,其特征在于,所述获取目标IP地址下,在预定时长内多个登录账号所使用的登录设备的类型信息,包括:获取目标IP地址下,在预定时长内多个登录账号所使用的登录设备的用户代理信息;从所述用户代理信息中提取出各个登录账号所使用的登录设备的设备型号;以及,所述类型信息满足预设条件的判定方法,包括:判断各个登录账号所使用的登录设备的设备型号属于同一设备型号的比例是否达到预设阈值;在达到预设阈值的情况下,判定所述类型信息满足预设条件。5.根据权利要求1所述的方法,其特征在于,在所述类型信息满足预设条件的情况下,获取所述多个登录账号发布的内容文本信息,包括:在所述类型信息满足所述预设条件的情况下,为所述多个登录账号设置标记,其中,所述标记用于表征所述多个登录账号中各个登录账号为疑似引流账号;对被标记的登录账号在所述预设时...

【专利技术属性】
技术研发人员:崔培豪赵遐罗诗尧
申请(专利权)人:微梦创科网络科技中国有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1