竖向文本广告过滤方法和装置制造方法及图纸

技术编号:15616864 阅读:61 留言:0更新日期:2017-06-14 03:34
本发明专利技术公开了一种竖向文本广告过滤方法,所述竖向文本广告过滤方法包括步骤:获取文本信息;将所述文本信息按照行进行分组,依次生成若干第一文本序列;按照顺序依次提取各个所述第一文本序列对应位置的字符,根据所述对应位置依次生成若干第二文本序列;根据所述第二文本序列过滤广告。由于本发明专利技术通过依次提取第一文本序列对应位置的字符而生成第二文本序列,根据第二文本序列过滤广告,因此能够有效地识别竖向文本信息,从而达到过滤掉竖向广告的目的。

【技术实现步骤摘要】
竖向文本广告过滤方法和装置
本专利技术涉及到互联网
,特别涉及到一种竖向文本广告过滤方法和装置。
技术介绍
互联网的快速发展给人们的生活带来了极大的便利,人们可以利用互联网浏览网页(如QQ浏览器的话题圈评论系统或一些论坛网站等)、或者通过聊天工具进行通信(如QQ、微信等)、或者通过安装一些应用软件获取一些信息(如天气预报应用、日历应用等)。在互联网给人们带来便利的同时,一些广告发布者会利用互联网的便利发布各种广告,给用户带来了极大的烦恼。例如,广告发布者通常在QQ浏览器的话题圈评论系统上发布广告,或者在QQ群聊、微信群聊里发布广告,或者在一些应用软件中自动弹出一浮窗来发布广告。为了自动过滤掉这些广告,现有技术中通常会对当前页面上显示的文本信息按照行进行语义识别,在识别结果为广告时则进行过滤处理。然而,广告发布者为了利用现有广告过滤方法的漏洞,通常会发布一些竖向广告。如图1所示,图1为竖向广告的示意图,这种广告通常需要竖向阅读。例如,对于图1所示的竖向广告,其实际广告内容为“买时尚睡衣加微信357mai”。由于现有的广告过滤方法一般都是按照行进行广告识别,若采用现有技术进行识别,则按照行将上述竖向广告解析为“买加7时微m尚信a睡3i衣5”,此时解析出的内容的语义已经发生变化,采用现有的方法并不能识别出其为广告,因此现有技术对竖向广告的识别率比较低下,并不能过滤掉竖向广告。
技术实现思路
本专利技术实施例提供一种竖向文本广告过滤方法和装置,旨在解决不能过滤掉竖向广告的技术问题。为实现上述目的,本专利技术实施例提出竖向文本广告过滤方法,所述竖向文本广告过滤方法包括步骤:获取文本信息;将所述文本信息按照行进行分组,依次生成若干第一文本序列;按照顺序依次提取各个所述第一文本序列对应位置的字符,根据所述对应位置依次生成若干第二文本序列;根据所述第二文本序列过滤广告。为了实现上述目的,本专利技术实施例还进一步提出一种竖向文本广告过滤装置,所述竖向文本广告过滤装置包括:获取模块,用于获取文本信息;分组模块,用于将所述文本信息按照行进行分组,依次生成若干第一文本序列;提取模块,按照顺序依次提取各个所述第一文本序列对应位置的字符,根据所述对应位置依次生成若干第二文本序列;过滤模块,用于根据所述第二文本序列过滤广告。本专利技术提出的竖向文本广告过滤方法和装置,通过获取文本信息,先将所述文本信息按照行进行分组,依次生成若干第一文本序列,然后再按照顺序依次提取各个所述第一文本序列对应位置的字符,根据所述对应位置依次生成若干第二文本序列,最后根据所述第二文本序列过滤广告。由于本专利技术通过依次提取第一文本序列对应位置的字符而生成第二文本序列,根据第二文本序列过滤广告,因此能够有效地识别竖向文本信息,从而达到过滤掉竖向广告的目的。附图说明图1为竖向文本广告的示意图;图2为本专利技术实施例竖向文本广告过滤装置所涉及的硬件架构示意图;图3为本专利技术竖向文本广告过滤方法的流程示意图;图4为页面中显示的文本信息的示意图;图5为本专利技术竖向文本广告过滤方法中根据第二文本序列过滤广告步骤的第一细化流程示意图;图6为本专利技术竖向文本广告过滤方法中根据文本重组序列过滤广告步骤的第一细化流程示意图;图7为本专利技术竖向文本广告过滤方法中根据文本重组序列过滤广告步骤的第二细化流程示意图;图8为本专利技术竖向文本广告过滤方法中根据文本重组序列过滤广告步骤的第三细化流程示意图;图9为本专利技术竖向文本广告过滤方法中根据第二文本序列过滤广告步骤的第二细化流程示意图;图10为本专利技术竖向文本广告过滤方法中根据第二文本序列过滤广告步骤的第三细化流程示意图;图11为本专利技术竖向文本广告过滤装置的功能模块示意图;图12为本专利技术竖向文本广告过滤装置中过滤模块的第一细化功能模块示意图;图13为本专利技术竖向文本广告过滤装置中第一过滤单元的第一细化功能模块示意图;图14为本专利技术竖向文本广告过滤装置中第一过滤单元的第二细化功能模块示意图;图15为本专利技术竖向文本广告过滤装置中第一过滤单元的第三细化功能模块示意图;图16为本专利技术竖向文本广告过滤装置中过滤模块的第二细化功能模块示意图;图17为本专利技术竖向文本广告过滤装置中过滤模块的第三细化功能模块示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例的主要解决方案是:获取文本信息;将所述文本信息按照行进行分组,依次生成若干第一文本序列;按照顺序依次提取各个所述第一文本序列对应位置的字符,根据所述对应位置依次生成若干第二文本序列;根据所述第二文本序列过滤广告。由于现有的竖向文本广告过滤方法一般都是按照行进行广告识别,采用现有的方法并不能有效地识别出竖向广告。本专利技术实施例架构一竖向文本广告过滤装置,该工具通过获取文本信息,先将所述文本信息按照行进行分组,依次生成若干第一文本序列,然后再按照顺序依次提取各个所述第一文本序列对应位置的字符,根据所述对应位置依次生成若干第二文本序列,最后根据所述第二文本序列过滤广告。由于本专利技术通过依次提取第一文本序列对应位置的字符而生成第二文本序列,根据第二文本序列过滤广告,因此能够有效地识别竖向文本信息,从而达到过滤掉竖向广告的目的。其中,本实施例竖向文本广告过滤装置可以承载于服务器也可承载于终端,终端例如可以为计算机、手机或平板电脑等。本实施例以竖向文本广告过滤装置承载于终端为例说明。该竖向文本广告过滤装置所涉及的硬件架构可以如图2所示。图2示出了本专利技术实施例竖向文本广告过滤装置所涉及的硬件架构。如图2所示,所述竖向文本广告过滤装置所涉及的硬件包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005,数据接口1006。其中,通信总线1002用于实现该服务器中各组成部件之间的连接通信。用户接口1003可以包括显示屏(Display)、键盘(Keyboard)、鼠标等组件,用于接收用户输入的信息,并将接收的信息发送至处理器1005进行处理。显示屏可以为LCD显示屏、LED显示屏,也可以为触摸屏。可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。数据接口1006可以为USB接口或可接收外部数据的通信接口。如图2所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及广告过滤程序。在图2所示的服务器所涉及的硬件中,网络接口1004主要用于连接其它应用服务器,与其它应用服务器进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信,接收客户端输入的信息和指令;而处理器1001可以用于调用存储器1005中存储的广告过滤程序,并执行以下操作:获取文本信息;将所述文本信息按照行进行分组,依次生成若干第一文本序列;按照顺序依次提取各个所述第一文本序列对应位置的字符,根据所本文档来自技高网...
竖向文本广告过滤方法和装置

【技术保护点】
一种竖向文本广告过滤方法,其特征在于,所述竖向文本广告过滤方法包括步骤:获取文本信息;将所述文本信息按照行进行分组,依次生成若干第一文本序列;按照顺序依次提取各个所述第一文本序列对应位置的字符,根据所述对应位置依次生成若干第二文本序列;根据所述第二文本序列过滤广告。

【技术特征摘要】
1.一种竖向文本广告过滤方法,其特征在于,所述竖向文本广告过滤方法包括步骤:获取文本信息;将所述文本信息按照行进行分组,依次生成若干第一文本序列;按照顺序依次提取各个所述第一文本序列对应位置的字符,根据所述对应位置依次生成若干第二文本序列;根据所述第二文本序列过滤广告。2.如权利要求1所述的竖向文本广告过滤方法,其特征在于,所述根据所述第二文本序列过滤广告的步骤包括:按照顺序依次将各个所述第二文本序列重组,生成文本重组序列;根据所述文本重组序列过滤广告。3.如权利要求2所述的竖向文本广告过滤方法,其特征在于,所述根据所述文本重组序列过滤广告的步骤包括:将预设广告库中的关键词与所述文本重组序列进行匹配;在至少一所述关键词与所述文本重组序列匹配时,则确定所述文本信息包含广告,并将所述文本信息过滤。4.如权利要求2所述的竖向文本广告过滤方法,其特征在于,所述根据所述文本重组序列过滤广告的步骤包括:提取所述文本重组序列中的字母和/或数字组合序列,并计算提取出的字母和/或数字组合序列的最大长度;在所述最大长度大于预设阈值时,则确定所述文本信息包含广告,并将所述文本信息过滤。5.如权利要求1所述的竖向文本广告过滤方法,其特征在于,所述根据所述第二文本序列过滤广告的步骤包括:将预设广告库中的关键词与所述第二文本序列进行匹配;在至少一所述关键词与所述第二文本序列匹配时,则确定所述文本信息包含广告,并将所述文本信息过滤。6.如权利要求1所述的竖向文本广告过滤方法,其特征在于,所述根据所述第二文本序列过滤广告的步骤包括:提取所述第二文本序列中的字母和/或数字组合序列,并计算提取出的字母和/或数字组合序列的最大长度;在所述最大长度大于预设阈值时,则确定所述文本信息包含广告,并将所述文本信息过滤;其中,在提取所述第二文本序列中的字母和/或数字组合序列时,按照所述第二文本序列的顺序,在相邻两第二文本序列中,若前一所述第二文本序列的尾端为字母和/或数字组合序列、且后一所述第二文本序列的首端为字母和/或数字组合序列,则将所述第二文本序列尾端的字母和/或数字组合序列和所述第二文本序列首端的字母和/或数字组合序列拼接形成一所述字母和/或数字组合序列。7.如权利要求1至6任一项所述的竖向文本广告过滤方法,其特征在于,在生成所述第二文本序列之前,先剔除各个所述第一文本序列中的预设字符。8.一种竖向文本广告过滤装置,其特征在于,所述竖向文本广告过滤装置包...

【专利技术属性】
技术研发人员:陈尔晓
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1