一种用于获取失序文本中的目标字符串的方法与设备技术

技术编号:8466443 阅读:199 留言:0更新日期:2013-03-23 18:35
本发明专利技术的目的是提供一种用于获取失序文本中的目标字符串的与设备。其中,失序文本处理设备获取待处理的失序文本;对所述失序文本中的字符进行排列组合,获取与所述失序文本相对应的一个或多个字符序列;根据所述一个或多个字符序列,在目标模式库进行匹配查询,以获得所述失序文本中的目标字符串。与现有技术相比,本发明专利技术通过对失序文本中的字符进行排列组合,并将其结果在目标模式库中进行匹配查询,以获得所述失序文本中包含禁止信息的目标字符串,从而有效识别失序文本中的禁止信息,由此增强系统应用过滤禁止信息的能力。

【技术实现步骤摘要】
一种用于获取失序文本中的目标字符串的方法与设备
本专利技术涉及计算机
,尤其涉及一种用于获取失序文本中的目标字符串的方法与设备。
技术介绍
在网络论坛中,经常发生用户将网络论坛禁止的诸如广告、色情、暴力、违法的信息植入到失序文本中,例如竖行文本、斜行文本等,并能够成功地将该失序文本提交至网络论坛,从而达到发布禁止信息的目的,因为现有技术主要能够识别并过滤正常排列顺序的文本中的上述禁止信息,但对失序文本中的禁止信息却不能有效识别。因此,如何有效识别失序文本中的包含该禁止信息的目标字符串成为亟待解决的问题。
技术实现思路
本专利技术的目的是提供一种用于获取失序文本中的目标字符串的方法与设备。根据本专利技术的一个方面,提供一种用于获取失序文本中的目标字符串的方法,其中,该方法包括以下步骤:a获取待处理的失序文本;b对所述失序文本中的字符进行排列组合,获取与所述失序文本相对应的一个或多个字符序列;c根据所述一个或多个字符序列,在目标模式库进行匹配查询,以获得所述失序文本中的目标字符串。根据本专利技术的一个方面,提供一种用于获取失序文本中的目标字符串的设备,其中,该设备包括:文本获取装置,用于获取待处理的失序文本;排列组合装置,用于对所述失序文本中的字符进行排列组合,获取与所述失序文本相对应的一个或多个字符序列;匹配查询装置,用于根据所述一个或多个字符序列,在目标模式库进行匹配查询,以获得所述失序文本中的目标字符串。与现有技术相比,本专利技术通过对失序文本中的字符进行排列组合,并将其结果在目标模式库中进行匹配查询,以获得所述失序文本中的包含禁止信息的目标字符串,从而有效识别失序文本中的禁止信息,由此增强系统应用过滤禁止信息的能力。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1示出根据本专利技术一个方面用于获取失序文本中的目标字符串的设备示意图;图2示出根据本专利技术一个优选实施例的用于获取失序文本中的目标字符串的设备示意图;图3示出根据本专利技术另一个方面用于获取失序文本中的目标字符串的方法流程图;图4示出根据本专利技术一个优选实施例的用于获取失序文本中的目标字符串的方法流程图。附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式下面结合附图对本专利技术作进一步详细描述。图1示出根据本专利技术一个方面用于获取失序文本中的目标字符串的设备示意图。失序文本处理设备1包括文本获取装置11、排列组合装置12和匹配查询装置13。在此,失序文本处理设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(CloudComputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。具体地,文本获取装置11获取待处理的失序文本。更具体地,文本获取装置11定期或应事件触发实时地获取待处理的失序文本,例如通过实时监听用户通过用户设备提交的失序文本提交请求,以获取用户输入的失序文本,或者定期地通过约定的通信方式直接从第三方设备读取该失序文本。在此,所述“失序文本”意指非正常地按照人们通常阅读的顺序书写,但人们能够识别的失序有规律的文字内容,包括但不限于竖行文本,斜行文本,S行文本等。例如,假设失序文本处理设备1为网络论坛服务器,用户通过用户设备在网络论坛网页的输入界面输入一段竖行文本信息,然后,用户设备将该信息作为论坛发帖包装成http请求并通过http通信协议提交到失序文本处理设备1的文本获取装置11,接着,文本获取装置11通过实时监听用户消息,接收并解析该http请求,获取其中的竖行文本信息。再如,文本获取装置11按一定周期,定期地通过调用设定的应用编程接口(API)向第三方设备发送获取失序文本的请求,并接收该第三方设备基于该请求返回的竖行文本的文档。本领域技术人员应能理解上述获取失序文本的方式仅为举例,其他现有的或今后可能出现的获取失序文本的方式如可适用于本专利技术,也应包含在本专利技术保护范围以内,并在此以引用方式包含于此。随后,排列组合装置12对所述失序文本中的字符进行排列组合,获取与所述失序文本相对应的一个或多个字符序列。具体地,排列组合装置12根据文本获取装置11提供的失序文本,例如通过对该失序文本中的字符依次设置相应的索引,并对该索引进行排列组合,以获得与该失序文本相对应的一个或多个字符序列,或者生成行列数与该失序文本的行列数相同的字符矩阵,并将该失序文本中的每个字符映射到该矩阵对应位置的字符元素,通过对该字符矩阵进行矩阵运算实现对失序文本的排列组合,进而获得与该失序文本相对应的一个或多个字符序列。例如,排列组合装置12根据文本获取装置11提供的失序文本:快办##速证将该失序文本中的每个字符按照从左到右、从上到下的顺序依次建立索引,如字符‘快’索引为1、字符‘办’索引为2、字符‘速’索引为5、字符‘证’索引为6,排列组合装置12通过对索引1至6进行全排列组合,并根据索引的排列组合,将索引映射为其相对应的字符,以获得与该失序文本相对应的一个或多个字符序列,如索引组合“123”所对应的字符序列为“快办#”、索引组合“26”所对应的字符序列为“办证”、索引组合“15”所对应的字符序列为“快速”。再如,排列组合装置12根据文本获取装置11提供的9行2列的失序文本:×a×b减@肥1茶2特·价c促o销m生成与该失序文本具有相同行列数的9x2阶字符矩阵A,并将该失序文本中的每个字符映射到该字符矩阵对应位置的字符元素,如:排列组合装置12对字符矩阵A进行矩阵转置运算,获得转置矩阵A′:并将A′中每行元素映射为与该失序文本相对应的一个字符序列,如字符序列“××减肥茶特价促销”和“ab@12.com”。本领域技术人员应能理解上述获取字符序列的方式仅为举例,其他现有的或今后可能出现的获取字符序列的方式如可适用于本专利技术,也应包含在本专利技术保护范围以内,并在此以引用方式包含于此。接着,匹配查询装置13根据所述一个或多个字符序列,在目标模式库进行匹配查询,以获得所述失序文本中的目标字符串。具体地,匹配查询装置13根据排列组合装置12所获得的一个或多个字符序列,例如将每个字符序列依次在目标模式库中进行字符串匹配查询或正则表达式匹配查询,若该字符序列与目标模式库中的内容相匹配时,则该字符序列为该失序文本中的目标字符串,并据此获得该失序文本中的一个或多个目标字符串。在此,所述“目标模式库”用于存储目标字符串及目标字符串的正则表达式,该目标模式库包括但不限于关系数据库,内存存储器,硬盘存储器等。在此,所述“目标字符串”包括但不限于电话号码、电子邮件地址、网站URL等。例如,假设与失序文本相对应的多个字符序列中包括字符序列“办证”,匹配查询装置13通过将其在目标模式库中进行匹配查询,确定该字符序列与该目标模式库中的字符串“办证”相匹配,由此获得该字符序列为该失序文本中的目标字符串。再如,假设与失序文本相对应的多个字符序列中包括字符序列“ab@12.com”,匹配查询装置13通过将其在目标模式库中进行匹配查询,确定该字符序列与该目标模式库中的正则表达式“/^\w+((-\w+)|(\.\w+))*\@本文档来自技高网...
一种用于获取失序文本中的目标字符串的方法与设备

【技术保护点】
一种计算机实现的用于获取失序文本中的目标字符串的方法,其中,该方法包括以下步骤:a获取待处理的失序文本;b对所述失序文本中的字符进行排列组合,获取与所述失序文本相对应的一个或多个字符序列;c根据所述一个或多个字符序列,在目标模式库进行匹配查询,以获得所述失序文本中的目标字符串。

【技术特征摘要】
1.一种计算机实现的用于获取失序文本中的目标字符串的方法,其中,该方法包括以下步骤:a获取待处理的失序文本;b根据所述失序文本,生成与所述失序文本相对应的字符矩阵,其中,所述失序文本中的每一个字符对应于所述字符矩阵中对应位置的字符元素;对所述字符矩阵通过矩阵运算进行所述字符元素的排列组合,获取与所述失序文本相对应的一个或多个字符序列;c根据所述一个或多个字符序列,在目标模式库进行匹配查询,以获得所述失序文本中的目标字符串。2.根据权利要求1所述的方法,其中,所述步骤b还包括:-根据预设的失序文本类型,对所述字符矩阵通过与所述失序文本类型相对应的矩阵运算进行所述字符元素的排列组合,以获得所述一个或多个字符序列。3.根据权利要求2所述的方法,其中,所述失序文本类型包括以下至少任一项:-竖行文本;-斜行文本;-S行文本。4.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:-根据预置的筛选规则,从所述一个或多个字符序列中选择一个或多个优选字符序列;其中,所述步骤c还包括:-根据所述一个或多个优选字符序列,在所述目标模式库进行匹配查询,以获得所述目标字符串。5.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:-按照预设的预处理规则对所述失序文本进行预处理,获得预处理文本;其中,所述步骤b还包括:-对所述预处理文本中的字符进行排列组合,获取与所述预处理文本相对应的一个或多个字符序列。6.根据权利要求5所述的方法,其中,所述预处理规则基于以下至少任一项对所述失序文本进行预处理:-滤除所述失序文本中的特定字符;-将所述失序文本中的异型文字转化为正常文字;-将所述失序文本中的半角文字转换为全角文字。7.根据权利要求1至3中任一项所述的方法,其中,所述步骤c还包括:-根据所述一个或多个字符序列,基于以下至少任一项方式,在目标模式库进行匹配查询,以获得所述目标字符串:-字符串匹配;-正则表达式匹配。8.根据权利要求1至3中任一项所述的方法,其中,所述目标字符串包括以下至少任一项:-电话号码;-互联网地址;-电子邮箱地址;-即时通信账号。9.根据权利要求1至3中任一项所述的方法,其中,所述步骤a还包括:-获取用户通过用户设备提交的待处理的所述失序文本;其中,该方法还包括:r根据所述目标字符串对所述失序文本进行后处理,以获得与所述失序文本相对应的后处理文本;-将所述后处理文本提供给所述用户设备。10.根据权利要求9所述的方法,其中,所述步骤r还包括:-根据所述目标字符串,结合用户相关信息,对所述失序文本进行后处理,以获得与所述失序文本相对应的后处理文本。11.根据权利要求10所述的方法,其中,所述用户相关信息包括以下至少任一项:-用户历史行为记录;-用户属性;-用户设备的地址。12.一种用于获取失序文本中的目标字符串的设备,其中,该设备包括:文本获...

【专利技术属性】
技术研发人员:李彦宏舒迅方勇王波徐文涛
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1