【技术实现步骤摘要】
一种用于获取失序文本中的目标字符串的方法与设备
本专利技术涉及计算机
,尤其涉及一种用于获取失序文本中的目标字符串的方法与设备。
技术介绍
在网络论坛中,经常发生用户将网络论坛禁止的诸如广告、色情、暴力、违法的信息植入到失序文本中,例如竖行文本、斜行文本等,并能够成功地将该失序文本提交至网络论坛,从而达到发布禁止信息的目的,因为现有技术主要能够识别并过滤正常排列顺序的文本中的上述禁止信息,但对失序文本中的禁止信息却不能有效识别。因此,如何有效识别失序文本中的包含该禁止信息的目标字符串成为亟待解决的问题。
技术实现思路
本专利技术的目的是提供一种用于获取失序文本中的目标字符串的方法与设备。根据本专利技术的一个方面,提供一种用于获取失序文本中的目标字符串的方法,其中,该方法包括以下步骤:a获取待处理的失序文本;b对所述失序文本中的字符进行排列组合,获取与所述失序文本相对应的一个或多个字符序列;c根据所述一个或多个字符序列,在目标模式库进行匹配查询,以获得所述失序文本中的目标字符串。根据本专利技术的一个方面,提供一种用于获取失序文本中的目标字符串的设备,其中,该设备包括:文本获取装置,用于获取待处理的失序文本;排列组合装置,用于对所述失序文本中的字符进行排列组合,获取与所述失序文本相对应的一个或多个字符序列;匹配查询装置,用于根据所述一个或多个字符序列,在目标模式库进行匹配查询,以获得所述失序文本中的目标字符串。与现有技术相比,本专利技术通过对失序文本中的字符进行排列组合,并将其结果在目标模式库中进行匹配查询,以获得所述失序文本中的包含禁止信息的目标字符串,从 ...
【技术保护点】
一种计算机实现的用于获取失序文本中的目标字符串的方法,其中,该方法包括以下步骤:a获取待处理的失序文本;b对所述失序文本中的字符进行排列组合,获取与所述失序文本相对应的一个或多个字符序列;c根据所述一个或多个字符序列,在目标模式库进行匹配查询,以获得所述失序文本中的目标字符串。
【技术特征摘要】
1.一种计算机实现的用于获取失序文本中的目标字符串的方法,其中,该方法包括以下步骤:a获取待处理的失序文本;b根据所述失序文本,生成与所述失序文本相对应的字符矩阵,其中,所述失序文本中的每一个字符对应于所述字符矩阵中对应位置的字符元素;对所述字符矩阵通过矩阵运算进行所述字符元素的排列组合,获取与所述失序文本相对应的一个或多个字符序列;c根据所述一个或多个字符序列,在目标模式库进行匹配查询,以获得所述失序文本中的目标字符串。2.根据权利要求1所述的方法,其中,所述步骤b还包括:-根据预设的失序文本类型,对所述字符矩阵通过与所述失序文本类型相对应的矩阵运算进行所述字符元素的排列组合,以获得所述一个或多个字符序列。3.根据权利要求2所述的方法,其中,所述失序文本类型包括以下至少任一项:-竖行文本;-斜行文本;-S行文本。4.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:-根据预置的筛选规则,从所述一个或多个字符序列中选择一个或多个优选字符序列;其中,所述步骤c还包括:-根据所述一个或多个优选字符序列,在所述目标模式库进行匹配查询,以获得所述目标字符串。5.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:-按照预设的预处理规则对所述失序文本进行预处理,获得预处理文本;其中,所述步骤b还包括:-对所述预处理文本中的字符进行排列组合,获取与所述预处理文本相对应的一个或多个字符序列。6.根据权利要求5所述的方法,其中,所述预处理规则基于以下至少任一项对所述失序文本进行预处理:-滤除所述失序文本中的特定字符;-将所述失序文本中的异型文字转化为正常文字;-将所述失序文本中的半角文字转换为全角文字。7.根据权利要求1至3中任一项所述的方法,其中,所述步骤c还包括:-根据所述一个或多个字符序列,基于以下至少任一项方式,在目标模式库进行匹配查询,以获得所述目标字符串:-字符串匹配;-正则表达式匹配。8.根据权利要求1至3中任一项所述的方法,其中,所述目标字符串包括以下至少任一项:-电话号码;-互联网地址;-电子邮箱地址;-即时通信账号。9.根据权利要求1至3中任一项所述的方法,其中,所述步骤a还包括:-获取用户通过用户设备提交的待处理的所述失序文本;其中,该方法还包括:r根据所述目标字符串对所述失序文本进行后处理,以获得与所述失序文本相对应的后处理文本;-将所述后处理文本提供给所述用户设备。10.根据权利要求9所述的方法,其中,所述步骤r还包括:-根据所述目标字符串,结合用户相关信息,对所述失序文本进行后处理,以获得与所述失序文本相对应的后处理文本。11.根据权利要求10所述的方法,其中,所述用户相关信息包括以下至少任一项:-用户历史行为记录;-用户属性;-用户设备的地址。12.一种用于获取失序文本中的目标字符串的设备,其中,该设备包括:文本获...
【专利技术属性】
技术研发人员:李彦宏,舒迅,方勇,王波,徐文涛,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。