一种文本信息的处理方法及装置制造方法及图纸

技术编号:21629125 阅读:36 留言:0更新日期:2019-07-17 11:09
本发明专利技术公开了一种文本信息的处理方法及装置,用以解决现有技术中文本信息的过滤方法不灵活,导致文本信息过滤的错误率较高的问题。在该方法中,信息处理系统获取用户的文本信息后,将所述文本信息与预设的语义关键词进行匹配;当所述信息处理系统确定所述文本信息与所述语义关键词匹配成功时,所述信息处理系统确定在设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数,并根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。这样所述信息处理系统不是在匹配成功后直接进行过滤,同时并不需要设置更多的语义关键词,使得对文本信息的处理更加灵活的同时可以降低文本信息过滤的错误率。

A Text Information Processing Method and Device

【技术实现步骤摘要】
一种文本信息的处理方法及装置
本专利技术涉及通信
,尤其涉及一种文本信息的处理方法及装置。
技术介绍
随着通信技术的不断发展,用户通过网络互相发送信息已经为普遍现象,随之而来的是网络中会存在大量不良信息,其中文本信息是信息存在的多种形式中的最常见的一种,因此,对文本信息的监控和过滤已经成为普遍需求,进而引入了文本过滤系统对文本信息进行过滤处理,从而保障网络环境的安全。目前,文本过滤系统过滤文本信息的基本流程为:文本过滤系统获取到文本信息后,将所述文本信息与预先定义的语义关键词进行匹配,当匹配成功时,则说明所述文本信息为需要过滤的信息,进而对所述文本信息进行过滤处理。但是由于语言表达形式多种多样,仅通过上述方法过滤文本信息时通常会造成对正常的文本消息错误拦截或者对不良的文本信息的漏拦截,进而导致过滤的错误率较高。为了降低过滤的错误率,需要预先定义更多的语义关键词。显然,上述方法不灵活,会导致文本信息过滤的错误率较高。
技术实现思路
本专利技术提供一种文本信息的处理方法及装置,用以解决现有技术中文本信息的过滤方法不灵活,导致文本信息过滤的错误率较高的问题。本专利技术提供的具体技术方案如下:第一方面,本专利技术实施例提供了一种文本信息的处理方法,包括:信息处理系统获取用户的文本信息;所述信息处理系统将所述文本信息与预设的语义关键词进行匹配;当所述信息处理系统确定所述文本信息与所述语义关键词匹配成功时,所述信息处理系统确定在设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数;所述信息处理系统根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。结合第一方面,在第一方面的第一种可能的实现方式中,所述设定次数阈值包括第一设定次数阈值、第二设定次数阈值和第三设定次数阈值,且所述第一设定次数阈值大于所述第二设定次数阈值,所述第二设定次数阈值大于所述第三设定次数阈值;所述信息处理系统根据所述匹配成功次数和所述设定次数阈值,对所述文本信息进行拦截指示处理,包括:当所述信息处理系统判定所述匹配成功次数大于或者等于所述第一设定次数阈值时,所述信息处理系统指示所述文本信息需要被拦截,并获取所述文本信息中包含的所述用户的用户标识,将所述用户的用户标识添加到用户标识黑名单;当所述信息处理系统判定所述匹配成功次数小于所述第一设定次数阈值,且大于或者等于所述第二设定次数阈值时,所述信息处理系统指示所述文本信息需要被拦截,并获取所述文本信息的信息标识,将所述信息标识添加到信息标识库;当所述信息处理系统判定所述匹配成功次数小于所述第二设定次数阈值,且大于或者等于所述第三设定次数阈值时,所述信息处理系统指示所述文本信息需要被拦截;当所述信息处理系统判定所述匹配成功次数小于所述第三设定阈值时,所述信息处理系统指示所述文本信息不需要被拦截。结合第一方面,在第一方面的第二种可能的实现方式中,在所述信息处理系统将所述文本信息与预设的语义关键词进行匹配之前,所述方法还包括:所述信息处理系统获取所述文本信息中包含的所述用户的用户标识,并确定所述用户标识未保存在用户标识黑名单中。结合第一方面,在第一方面的第三种可能的实现方式中,在所述信息处理系统将所述文本信息与预设的语义关键词进行匹配之前,所述方法还包括:所述信息处理系统获取所述文本信息的信息标识,并确定所述信息标识未保存在信息标识库中。结合第一方面、第一方面的第一种至第三种可能的实现方式中的任一项,在第一方面的第四种可能的实现方式中,所述方法还包括:当所述处理信息系统确定所述文本信息与所述语义关键词匹配失败时,所述处理信息系统将所述文本信息进行形近字和/或拆分字替换处理,并将处理后的文本信息与所述语义关键词进行匹配;当所述处理信息系统确定处理后的文本信息与所述语义关键词匹配成功时,所述信息处理系统确定在所述设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数;并根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。第二方面,本专利技术实施例提供了一种信息处理系统,包括:获取模块,用于获取用户的文本信息;处理模块,用于将所述文本信息与预设的语义关键词进行匹配;以及当确定所述文本信息与所述语义关键词匹配成功时,确定在设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数;并根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。结合第二方面,在第二方面的第一种可能的实现方式中,所述设定次数阈值包括第一设定次数阈值、第二设定次数阈值和第三设定次数阈值,且所述第一设定次数阈值大于所述第二设定次数阈值,所述第二设定次数阈值大于所述第三设定次数阈值;所述处理模块,在根据所述匹配成功次数和所述设定次数阈值,对所述文本信息进行拦截指示处理时,具体用于:当判定所述匹配成功次数大于或者等于所述第一设定次数阈值时,指示所述文本信息需要被拦截,并获取所述文本信息中包含的所述用户的用户标识,将所述用户的用户标识添加到用户标识黑名单;当判定所述匹配成功次数小于所述第一设定次数阈值,且大于或者等于所述第二设定次数阈值时,指示所述文本信息需要被拦截,并获取所述文本信息的信息标识,将所述信息标识添加到信息标识库;当判定所述匹配成功次数小于所述第二设定次数阈值,且大于或者等于所述第三设定次数阈值时,指示所述文本信息需要被拦截;当判定所述匹配成功次数小于所述第三设定阈值时,指示所述文本信息不需要被拦截。结合第二方面,在第二方面的第二种可能的实现方式中,在所述处理模块将所述文本信息与预设的语义关键词进行匹配之前,所述处理模块还用于:获取所述文本信息中包含的所述用户的用户标识,并确定所述用户标识未保存在用户标识黑名单中。结合第二方面,在第二方面的第三种可能的实现方式中,在所述处理模块将所述文本信息与预设的语义关键词进行匹配之前,所述处理模块还用于:获取所述文本信息的信息标识,并确定所述信息标识未保存在信息标识库中。结合第二方面、第二方面的第一种至第三种可能的实现方式中的任一项,在第二方面的第四种可能的实现方式中,所述处理模块,还用于:当确定所述文本信息与所述语义关键词匹配失败时,将所述文本信息进行形近字和/或拆分字替换处理,并将处理后的文本信息与所述语义关键词进行匹配;当确定处理后的文本信息与所述语义关键词匹配成功时,确定在所述设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数;并根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。本专利技术实施例的技术方案中,信息处理系统获取用户的文本信息后,将所述文本信息与预设的语义关键词进行匹配;当所述信息处理系统确定所述文本信息与所述语义关键词匹配成功时,所述信息处理系统确定在设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数,并根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。在该方法中,所述信息处理系统通过文本信息与语义关键词的匹配成功次数对文本信息进行拦截指示处理,而不是在匹配成功后直接进行过滤,同时并不需要设置更多的语义关键词,这样使得对文本信息的处理更加灵活的同时可以降低文本信息过滤的错误率。附图说明图1为本专利技术实施例提供的一种系统的架构图;图2为本专利技术实施例提供的一种文本信息的处理方法的流程本文档来自技高网...

【技术保护点】
1.一种文本信息的处理方法,其特征在于,包括:信息处理系统获取用户的文本信息;所述信息处理系统将所述文本信息与预设的语义关键词进行匹配;当所述信息处理系统确定所述文本信息与所述语义关键词匹配成功时,所述信息处理系统确定在设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数;所述信息处理系统根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。

【技术特征摘要】
1.一种文本信息的处理方法,其特征在于,包括:信息处理系统获取用户的文本信息;所述信息处理系统将所述文本信息与预设的语义关键词进行匹配;当所述信息处理系统确定所述文本信息与所述语义关键词匹配成功时,所述信息处理系统确定在设定时长内所述用户的文本信息与所述语义关键词的匹配成功次数;所述信息处理系统根据所述匹配成功次数与设定次数阈值,对所述文本信息进行拦截指示处理。2.如权利要求1所述的方法,其特征在于,所述设定次数阈值包括第一设定次数阈值、第二设定次数阈值和第三设定次数阈值,且所述第一设定次数阈值大于所述第二设定次数阈值,所述第二设定次数阈值大于所述第三设定次数阈值;所述信息处理系统根据所述匹配成功次数和所述设定次数阈值,对所述文本信息进行拦截指示处理,包括:当所述信息处理系统判定所述匹配成功次数大于或者等于所述第一设定次数阈值时,所述信息处理系统指示所述文本信息需要被拦截,并获取所述文本信息中包含的所述用户的用户标识,将所述用户的用户标识添加到用户标识黑名单;当所述信息处理系统判定所述匹配成功次数小于所述第一设定次数阈值,且大于或者等于所述第二设定次数阈值时,所述信息处理系统指示所述文本信息需要被拦截,并获取所述文本信息的信息标识,将所述信息标识添加到信息标识库;当所述信息处理系统判定所述匹配成功次数小于所述第二设定次数阈值,且大于或者等于所述第三设定次数阈值时,所述信息处理系统指示所述文本信息需要被拦截;当所述信息处理系统判定所述匹配成功次数小于所述第三设定阈值时,所述信息处理系统指示所述文本信息不需要被拦截。3.如权利要求1所述的方法,其特征在于,在所述信息处理系统将所述文本信息与预设的语义关键词进行匹配之前,所述方法还包括:所述信息处理系统获取所述文本信息中包含的所述用户的用户标识,并确定所述用户标识未保存在用户标识黑名单中。4.如权利要求1所述的方法,其特征在于,在所述信息处理系统将所述文本信息与预设的语义关键词进行匹配之前,所述方法还包括:所述信息处理系统获取所述文本信息的信息标识,并确定所述信息标识未保存在信息标识库中。5.如权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:当所述处理信息系统确定所述文本信息与所述语义关键词匹配失败时,所述处理信息系统将所述文本信息进行形近字和/或拆分字替换处理,并将处理后的文本信息与所述语义关键词进行匹配;当所述处理信息系统确定处理后的文本信息与所述语义关键词匹配成功时,所述信息处理系统确定在所述设定时长内所述用...

【专利技术属性】
技术研发人员:田园
申请(专利权)人:中移杭州信息技术有限公司中国移动通信集团公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1