本申请实施例提供一种信息处理方法、装置、设备及存储介质。该方法包括:利用决策树分析法识别用户的日志信息,得到日志信息中的关键字;基于字符串匹配的分词方法在预设词库中对日志信息中的关键字进行匹配,得到日志信息的匹配结果;向预设判别模型输入日志信息的匹配结果,得到日志信息的判别结果。根据本申请实施例,能够解决无法对用户信息的准确性和真实性进行有效判别,也无法准确确定大量用户数据中的有效用户数据的问题。据中的有效用户数据的问题。据中的有效用户数据的问题。
【技术实现步骤摘要】
信息处理方法、装置、设备及存储介质
[0001]本申请涉及通信
,尤其涉及一种信息处理方法、装置、设备及存储介质。
技术介绍
[0002]目前,随着互联网的不断发展,业务系统需要通过网络爬虫等方式获取大量用户数据,从而利用大量用户数据为后期业务支持提供稳定的数据支撑服务,为用户提供更好的业务服务体验。然而,在业务系统获取到的用户数据中,不可避免地会存在一些准确性和真实性比较低的无效数据,例如信息不完整、数据重复或者存在特殊字符的用户信息等。
[0003]相关技术中,针对上述无效数据,业务系统仅仅依赖于业务逻辑对用户信息进行限制,而无法对用户信息的准确性和真实性进行有效判别,因此无法准确确定大量用户数据中的有效用户数据。
技术实现思路
[0004]本申请实施例提供了一种信息处理方法、装置、设备及存储介质,能够解决相关技术中无法对用户信息的准确性和真实性进行有效判别,也无法准确确定大量用户数据中的有效用户数据的问题。
[0005]第一方面,本申请实施例提供一种信息处理方法,该方法包括:利用决策树分析法识别用户的日志信息,得到日志信息中的关键字;基于字符串匹配的分词方法在预设词库中对日志信息中的关键字进行匹配,得到日志信息的匹配结果;向预设判别模型输入日志信息的匹配结果,得到日志信息的判别结果,其中,判别结果用于表征日志信息为有效信息或无效信息。
[0006]在第一方面的一些可实现方式中,在向预设判别模型输入日志信息的匹配结果,得到日志信息的判别结果之后,该方法还包括:在判别结果用于表征日志信息为无效信息的情况下,过滤日志信息。
[0007]在第一方面的一些可实现方式中,在向预设判别模型输入日志信息的匹配结果,得到日志信息的判别结果之后,该方法还包括:在预设垃圾信息数据库中查询日志信息;在预设垃圾信息数据库中未查询到日志信息,且判别结果用于表征日志信息为有效信息的情况下,保存日志信息;或者,在预设垃圾信息数据库中未查询到日志信息,且判别结果用于表征日志信息为无效信息的情况下,在预设垃圾信息数据库中存储日志信息。
[0008]在第一方面的一些可实现方式中,关键字包括用户的身份标识信息,该方法还包括:利用决策树分析法确定用户的身份标识信息的可信度;在可信度小于预设可信度阈值的情况下,过滤用户的日志信息。
[0009]在第一方面的一些可实现方式中,在利用决策树分析法对用户的日志信息进行识别之前,该方法还包括:获取用户数据;基于日志消息分析器将用户数据转化为用户的日志信息。
[0010]第二方面,本申请实施例提供一种信息处理装置,该装置包括:识别模块,用于利
用决策树分析法识别用户的日志信息,得到日志信息中的关键字;匹配模块,用于基于字符串匹配的分词方法在预设词库中对日志信息中的关键字进行匹配,得到日志信息的匹配结果;输入模块,用于向预设判别模型输入日志信息的匹配结果,得到日志信息的判别结果,其中,判别结果用于表征日志信息为有效信息或无效信息。
[0011]在第二方面的一些可实现方式中,该装置还包括:过滤模块,用于在判别结果用于表征日志信息为无效信息的情况下,过滤日志信息。
[0012]在第二方面的一些可实现方式中,该装置还包括:查询模块,用于在向预设判别模型输入日志信息的匹配结果,得到日志信息的判别结果之后,在预设垃圾信息数据库中查询日志信息;保存模块,用于在预设垃圾信息数据库中未查询到日志信息,且判别结果用于表征日志信息为有效信息的情况下,保存日志信息;或者,过滤模块,用于在预设垃圾信息数据库中未查询到日志信息,且判别结果用于表征日志信息为无效信息的情况下,在预设垃圾信息数据库中存储日志信息。
[0013]在第二方面的一些可实现方式中,关键字包括用户的身份标识信息,该装置还包括:确定模块,用于利用决策树分析法确定用户的身份标识信息的可信度;过滤模块,用于在可信度小于预设可信度阈值的情况下,过滤用户的日志信息。
[0014]在第二方面的一些可实现方式中,该装置还包括:获取模块,用于在利用决策树分析法对用户的日志信息进行识别之前,获取用户数据;转化模块,用于基于日志消息分析器将用户数据转化为用户的日志信息。
[0015]第三方面,本申请实施例提供一种信息处理设备,该设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现第一方面或者第一方面任一些可实现方式中所述的信息处理方法。
[0016]第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面或者第一方面任一些可实现方式中所述的信息处理方法。
[0017]本申请实施例提供的一种信息处理方法、装置、设备及存储介质,能够利用决策树分析法识别用户的日志信息,得到日志信息中的关键字,并基于字符串匹配的分词方法在预设词库中对日志信息中的关键字进行匹配,得到日志信息的匹配结果。在此基础上,通过向预设判别模型输入日志信息的匹配结果,可以得到日志信息的判别结果。如此,通过对用户信息的处理和分析,可以得到表征该用户信息为有效信息或无效信息的判别结果,实现对用户信息的准确性和真实性的有效判别,从而准确确定出判别结果为有效信息的有效用户数据。
附图说明
[0018]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本申请实施例提供的一种信息处理方法的流程示意图;
[0020]图2是本申请实施例提供的一种决策树的示例性示意图;
[0021]图3是本申请实施例提供的另一种信息处理方法的流程示意图;
[0022]图4是本申请实施例提供的一种信息处理装置的结构示意图;
[0023]图5是本申请实施例提供的一种信息处理设备的结构示意图。
具体实施方式
[0024]下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
[0025]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
...
【技术保护点】
【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:利用决策树分析法识别用户的日志信息,得到所述日志信息中的关键字;基于字符串匹配的分词方法在预设词库中对所述日志信息中的关键字进行匹配,得到所述日志信息的匹配结果;向预设判别模型输入所述日志信息的匹配结果,得到所述日志信息的判别结果,其中,所述判别结果用于表征所述日志信息为有效信息或无效信息。2.根据权利要求1所述的方法,其特征在于,在所述向预设判别模型输入所述日志信息的匹配结果,得到所述日志信息的判别结果之后,所述方法还包括:在所述判别结果用于表征所述日志信息为无效信息的情况下,过滤所述日志信息。3.根据权利要求1或2所述的方法,其特征在于,在所述向预设判别模型输入所述日志信息的匹配结果,得到所述日志信息的判别结果之后,所述方法还包括:在预设垃圾信息数据库中查询所述日志信息;在所述预设垃圾信息数据库中未查询到所述日志信息,且所述判别结果用于表征所述日志信息为有效信息的情况下,保存所述日志信息;或者,在所述预设垃圾信息数据库中未查询到所述日志信息,且所述判别结果用于表征所述日志信息为无效信息的情况下,在所述预设垃圾信息数据库中存储所述日志信息。4.根据权利要求1所述的方法,其特征在于,所述关键字包括所述用户的身份标识信息,所述方法还包括:利用所述决策树分析法确定所述用户的身份标识信息的可信度;在所述可信度小于预设可信度阈值的情况下,过滤所述用户的日志信息。5.根据权利要求1所述的方法,其特征在于,在利用决策树分析法对用户的日志信息进行识别之前,所述方法还包括:获取用户数据;基于日志消息分析器将所述用户数据转化为所述用户的日志信息。6.一种信息处理装置,其特征在于,包括:识别模块,用于利用决策树分析法识别用户的日志信息,得到所述日志信息中的关键字;匹配模块,用于基于字符串匹配的分词方法在预设词库中对所述日志信息中的关键字进行匹配,得到所述日志信息的匹配结果;输入模块,用于向预设判...
【专利技术属性】
技术研发人员:王宁,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。