【技术实现步骤摘要】
基于数据传输流控制的信息处理方法及系统
[0001]本申请涉及大数据、人工智能领域,具体而言,涉及一种基于数据传输流控制的信息处理方法及系统。
技术介绍
[0002]在互联网、物联网等应用场景中,个性化服务、用户体验提升、智能分析、事中决策等复杂的业务需求对大数据处理技术提出了更高的要求。为了满足这些需求,大数据处理系统必须在毫秒级甚至微秒级的时间内返回处理结果。如此,出现了流式数据(或称实时大数据)的概念,在对流式数据进行数据挖掘时,同样离不开大数据前置处理过程,例如对流式数据进行扰动信息的去除,以保证后续数据分析的准确性。可以理解,针对流式数据,因为其实时性的特点,对时效性提出了要求,那么前置处理过程的耗时不宜过长,如何提高流式数据清洗的效率是需要考虑的技术课题。
技术实现思路
[0003]本专利技术的目的在于提供一种基于数据传输流控制的信息处理方法及系统,以提高流式数据清洗的效率和准确性。
[0004]为了达到上述目的,本申请实施例是这样实现的:本申请实施例第一方面提供了一种基于数据传输流控制的信息处理方法,应用于信息处理系统,所述方法包括:获取用户大数据流式日志,并依据所述用户大数据流式日志,通过数据分组网络进行多次分组直至符合设定的要求,其中,每次分组包括如下处理流程:对所述用户大数据流式日志中的多组用户流式数据各自采取数据量化,依据量化结果获取对应的多个用户行为知识字段,并获取知识表达误差结果;对所述多个用户行为知识字段进行分组,并依据分组结果确定分组误差结果;依据所述知识表达误差 ...
【技术保护点】
【技术特征摘要】
1.一种基于数据传输流控制的信息处理方法,其特征在于,应用于信息处理系统,所述方法包括:获取用户大数据流式日志,并依据所述用户大数据流式日志,通过数据分组网络进行多次分组直至符合设定的要求,其中,每次分组包括如下处理流程:对所述用户大数据流式日志中的多组用户流式数据各自采取数据量化,依据量化结果获取对应的多个用户行为知识字段,并获取知识表达误差结果;对所述多个用户行为知识字段进行分组,并依据分组结果确定分组误差结果;依据所述知识表达误差结果和所述分组误差结果在所述数据分组网络没有满足预设要求时,优化所述数据分组网络的网络系数;输出末次分组得到的分组结果涵盖的多个分组代表知识字段,每一所述分组代表知识字段均指向相应的用户行为分类;依据每一所述分组代表知识字段对所述用户大数据流式日志中的用户数据进行分组,得到P个流式数据组;其中,P为所述分组代表知识字段的数量且P为大于或等于1的正整数;将所述用户大数据流式日志中,孤立于所述P个流式数据组外的数据进行清除。2.根据权利要求1所述的方法,其特征在于,对所述用户大数据流式日志中的多组用户流式数据各自采取数据量化,依据量化结果获取对应的多个用户行为知识字段,包括:对于所述多组用户流式数据,各自采取一次或多次知识字段挖掘,获取对应的初始知识字段;分别对得到的各个初始知识字段进行知识提炼,获得所述多组用户流式数据各自对应的用户行为知识字段;在依据所述用户大数据流式日志,通过数据分组网络进行多次分组之前,所述方法还包括:依据所述用户大数据流式日志确定多个用户流式数据子集,每个用户流式数据子集包括至少两组用户流式数据和所述至少两组用户流式数据之间的共性评分标签;所述确定知识表达误差结果,包括:对于所述多个用户流式数据子集,均进行如下处理流程:依据所述多个用户流式数据子集中的一个用户流式数据子集包括的至少两组用户流式数据的用户行为知识字段,确定所述至少两组用户流式数据之间的共性评分推理结果,并将得到的共性评分推理结果与相应的共性评分标签进行误差计算,获取对应的误差计算结果;通过对所述多组用户流式数据子集得到的各个误差计算结果,确定所述知识表达误差结果。3.根据权利要求1所述的方法,其特征在于,在依据所述用户大数据流式日志,通过数据分组网络进行多次分组之前,所述方法还包括:依据所述用户大数据流式日志确定多个用户流式数据子集,每个用户流式数据子集包括第一用户流式数据、第二用户流式数据和第三用户流式数据,且每个用户流式数据子集中所述第一用户流式数据与所述第二用户流式数据之间的共性评分大于或等于预设的共性评分参考值,以及所述第一用户流式数据与所述第三用户流式数据之间的共性评分小于所述共性评分参考值;所述确定知识表达误差结果,包括:对于所述多个用户流式数据子集,均进行如下处理流程:在一个或多个所述用户流式数据子集中的一个用户流式数据子集中,获取所述第一用户流式数据与所述第二用户流式数据之间的第一共性评分,以及获取所述第一用户流式数据与所述第三用户流式数据之间的第二共性评分,并依据所述第一共性评分和所述第二共性评分,获得所述用户流式数据子集对应的预设误差结果;依据得到的多组用户流式数
据子集各自对应的预设误差结果,获得所述知识表达误差结果。4.根据权利要求3所述的方法,其特征在于,所述对所述多个用户行为知识字段进行分组,包括:在所述多个用户行为知识字段中,筛选所述多个用户流式数据子集中第一用户流式数据与第三用户流式数据对应的一个或多个用户行为知识字段;对一个或多个所述用户行为知识字段进行分组;所述对所述多个用户行为知识字段进行分组,并通过分组结果确定分组误差结果,包括:对于所述多个用户行为知识字段,均进行如下处理流程:将所述多个用户行为知识字段中的每一个用户行为知识字段分别关联至各个用户行为分类,获取对应的用户行为分类字段表;其中,所述用户行为分类字段表中的每个组元匹配一个用户行为分类,每个组元的对应数值指示所述用户行为知识字段对应的用户流式数据可否归纳到相应用户行为分类;将所述用户行为分类字段表,与前一次分组中对于所述用户行为知识字段对应的用户流式数据确定的用户行为分类字段表进行误差计算,获得误差计算结果;依据对于所述多个用户行为知识字段得到的多个误差计算结果,确定所述分组误差结果。5.根据权利要求4所述的方法,其特征在于,在依据对于所述多个用户行为知识字段得到的多个误差计算结果,确定所述分组误差结果之前,所述方法还包括:在所述多个用户行为知识字段中,筛选所述多个用户流式数据子集中第一用户流式数据与第三用户流式数据对应的一个或多个用户行为...
【专利技术属性】
技术研发人员:莫峰华,李嘉斌,杨超文,赖仕年,徐道广,
申请(专利权)人:航科广软广州数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。