【技术实现步骤摘要】
数据处理方法、数据处理系统、电子设备和可读存储介质
[0001]本申请属于数据处理
,具体涉及一种数据处理方法、数据处理系统、电子设备和可读存储介质。
技术介绍
[0002]在文本分析中,采用词频分析方法统计词汇的词频,从而通过词频来评估一个词汇对于一个文件的重要程度。但是,相关技术中的词频分析方法,存在数据读取速度慢、由于在磁盘中读写中间结果而降低计算速度等问题。当文本数据出现指数级增长时,不能保证词频统计工作在周期时间内正常完成。
技术实现思路
[0003]本申请实施例的目的是提供一种数据处理方法、数据处理系统、电子设备和可读存储介质,能够解决相关技术中的词频分析方案无法使计算任务正常完成的问题。
[0004]第一方面,本申请实施例提供了一种数据处理方法,用于数据处理系统,数据处理系统包括内存模块、调度节点和多个计算节点,该数据处理方法包括:
[0005]调度节点获取待执行任务的查询语句,并对查询语句进行划分,得到多个查询语句分片;
[0006]调度节点将多个查询语句分片分发
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,用于数据处理系统,所述数据处理系统包括内存模块、调度节点和多个计算节点,所述数据处理方法包括:所述调度节点获取待执行任务的查询语句,并对所述查询语句进行划分,得到多个查询语句分片;所述调度节点将多个所述查询语句分片分发至多个所述计算节点;所述计算节点根据所述查询语句分片读取查询数据,对所述查询数据进行分词操作得到多个分词结果,并统计所述分词结果中的第一关键词的第一词频信息,以及将所述第一词频信息存储至内存模块;在多个所述计算节点统计的所述第一词频信息均存储至所述内存模块后,所述计算节点将所述内存模块中的所述第一词频信息进行合并,生成第二词频信息;所述计算节点将所述第二词频信息存储至目标存储器。2.根据权利要求1所述的数据处理方法,其特征在于,所述对所述查询语句进行划分,得到多个查询语句分片的步骤,包括:获取多个所述计算节点的节点数量;根据所述节点数量以及所述查询语句对应的查询时间段,对所述查询语句进行划分,得到多个查询语句分片。3.根据权利要求2所述的数据处理方法,其特征在于,所述根据所述节点数量以及所述查询语句对应的查询时间段,对所述查询语句进行划分,得到多个查询语句分片的步骤,包括:按照所述节点数量,对所述查询语句对应的查询时间段进行平均划分,从而将所述查询语句划分为多个所述查询语句分片;其中,每个所述计算节点对应的所述查询语句分片的数量相等。4.根据权利要求1所述的数据处理方法,其特征在于,所述计算节点根据所述查询语句分片读取查询数据的步骤,包括:所述计算节点根据所述查询语句分片,从ClickHouse存储器中读取所述查询数据。5.根据权利要求1所述的数据处理方法,其特征在于,所述将所述第一词频信息存储至内存模块的步骤,包括:将所述第一词频信息按照WordSet的形式,存储至所述内存模块。6.根据权利要求1至5中任一项所述的数据处理方法,其特征在于,还包括:所述计算节点统计所述分词结果中的第二关键词在第i
‑
1个查询时间段的第三词频信息以及在第i个查询时间段的第四词频信息,并将所述第三词频信息和所述第四词频信息按照预设格式,形成第五词频信息,其中,i为大于或等于2的正整数;所述计算节点将所述第五词频信息存储至所述内存模块;在多个所述计算节点统计的所述第五词频信息均存储至所述内存模块后,所述计算节点将所述内存模块中所述第五词频信息进行合并,生成第六词频信息;所述计算节点根据所述第六词频信息,计算所述第二关键词的词频增长率。...
【专利技术属性】
技术研发人员:徐照淼,马斌山,曹铭斌,马国俊,
申请(专利权)人:北京字跳网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。