数据处理方法、数据处理系统、电子设备和可读存储介质技术方案

技术编号:37345738 阅读:13 留言:0更新日期:2023-04-22 21:39
本申请公开了一种数据处理方法、数据处理系统、电子设备和可读存储介质。该数据处理方法用于数据处理系统,数据处理系统包括内存模块、调度节点和多个计算节点,该方法包括:调度节点获取待执行任务的查询语句,并对查询语句进行划分,得到多个查询语句分片;调度节点将多个查询语句分片分发至多个计算节点;计算节点根据查询语句分片读取查询数据,对查询数据进行分词操作得到多个分词结果,并统计分词结果中的第一关键词的第一词频信息,以及将第一词频信息存储至内存模块;在多个计算节点统计的第一词频信息均存储至内存模块后,计算节点将内存模块中的第一词频信息进行合并,生成第二词频信息;计算节点将第二词频信息存储至目标存储器。标存储器。标存储器。

【技术实现步骤摘要】
数据处理方法、数据处理系统、电子设备和可读存储介质


[0001]本申请属于数据处理
,具体涉及一种数据处理方法、数据处理系统、电子设备和可读存储介质。

技术介绍

[0002]在文本分析中,采用词频分析方法统计词汇的词频,从而通过词频来评估一个词汇对于一个文件的重要程度。但是,相关技术中的词频分析方法,存在数据读取速度慢、由于在磁盘中读写中间结果而降低计算速度等问题。当文本数据出现指数级增长时,不能保证词频统计工作在周期时间内正常完成。

技术实现思路

[0003]本申请实施例的目的是提供一种数据处理方法、数据处理系统、电子设备和可读存储介质,能够解决相关技术中的词频分析方案无法使计算任务正常完成的问题。
[0004]第一方面,本申请实施例提供了一种数据处理方法,用于数据处理系统,数据处理系统包括内存模块、调度节点和多个计算节点,该数据处理方法包括:
[0005]调度节点获取待执行任务的查询语句,并对查询语句进行划分,得到多个查询语句分片;
[0006]调度节点将多个查询语句分片分发至多个计算节点;
[0007]计算节点根据查询语句分片读取查询数据,对查询数据进行分词操作得到多个分词结果,并统计分词结果中的第一关键词的第一词频信息,以及将第一词频信息存储至内存模块;
[0008]在多个计算节点统计的第一词频信息均存储至内存模块后,计算节点将内存模块中的第一词频信息进行合并,生成第二词频信息;
[0009]计算节点将第二词频信息存储至目标存储器。
>[0010]第二方面,本申请实施例提供了一种数据处理系统,包括内存模块、调度节点和多个计算节点;
[0011]其中,调度节点用于:获取待执行任务的查询语句,并对查询语句进行划分,得到多个查询语句分片,以及将多个查询语句分片分发至多个计算节点;
[0012]计算节点用于:根据查询语句分片读取查询数据,对查询数据进行分词操作得到多个分词结果,统计分词结果中的第一关键词的第一词频信息,并将第一词频信息存储至内存模块,以及在多个计算节点统计的第一词频信息均存储至内存模块后,将内存模块中的第一词频信息进行合并,生成第二词频信息,并将第二词频信息存储至目标存储器。
[0013]第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面的方法的步骤。
[0014]第四方面,本申请实施例提供了一种可读存储介质,可读存储介质上存储程序或
指令,程序或指令被处理器执行时实现如第一方面的方法的步骤。
[0015]第五方面,本申请实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面的方法。
[0016]在本申请实施例中,数据处理系统包括内存模块、调度节点、多个计算节点以及客户端,客户端接收用户输入的对待执行任务的查询语句,调度节点获取该查询语句,并将该查询语句进行划分,生成多个查询语句分片。调度节点进而将每一个查询语句分片对应发送至计算节点,利用该计算节点完成数据读取和词频计算的任务。具体地,在该计算节点上,根据查询语句分片读取查询数据,然后根据用户在客户端输入的具体的分词算法对读取到的查询数据进行分词操作,得到多个分词结果,分词结果包括多个关键词,统计分词结果中的第一关键词的第一词频信息,并将第一词频信息存储在内存模块中。需要说明的是,进行分词操作后得到第一关键词计算节点可以为一个或多个,则在该一个或多个计算节点均进行词频统计后,统计到的第一关键词的第一词频信息均被存储至内存模块中。进一步地,将内存模块中存储的第一词频信息进行合并汇总,得到第一关键词的第二词频信息,并将第二词频信息存储至目标存储器(即Mysql)。通过上述方式,一方面,通过查询语句分片的形式读取查询数据,并将查询数据读入不同计算节点,从而提高了数据的读取效率。另一方面,词频统计结果内存化,使得计算节点可以根据关键词远程读取数据,避免词频统计结果写回磁盘造成的时间开销,提高了计算速度。
附图说明
[0017]图1是本申请实施例的数据处理方法的流程示意图;
[0018]图2是本申请实施例的数据处理系统的示意框图;
[0019]图3是本申请实施例的数据处理系统的系统架构图;
[0020]图4是本申请实施例的词频计算的逻辑示意图之一;
[0021]图5是本申请实施例的词频计算的逻辑示意图之二;
[0022]图6是本申请实施例的电子设备的示意框图之一;
[0023]图7是本申请实施例的电子设备的示意框图之二。
具体实施方式
[0024]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
[0025]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
[0026]下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的数据处理方法、数据处理系统、电子设备和可读存储介质进行详细地说明。
[0027]本申请实施例提供一种数据处理方法,用于数据处理系统,数据处理系统包括内
存模块、调度节点和多个计算节点,如图1所示,该数据处理方法包括:
[0028]步骤102,调度节点获取待执行任务的查询语句,并对查询语句进行划分,得到多个查询语句分片;
[0029]步骤104,调度节点将多个查询语句分片分发至多个计算节点;
[0030]步骤106,计算节点根据查询语句分片读取查询数据,对查询数据进行分词操作得到多个分词结果,并统计分词结果中的第一关键词的第一词频信息,以及将第一词频信息存储至内存模块;
[0031]步骤108,在多个计算节点统计的第一词频信息均存储至内存模块后,计算节点将内存模块中的第一词频信息进行合并,生成第二词频信息;
[0032]步骤110,计算节点将第二词频信息存储至目标存储器。
[0033]在该实施例中,数据处理系统包括内存模块、调度节点、多个计算节点以及客户端,客户端接收用户输入的对待执行任务的查询语句,调度节点获取该查询语句,并将该查询语句进行划分,生成多个查询语句分片。调度节点进而将每一个查询语句分片对应发送至计算节点,利用该计算节点完成数据读取和词频计算的任务。具体地,在该计算节点上,根据查询语句分片读取查询数据,然后根据用户在客户端输入的具体的分词算法对读取到的查本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,用于数据处理系统,所述数据处理系统包括内存模块、调度节点和多个计算节点,所述数据处理方法包括:所述调度节点获取待执行任务的查询语句,并对所述查询语句进行划分,得到多个查询语句分片;所述调度节点将多个所述查询语句分片分发至多个所述计算节点;所述计算节点根据所述查询语句分片读取查询数据,对所述查询数据进行分词操作得到多个分词结果,并统计所述分词结果中的第一关键词的第一词频信息,以及将所述第一词频信息存储至内存模块;在多个所述计算节点统计的所述第一词频信息均存储至所述内存模块后,所述计算节点将所述内存模块中的所述第一词频信息进行合并,生成第二词频信息;所述计算节点将所述第二词频信息存储至目标存储器。2.根据权利要求1所述的数据处理方法,其特征在于,所述对所述查询语句进行划分,得到多个查询语句分片的步骤,包括:获取多个所述计算节点的节点数量;根据所述节点数量以及所述查询语句对应的查询时间段,对所述查询语句进行划分,得到多个查询语句分片。3.根据权利要求2所述的数据处理方法,其特征在于,所述根据所述节点数量以及所述查询语句对应的查询时间段,对所述查询语句进行划分,得到多个查询语句分片的步骤,包括:按照所述节点数量,对所述查询语句对应的查询时间段进行平均划分,从而将所述查询语句划分为多个所述查询语句分片;其中,每个所述计算节点对应的所述查询语句分片的数量相等。4.根据权利要求1所述的数据处理方法,其特征在于,所述计算节点根据所述查询语句分片读取查询数据的步骤,包括:所述计算节点根据所述查询语句分片,从ClickHouse存储器中读取所述查询数据。5.根据权利要求1所述的数据处理方法,其特征在于,所述将所述第一词频信息存储至内存模块的步骤,包括:将所述第一词频信息按照WordSet的形式,存储至所述内存模块。6.根据权利要求1至5中任一项所述的数据处理方法,其特征在于,还包括:所述计算节点统计所述分词结果中的第二关键词在第i

1个查询时间段的第三词频信息以及在第i个查询时间段的第四词频信息,并将所述第三词频信息和所述第四词频信息按照预设格式,形成第五词频信息,其中,i为大于或等于2的正整数;所述计算节点将所述第五词频信息存储至所述内存模块;在多个所述计算节点统计的所述第五词频信息均存储至所述内存模块后,所述计算节点将所述内存模块中所述第五词频信息进行合并,生成第六词频信息;所述计算节点根据所述第六词频信息,计算所述第二关键词的词频增长率。...

【专利技术属性】
技术研发人员:徐照淼马斌山曹铭斌马国俊
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1