数据同步方法及装置制造方法及图纸

技术编号:37709077 阅读:16 留言:0更新日期:2023-06-02 00:00
本申请涉及一种数据同步方法及装置。属于计算机技术领域,所述方法包括:通过高频词汇库,确定获取的各组待同步数据对应的特征数据,并根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级,根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。本方法提高了具有优先级的待同步数据写入速率,缩小了具有优先级的数据写入ElasticSearch的速率与数据从数据源读的速率的差距,进而提高了具有优先级的待同步数据的同步效率,可满足时效性较高场景的要求。求。求。

【技术实现步骤摘要】
数据同步方法及装置


[0001]本申请涉及计算机
,特别是涉及一种数据同步方法及装置。

技术介绍

[0002]ElasticSearch是一个实时的分布式存储、搜索、分析的引擎,可应用于文本检索和日志分析等搜索场景。
[0003]目前随着ElasticSearch搜索引擎的快速发展,在海量数据场景下,数据从数据源读的速率和数据写入ElasticSearch的速率是不对称的,数据写入ElasticSearch的速率远小于数据从数据源读的速率,无法满足时效性较高的场景的要求。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高数据写入速率的数据同步方法及装置。
[0005]第一方面,本申请提供了一种数据同步方法。该方法包括:
[0006]获取至少一组待同步数据;
[0007]根据高频词汇库,确定各组待同步数据对应的特征数据;
[0008]根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级;
[0009]根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。
[0010]在其中一个实施例中,根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级,包括:
[0011]通过优先级确定模型,根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级。
[0012]在其中一个实施例中,根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理,包括:
[0013]根据各组待同步数据对应的优先级,对各组待同步数据进行序列化处理,得到各组序列化同步结果;
[0014]将各组序列化同步结果划分到至少两个队列中,并同时对各队列中的各组序列化同步结果进行数据同步处理。
[0015]在其中一个实施例中,根据各组待同步数据对应的优先级,对各组待同步数据进行序列化处理,得到各组序列化同步结果,包括:
[0016]对各组待同步数据进行压缩处理,得到各组压缩数据;
[0017]根据各组待同步数据对应的优先级,为各组压缩数据添加优先级标签;
[0018]对添加有优先级标签的各组压缩数据进行序列化处理,得到各组序列化同步结果。
[0019]在其中一个实施例中,根据高频词汇库,确定各组待同步数据对应的特征数据,包
括:
[0020]根据高频词汇库中各高频词汇在每组待同步数据中出现的次数,确定每组待同步数据对应的特征数据。
[0021]在其中一个实施例中,该方法,还包括:
[0022]对历史同步数据进行分词处理,得到切分词汇;
[0023]对切分词汇进行预处理,得到筛选词汇;其中预处理包括去重和/或清洗处理;
[0024]根据筛选词汇在历史同步数据中出现的频次,从筛选词汇中确定高频词汇;
[0025]根据所述高频词汇,构建高频词汇库。
[0026]第二方面,本申请还提供了一种数据同步装置。该装置包括:
[0027]获取模块,用于获取至少一组待同步数据;
[0028]第一确定模块,用于根据高频词汇库,确定各组待同步数据对应的特征数据;
[0029]第二确定模块,用于根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级;
[0030]划分模块,用于根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。
[0031]第三方面,本申请还提供了一种计算机设备。计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
[0032]获取至少一组待同步数据;
[0033]根据高频词汇库,确定各组待同步数据对应的特征数据;
[0034]根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级;
[0035]根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。
[0036]第四方面,本申请还提供了一种计算机可读存储介质。计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0037]获取至少一组待同步数据;
[0038]根据高频词汇库,确定各组待同步数据对应的特征数据;
[0039]根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级;
[0040]根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。
[0041]第五方面,本申请还提供了一种计算机程序产品。计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0042]获取至少一组待同步数据;
[0043]根据高频词汇库,确定各组待同步数据对应的特征数据;
[0044]根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级;
[0045]根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。
[0046]上述数据同步方法及装置,通过高频词汇库,确定获取的各组待同步数据对应的特征数据,并根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级,根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各
队列中的待同步数据进行数据同步处理。本申请通过高频词汇库,确定各组待同步数据对应的特征数据,根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级;根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,通过两个队列,同时对具有优先级和不具有优先级的待同步数据同时进行数据同步处理,提高了数据写入ElasticSearch的速率,此外,由于本方案对于具有优先级的待同步数据,采用专门的队列进行数据写入,极大地提高了具有优先级的待同步数据写入速率,缩小了具有优先级的数据写入ElasticSearch的速率与数据从数据源读的速率的差距,进而也提高了具有优先级的待同步数据的同步效率,可满足时效性较高场景的要求。
附图说明
[0047]图1为本实施例提供的数据同步方法的应用环境图;
[0048]图2为本实施例提供的第一种数据同步方法的流程示意图;
[0049]图3为本实施例提供的对各组序列化同步结果进行数据同步处理的流程示意图;
[0050]图4为本实施例提供的得到各组序列化同步结果的流程示意图;
[0051]图5为本实施例提供的第二种数据同步方法的流程示意图;
[0052]图6为本实施例提供的第三种数据同步方法的流程示意图;
[0053]图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据同步方法,其特征在于,所述方法包括:获取至少一组待同步数据;根据高频词汇库,确定各组待同步数据对应的特征数据;根据所述各组待同步数据对应的特征数据,确定所述各组待同步数据对应的优先级;根据所述各组待同步数据对应的优先级,将所述各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。2.根据权利要求1所述的方法,其特征在于,所述根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级,包括:通过优先级确定模型,根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级。3.根据权利要求1所述的方法,其特征在于,所述根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理,包括:根据各组待同步数据对应的优先级,对各组待同步数据进行序列化处理,得到各组序列化同步结果;将各组序列化同步结果划分到至少两个队列中,并同时对各队列中的各组序列化同步结果进行数据同步处理。4.根据权利要求3所述的方法,其特征在于,所述根据各组待同步数据对应的优先级,对各组待同步数据进行序列化处理,得到各组序列化同步结果,包括:对各组待同步数据进行压缩处理,得到各组压缩数据;根据各组待同步数据对应的优先级,为各组压缩数据添加优先级标签;对添加有优先级标签的各组压缩数据进行序列化处理,得到各组序列化同步结果。5.根据权利要求1所述的方法,其特征在于,所述根据高频词...

【专利技术属性】
技术研发人员:刘斌葛志伟
申请(专利权)人:企查查科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1