全量数据翻译方法、装置、服务器及存储介质制造方法及图纸

技术编号:18018957 阅读:39 留言:0更新日期:2018-05-23 05:12
本发明专利技术实施例公开了一种全量数据翻译方法、装置、服务器及存储介质,其中,该方法包括:按照预设时间间隔扫描预设存储单元中存储的各站点数据;比较同一站点下子链齐全的最大版本与各资源内容的版本;根据比较结果将所述站点的全量数据翻译为增量数据。本发明专利技术实施例能够将全量数据自动翻译成增量数据,解决了现有知识图谱数据处理系统依赖产品端发现全量数据中的过期数据,且由人力删除过期数据导致的维护成本过高的问题,极大地提升了知识图谱数据库的全面性和稳定性。

【技术实现步骤摘要】
全量数据翻译方法、装置、服务器及存储介质
本专利技术实施例涉及数据处理
,尤其涉及一种全量数据翻译方法、装置、服务器及存储介质。
技术介绍
随着互联网技术的发展,利用互联网上的海量数据构建知识图谱数据库,可以为用户提供搜索结果“即搜即得”的搜索体验。目前,知识图谱数据的处理系统主要是基于增量数据进行处理,而部分站长由于能力有限仅能提交全量数据,基于增量的数据处理系统无法有效地自动找出不同版本全量数据之间发生变化的数据,只能依赖产品端发现过期数据后以人工干预的方式删除。但是,人工干预的方式删除只能依赖产品端发现过期数据后进行,在发现过期数据前给数据的处理造成麻烦和风险,并且,通过人工干预的方式删除过期数据人力成本大、效率低下,严重影响了知识图谱数据库的全面性和稳定性。
技术实现思路
本专利技术实施例提供了一种全量数据翻译方法、装置、服务器及存储介质,解决了现有知识图谱数据处理系统依赖产品端发现全量数据中的过期数据,且由人力删除过期数据导致的维护成本过高的问题,极大地提升了知识图谱数据库的全面性和稳定性。第一方面,本专利技术实施例提供了一种全量数据翻译方法,包括:按照预设时间间隔扫描预设存储单元中存储的各站点数据;比较同一站点下子链齐全的最大版本与各资源内容的版本;根据比较结果将所述站点的全量数据翻译为增量数据。第二方面,本专利技术实施例提供了一种全量数据翻译装置,包括:数据扫描模块,用于按照预设时间间隔扫描预设存储单元中存储的各站点数据;版本比较模块,用于比较同一站点下子链齐全的最大版本与各资源内容的版本;全量翻译模块,用于根据比较结果将所述站点的全量数据翻译为增量数据。第三方面,本专利技术实施例提供了一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任意实施例所述的全量数据翻译方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任意实施例所述的全量数据翻译方法。本专利技术实施例提供了一种全量数据翻译方法、装置、服务器及存储介质,通过按预设时间间隔扫描预设存储单元中存储的各站点数据,将同一站点下子链齐全的最大版本与各资源内容的版本进行比较,根据比较结果将站点的全量数据自动翻译为增量数据。解决了现有知识图谱数据处理系统依赖产品端发现全量数据中的过期数据,且由人力删除过期数据导致的维护成本过高的问题,极大地提升了知识图谱数据库的全面性和稳定性。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术实施例的其它特征、目的和优点将会变得更明显:图1是本专利技术实施例一提供的一种全量数据翻译方法的流程图;图2是本专利技术实施例二提供的一种全量数据翻译方法中数据下发及存储过程的流程图;图3是本专利技术实施例四提供的知识图谱数据处理架构示意图;图4是本专利技术实施例四提供的Netty线程模型示意图;图5是本专利技术实施例四提供的实时流分发模块线程流示意图;图6是本专利技术实施例四提供的Ulpack处理器的示意图;图7是本专利技术实施例五提供的一种全量数据翻译装置的结构框图;图8是本专利技术实施例五提供的另一种全量数据翻译装置的结构框图;图9是本专利技术实施例六提供的一种服务器的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。实施例一图1为本专利技术实施例一提供的一种全量数据翻译方法的流程图,本实施例可适用于基于增量的数据处理系统,在数据处理时将全量数据自动翻译成增量数据,例如,知识图谱数据处理系统。该方法可以由本专利技术实施例提供的全量数据翻译装置或服务器来执行,该装置可采用硬件和/或软件的方式实现,如图1所示,该全量数据翻译方法包括:S101,按照预设时间间隔扫描预设存储单元中存储的各站点数据。其中,预设存储单元存储有各站点的全量数据,包括:站点标识、站点各版本数据的子链信息、站点各子链的资源地址、站点各资源地址的资源内容及资源内容的版本等。优选可以按照预设格式存储各站点的全量数据,以实现快速扫描,提高翻译效率。预设存储单元可以是分布式存储单元,优选的,可以是分布式列式存储系统(HBase),HBase支持大规模数据读写,内置多版本数据支持,并基于Hadoop计算框架,提供原生应用程序编程接口(API,ApplicationProgrammingInterface)支持MapReduce离线任务对于所存储的数据的直接访问。本专利技术实施例可以将获取的全量数据实时存储到预设存储单元中,当达到预设时间间隔时,扫描预设存储单元中的数据,以启动全量数据的自动翻译过程。预设时间间隔可以根据实际需求预先设定,例如结合预设存储单元中全量数据的存储频率和数据的时效性而设定。当然,工作人员根据具体情况可以随时对预设时间间隔进行修改,以达到预期效果。通过扫描预设存储单元中存储的各站点数据,获取用于确定站点增量数据的信息,例如版本号。S102,比较同一站点下子链齐全的最大版本与各资源内容的版本。其中,通过S101中对预设存储单元中存储的数据进行扫描,可以确定站点的子链齐全的最大版本,然后将同一站点下各资源内容版本与该站点的子链齐全的最大版本进行比较。这里的版本即版本号。预设存储单元中存储的站点数据版本可以通过抓取数据的记录或者站长提交数据时的信息获得。S103,根据比较结果将所述站点的全量数据翻译为增量数据。将站点的全量数据翻译为增量数据是指找出该站点不同版本全量数据之间发生变化的数据,尤其是被删除的旧数据或脏数据,也就是将全量数据转换成增量数据的过程。优选的,根据比较结果将站点的全量数据翻译为增量数据,可以包括:如果资源内容的版本小于子链齐全的最大版本,则确定对应的资源内容已过期;依据过期的资源内容生成增量删除包,并发送至缓存单元。对于当前站点,可以根据本次翻译过程中得到的该站点下所有过期的资源内容,一起生成该站点的增量删除包,发送至缓存单元;也可以是确定一个过期的资源内容,就根据该过期的资源内容生成对应的增量删除包,发送至缓存单元。将增量删除包发送至缓存单元,下游数据处理系统可以从缓存单元中获取该增量删除包以进行数据处理,供产品端使用。例如,缓存单元可以是Kafka。本实施例提供了一种全量数据翻译方法,通过按预设时间间隔扫描预设存储单元中存储的各站点数据,将同一站点下子链齐全的最大版本与各资源内容的版本进行比较,根据比较结果将站点的全量数据自动翻译为增量数据。解决了现有知识图谱数据处理系统依赖产品端发现全量数据中的过期数据,且由人力删除过期数据导致的维护成本过高的问题,极大地提升了知识图谱数据库的全面性和稳定性。进一步地,确定了过期的资源内容后,可以根据增量删除包将缓存单元中的过期数据删除,同时将预设存储单元中的过期数据删除,完成预设存储单元中数据的更新。实施例二本实施例在上述实施例的基础上,提供了一种全量数据翻译方法,图2为本专利技术实施例二提供的一种全量数据翻译方法中数据下发及存储过程的流程图,如图2所示,该方法包括:S201,接收本文档来自技高网...
全量数据翻译方法、装置、服务器及存储介质

【技术保护点】
一种全量数据翻译方法,其特征在于,包括:按照预设时间间隔扫描预设存储单元中存储的各站点数据;比较同一站点下子链齐全的最大版本与各资源内容的版本;根据比较结果将所述站点的全量数据翻译为增量数据。

【技术特征摘要】
1.一种全量数据翻译方法,其特征在于,包括:按照预设时间间隔扫描预设存储单元中存储的各站点数据;比较同一站点下子链齐全的最大版本与各资源内容的版本;根据比较结果将所述站点的全量数据翻译为增量数据。2.根据权利要求1所述的方法,其特征在于,还包括:接收字节流数据;根据所述字节流数据的解码结果确定所述字节流数据的数据类型;如果所述字节流数据的数据类型为全量数据,下发所述全量数据至缓存单元,并将所述全量数据按照预设格式存入所述预设存储单元。3.根据权利要求2所述的方法,其特征在于,下发所述全量数据至缓存单元,包括:按照预设规则对所述字节流数据的解码结果进行协议转换后,下发至所述缓存单元。4.根据权利要求2所述的方法,其特征在于,在根据所述字节流数据的解码结果确定所述字节流数据的数据类型之后,还包括:如果所述字节流数据的数据类型为增量数据,按照预设规则对所述字节流数据的解码结果进行协议转换后,下发至所述缓存单元。5.根据权利要求2所述的方法,其特征在于,将所述全量数据按照预设格式存入所述预设存储单元,包括:将所述全量数据中的索引及子链信息存入所述预设存储单元的资源表中,作为对应站点下的一版数据;将所述全量数据中的资源地址存入所述预设存储单元的链接表中;将所述全量数据中的资源内容存入所述预设存储单元的内容表中,其中所述内容表中存储有所述资源内容对应的版本;其中,所述资源表通过子链字段与所述链接表关联,所述链接表通过资源地址字段与所述内容表关联。6.根据权利要求1所述的方法,其特征在于,按照预设时间间隔扫描预设存储单元中存储的各站点数据,包括:按照所述预设时间间隔扫描所述预设存储单元的资源表中各站点下的每个版本的数据;针对每个站点,根据所述站点下各版本的子链信息确定所述站点下子链齐全的版本数据,并在所述站点下所有子链齐全的版本数据中确定最大版本,作为所述站点的子链齐全的最大版本。7.根据权利要求1所述的方法,其特征在于,比较同一站点下子链齐全的最大版本与各资源内容的版本,包括:针对同一站点,扫描所述预设存储单元的内容表中对应于该站点的各资源内容的版本;分别比较该站点的各资源内容的版本与该站点的子链齐全的最大版本。8.根据权利要求1所述的方法,其特征在于,根据比较结果将所述站点的全量数据翻译为增量数据,包括:如果所述资源内容的版本小于所述子链齐全的最大版本,则确定对应的资源内容已过期;依据过期的资源内容生成增量删除包,并发送至缓存单元。9.根据权利要求8所述的方法,其特征在于,在确定对应的资源内容已过期之后,还包括:删除所述预设存储单...

【专利技术属性】
技术研发人员:熊灏黎江王军委
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1