数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26730645 阅读:16 留言:0更新日期:2020-12-15 14:31
本发明专利技术提供一种数据处理方法、装置、电子设备及存储介质,其中,该方法包括:获取待读取此表文件;根据待读取词表文件的类型,获取待读取词表文件对应的读取向量,并将读取向量存储至互斥队列中,其中,待读取词表文件的类型为独立读取的词表文件或者具有依赖关系的词表文件;调用空闲线程依次读取互斥队列中按照预设顺序排列的读取向量,以使空闲线程根据读取到的读取向量读取词表文件。通过将独立读取的词表文件对应的读取向量和具有依赖关系的词表文件对应的读取向量分别作为整体存储至互斥队列中,有效提高了词表文件读取效率,进一步,通过采用互斥队列结构,有效保证了信息的准确性。

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质
本专利技术涉及计算机应用
,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
技术介绍
在当今的互联网领域中,为了加快信息访问速度,大量的信息都是存放在词表文件中,词表文件通常包含多列,且具有一定的存放规则。在现有技术中,读取词表文件是按照可扩展标记语言(ExtensibleMarkupLanguage,XML)文件中定义的读取顺序依次读取词表文件。但是,随着后期需求迭代变更,词表文件的数量越来越多,采用上述顺序读取的方式所需时间较长,导致词表文件读取效率较低。
技术实现思路
本专利技术提供一种数据处理方法、装置、电子设备及存储介质,以提高词表文件的读取效率。第一方面,本专利技术提供一种数据处理方法,该方法包括:获取待读取词表文件;根据所述待读取词表文件的类型,获取所述待读取词表文件对应的读取向量,并将所述读取向量存储至互斥队列中,其中,所述待读取词表文件的类型为独立读取的词表文件或者具有依赖关系的词表文件;调用空闲线程依次读取所述互斥队列中按照预设顺序排列的读取向量,以使所述空闲线程根据读取到的读取向量读取词表文件。可选地,所述预设顺序为读取向量存放至互斥队列中的时间先后顺序。可选地,所述根据所述待读取词表文件的类型,获取所述待读取词表文件对应的读取向量,包括:根据所述待读取词表文件对应的配置文件,获取所述待读取词表文件对应的读取向量,其中,所述配置文件至少包括具有依赖关系的待读取词表文件的读取顺序。可选地,所述待读取词表文件还包括类型标签;所述根据待读取词表文件的类型,获取所述待读取词表文件对应的读取向量,包括:根据待读取词表文件的类型标签以及所述待读取词表文件对应的标识,获取所述待读取词表文件对应的读取向量。可选地,所述根据待读取词表文件的类型标签以及所述待读取词表文件对应的标识,获取所述待读取词表文件对应的读取向量,包括:若根据所述待读取词表文件的类型标签,确定所述待读取词表文件对应的类型为独立读取的词表文件,则获取所述读取向量,所述读取向量包括所述待读取词表文件对应的标识;若根据所述待读取词表文件的类型标签,确定所述待读取词表文件对应的类型为具有依赖关系的词表文件,则获取所述读取向量,所述读取向量包括所述待读取词表文件对应的标识,以及与所述待读取词表文件具有依赖关系的多个词表文件的标识。可选地,当所述待读取词表文件为具有依赖关系的词表文件,所述读取向量还包括:用于指示所述待读取词表文件,以及与所述待读取词表文件具有依赖关系的多个词表文件的读取顺序。可选地,所述方法还包括:所述调用空闲线程依次读取所述互斥队列中按照预设顺序排列的读取向量之前,还包括:根据中央处理器CPU占用状态、所述互斥队列中读取向量的个数以及待读取词表文件的数量中的一项或多项,动态配置用于读取词表文件的线程数可选地,所述方法还包括:将所述互斥队列中已被空闲线程读取的读取向量删除,更新所述互斥队列。第二方面,本专利技术提供一种数据处理装置,该装置包括:第一获取模块,用于获取待读取词表文件;第二获取模块,用于根据所述待读取词表文件的类型,获取所述待读取词表文件对应的读取向量,并将所述读取向量存储至互斥队列中,其中,所述待读取词表文件的类型为独立读取的词表文件或者具有依赖关系的词表文件;调用模块,用于调用空闲线程依次读取所述互斥队列中按照预设顺序排列的读取向量,以使所述空闲线程根据读取到的读取向量读取词表文件。可选地,所述预设顺序为读取向量存放至互斥队列中的时间先后顺序。第三方面,本专利技术提供一种电子设备,包括:存储器、处理器以及计算机程序指令;所述存储器存储所述计算机程序指令;所述处理器用于执行所述计算机程序指令,以执行第一方面所述的方法。第四方面,本专利技术还提供一种可读存储介质,包括:程序;所述程序在被处理器执行时,以执行第一方面所述的方法。本专利技术提供一种数据处理方法、装置、电子设备及存储介质,其中,该方法包括:获取待读取词表文件,接着,根据待读取词表文件的类型,获取待读取词表文件对应的读取向量,并将读取向量存储至互斥队列中,其中,待读取词表文件的类型为独立读取的词表文件或者具有依赖关系的词表文件;进一步,调用空闲线程依次读取互斥队列中按照预设顺序排列的读取向量,以使所述空闲线程根据读取到的读取向量读取词表文件。本专利技术根据待读取词表文件的类型生成读取向量,将独立读取的词表文件对应的读取向量和具有依赖关系的词表文件对应的读取向量分别作为整体存储至互斥队列中,有效提高了词表文件读取效率,进一步,通过采用互斥队列结构,有效保证了信息的准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的数据处理方法实施例一的流程示意图;图2为互斥队列的结构示意图;图3为本专利技术提供的数据处理方法实施例二的流程示意图;图4为本专利技术提供的数据处理方法实施例三的流程示意图;图5为本专利技术提供的数据处理装置实施例一的结构示意图;图6为本专利技术提供的数据处理装置实施例二的结构示意图;图7为本专利技术提供的电子设备实施例一的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在当今互联网领域中,为了加快信息访问速度,大量的信息都是存放在词表文件中,词表文件通常包含多列,且具有一定的存放规则。在现有技术中,读取词表文件是按照XML文件中定义的读取顺序依次读取词表文件,这种方式能够清晰的知道读取词表文件的顺序关系,但是,随着后期需求迭代变更,词表文件的数量越来越多,顺序读取的方式导致使得读取时间越来越长,导致读取效率较低。具体地,按照读取顺序依次读取词表文件还可分为以下两种方式:第一:串行读取。这种方式仅适用于词表文件数量较小,且对时间延迟要求不高的场景。第二:并行读取。这种方式可以在词表文件数量较大的场景下使用,但是,仅适用于词表文件之间没有依赖关系的场景。基于上述现有技术中存在的问题,本专利技术提供一种数据处理方法,以提高词表文件的读取效率,且能够适用于多种不同的场景中。图1为本专利技术提供的数据处理方法实施例一的流程示意图。本专利技术实施例提供的数据处理方法的执行主体为本专利技术提供的数据处理装本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取待读取词表文件;/n根据所述待读取词表文件的类型,获取所述待读取词表文件对应的读取向量,并将所述读取向量存储至互斥队列中,其中,所述待读取词表文件的类型为独立读取的词表文件或者具有依赖关系的词表文件;/n调用空闲线程依次读取所述互斥队列中按照预设顺序排列的读取向量,以使所述空闲线程根据读取到的读取向量读取词表文件。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取待读取词表文件;
根据所述待读取词表文件的类型,获取所述待读取词表文件对应的读取向量,并将所述读取向量存储至互斥队列中,其中,所述待读取词表文件的类型为独立读取的词表文件或者具有依赖关系的词表文件;
调用空闲线程依次读取所述互斥队列中按照预设顺序排列的读取向量,以使所述空闲线程根据读取到的读取向量读取词表文件。


2.根据权利要求1所述的方法,其特征在于,所述根据所述待读取词表文件的类型,获取所述待读取词表文件对应的读取向量,包括:
根据所述待读取词表文件对应的配置文件,获取所述待读取词表文件对应的读取向量,其中,所述配置文件至少包括具有依赖关系的待读取词表文件的读取顺序。


3.根据权利要求1所述的方法,其特征在于,所述待读取词表文件包括类型标签;
所述根据所述待读取词表文件的类型,获取所述待读取词表文件对应的读取向量,包括:
根据待读取词表文件的类型标签以及所述待读取词表文件对应的标识,获取所述待读取词表文件对应的读取向量。


4.根据权利要求3所述的方法,其特征在于,所述根据待读取词表文件的类型标签以及所述待读取词表文件对应的标识,获取所述待读取词表文件对应的读取向量,包括:
若根据所述待读取词表文件的类型标签,确定所述待读取词表文件对应的类型为独立读取的词表文件,则获取所述读取向量,所述读取向量包括所述待读取词表文件对应的标识;
若根据所述待读取词表文件的类型标签,确定所述待读取词表文件对应的类型为具有依赖关系的词表文件,则获取所述读取向量,所述读取向量包括所述待读取词表文件对应的标识,以及与所述待读取词表文件具有依赖关系的多个词...

【专利技术属性】
技术研发人员:孙中武董长阳
申请(专利权)人:百度中国有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1