基于Elasticsearch的数据接入方法、系统、电子设备和存储介质技术方案

技术编号:37215176 阅读:5 留言:0更新日期:2023-04-20 23:03
本发明专利技术公开了一种基于Elasticsearch的数据接入方法、系统、电子设备和存储介质,该方法包括:获取数据接入指令,根据数据接入指令确定目标数据源,目标数据源包括结构化数据库、和/或结构化文件、和/或半结构化文件;从预设读取配置数据中确定与目标数据源对应的目标配置数据,并基于目标配置数据从目标数据源中读取待接入数据;按照预设时间数据格式和预设空间数据格式将待接入数据转换为统一格式数据;若统一格式数据中存在文本文件,按预设抽取规则从文本文件中抽取正文文本;基于正文文本确定待提交数据,将待提交数据写入Elasticsearch,从而实现高效的将不同类型的数据接入Elasticsearch。数据接入Elasticsearch。数据接入Elasticsearch。

【技术实现步骤摘要】
基于Elasticsearch的数据接入方法、系统、电子设备和存储介质


[0001]本申请涉及计算机
,更具体地,涉及一种基于Elasticsearch的数据接入方法、系统、电子设备和存储介质。

技术介绍

[0002]随着互联网信息的增长,个人和组织的文件日益增多,数据的存储方式多种多样,数据规模越来越大,数据结构越来越松散和开放。关系型数据库已经不能满足现在的数据规模、数据结构和查询方式。文件数据只能保存数据,不能快速的查找和定位数据。
[0003]Elasticsearch是分布式搜索和分析引擎,具有分布式、高扩展、高实时等特点。Elasticsearch提供近乎实时的搜索和分析,它能适应结构化和半结构化文本、数字数据和地理空间数据等。有很多的人和组织都在使用Elasticsearch,但是他们都是基于自己的系统接入Elasticsearch,因此需要高度定制化,另外支持的场景和数据结构也比较单一,接入效率低。
[0004]因此,如何高效的将不同类型的数据接入Elasticsearch,是目前有待解决的技术问题。

技术实现思路

[0005]本申请实施例提供一种基于Elasticsearch的数据接入方法、系统、电子设备和存储介质,用以高效的将不同类型的数据接入Elasticsearch。
[0006]第一方面,提供一种基于Elasticsearch的数据接入方法,所述方法包括:获取数据接入指令,根据所述数据接入指令确定目标数据源,所述目标数据源包括结构化数据库、和/或结构化文件、和/或半结构化文件;从预设读取配置数据中确定与所述目标数据源对应的目标配置数据,并基于所述目标配置数据从所述目标数据源中读取待接入数据;按照预设时间数据格式和预设空间数据格式将所述待接入数据转换为统一格式数据;若所述统一格式数据中存在文本文件,按预设抽取规则从所述文本文件中抽取正文文本;基于所述正文文本确定待提交数据,将所述待提交数据写入Elasticsearch。
[0007]第二方面,提供一种基于Elasticsearch的数据接入系统,所述系统包括:确定模块,用于获取数据接入指令,根据所述数据接入指令确定目标数据源,所述目标数据源包括结构化数据库、和/或结构化文件、和/或半结构化文件;读取模块,用于从预设读取配置数据中确定与所述目标数据源对应的目标配置数据,并基于所述目标配置数据从所述目标数据源中读取待接入数据;转换模块,用于按照预设时间数据格式和预设空间数据格式将所述待接入数据转换为统一格式数据;抽取模块,用于若所述统一格式数据中存在文本文件,按预设抽取规则从所述文本文件中抽取正文文本;写入模块,用于基于所述正文文本确定待提交数据,将所述待提交数据写入Elasticsearch。
[0008]第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的
可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面所述的基于Elasticsearch的数据接入方法。
[0009]第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的基于Elasticsearch的数据接入方法。
[0010]通过应用以上技术方案,获取数据接入指令,根据数据接入指令确定目标数据源,目标数据源包括结构化数据库、和/或结构化文件、和/或半结构化文件;从预设读取配置数据中确定与目标数据源对应的目标配置数据,并基于目标配置数据从目标数据源中读取待接入数据;按照预设时间数据格式和预设空间数据格式将待接入数据转换为统一格式数据;若统一格式数据中存在文本文件,按预设抽取规则从文本文件中抽取正文文本;基于正文文本确定待提交数据,将待提交数据写入Elasticsearch,从而实现高效的将不同类型的数据接入Elasticsearch,进而可快速的对不同类型的数据进行全文检索和统计分析。
附图说明
[0011]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0012]图1示出了本专利技术实施例提出的一种基于Elasticsearch的数据接入方法的流程示意图;
[0013]图2示出了本专利技术实施例提出的一种基于Elasticsearch的数据接入系统的结构示意图;
[0014]图3示出了本专利技术实施例提出的一种电子设备的结构示意图。
具体实施方式
[0015]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0016]本申请实施例提供一种基于Elasticsearch的数据接入方法,如图1所示,该方法包括以下步骤:
[0017]步骤S101,获取数据接入指令,根据所述数据接入指令确定目标数据源,所述目标数据源包括结构化数据库、和/或结构化文件、和/或半结构化文件。
[0018]本实施例中,数据接入指令可以是用户发出的,也可以是在满足预设触发条件时自动触发的。通过数据接入指令可以确定目标数据源,通过将目标数据源中的数据接入Elasticsearch,实现基于Elasticsearch的数据处理。目标数据源包括结构化数据库、和/或结构化文件、和/或半结构化文件。结构化数据库可包括但不限于Oracle、SQLServer、DB2、Sybase、MySQL、MariaDB、PostgreSQL等。结构化文件中的文件数据为结构化数据,半结构化文件中的文件数据为半结构化数据。
[0019]步骤S102,从预设读取配置数据中确定与所述目标数据源对应的目标配置数据,
并基于所述目标配置数据从所述目标数据源中读取待接入数据。
[0020]本实施例中,在确定目标数据源后,需要先读取其中的数据,为后续实现数据全文检索提供基础。不同的目标数据源需要基于不同的目标配置数据进行读取。先从预设读取配置数据中确定相应的目标配置数据,然后基于目标配置数据从目标数据源中读取待接入数据。
[0021]在本申请一些实施例中,基于所述目标配置数据从所述目标数据源中读取待接入数据,具体为:
[0022]若所述目标数据源为所述结构化数据库,基于所述目标配置数据连接所述结构化数据库并确定读取表和/或触发器,基于所述读取表从所述结构化数据库中读取需要单次读取的第一数据,和/或基于所述触发器从所述结构化数据库中读取需要循环读取的第二数据;
[0023]若所述目标数据源为所述结构化文件,基于所述目标配置数据确定目标索引,根据所述目标索引从所述结构化文件中读取需要单次读取的第三数据和/或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Elasticsearch的数据接入方法,其特征在于,所述方法包括:获取数据接入指令,根据所述数据接入指令确定目标数据源,所述目标数据源包括结构化数据库、和/或结构化文件、和/或半结构化文件;从预设读取配置数据中确定与所述目标数据源对应的目标配置数据,并基于所述目标配置数据从所述目标数据源中读取待接入数据;按照预设时间数据格式和预设空间数据格式将所述待接入数据转换为统一格式数据;若所述统一格式数据中存在文本文件,按预设抽取规则从所述文本文件中抽取正文文本;基于所述正文文本确定待提交数据,将所述待提交数据写入Elasticsearch。2.如权利要求1所述的方法,其特征在于,基于所述目标配置数据从所述目标数据源中读取待接入数据,具体为:若所述目标数据源为所述结构化数据库,基于所述目标配置数据连接所述结构化数据库并确定读取表和/或触发器,基于所述读取表从所述结构化数据库中读取需要单次读取的第一数据,和/或基于所述触发器从所述结构化数据库中读取需要循环读取的第二数据;若所述目标数据源为所述结构化文件,基于所述目标配置数据确定目标索引,根据所述目标索引从所述结构化文件中读取需要单次读取的第三数据和/或需要循环读取的第四数据;若所述目标数据源为所述半结构化文件,基于所述目标配置数据确定目标路径,根据所述目标路径从所述半结构化文件中读取需要单次读取的第五数据和/或需要循环读取的第六数据;根据所述第一数据、和/或所述第二数据、和/或所述第三数据、和/或所述第四数据、和/或所述第五数据、和/或所述第六数据确定所述待接入数据。3.如权利要求1所述的方法,其特征在于,在从预设读取配置数据中确定与所述目标数据源对应的目标配置数据之前,所述方法还包括:根据第一指令对所述结构化数据库的数据的预设基础信息、抽取文件路径、用于进行单次读取的读取表、用于进行循环读取的触发器、字段的类型、与需要全文检索的字段对应的分词器进行配置,得到第一目标配置数据;根据第二指令对所述结构化文件的数据的预设基础信息、抽取文件路径、数据读取索引、是否包含表头、数据之间的分隔符、字段的位置、字段的类型、与需要全文检索的字段对应的分词器、与循环读取对应的保存目录进行配置,得到第二目标配置数据;根据第三指令对所述半结构化文件的数据的预设基础信息、抽取文件路径、数据读取路径、字段的类型、与需要全文检索的字段对应的分词器、与循环读取对应的保存路径进行配置,得到第三目标配置数据;根据所述第一目标配置数据、所述第二目标配置数据和所述第三目标配置数据生成所述预设读取配置数据。4.如权利要求1所述的方法,其特征在于,按预设抽取规则从所述文本文件中抽取正文文本,具体为:若所述文本文件属于预设简单文件,根据所述文本文件的文件头或对所述文本文...

【专利技术属性】
技术研发人员:母坤平
申请(专利权)人:成都卓讯智安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1