System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 全文检索离线数据处理方法、系统、设备和介质技术方案_技高网

全文检索离线数据处理方法、系统、设备和介质技术方案

技术编号:39971957 阅读:11 留言:0更新日期:2024-01-09 00:51
本申请涉及全文检索离线数据处理方法、系统、设备和介质,该方法通过设计了多源异构数据处理手段,能够有效处理不同数据来源与格式的数据;给出了标准化离线数据处理流程,简化全文检索数据处理系统与架构的复杂度;整合了多种类型数据,丰富全文检索内容,解决数据孤岛,沉淀数据资产;自动化的数据处理结合DAG可视化界面配置操作,准确地从大规模数据中采集所需数据。通过在多个环节上制定全文检索数据处理标准方案,解决了因处理流程繁多而数据开发杂乱的诸多难题,达到大幅降低全文检索离线数据处理难度并提高效率的目的。大幅降低了技术门槛并提高了数据处理效益。

【技术实现步骤摘要】

本专利技术属于数据处理,涉及一种全文检索离线数据处理方法、系统、设备和介质


技术介绍

1、随着信息技术的发展,全文检索在信息检索领域中得到了广泛应用,可以帮助用户快速的查找价值信息,提高信息的搜索效率与用户体验。同时,检索领域的数据类型也呈现出多样性与复杂化,目前大多数全文检索方法在处理多源异构数据集成时存在一些问题,尤其在数据来源不一、格式不一致与数据量庞大等诸多问题的处理上存在局限性。

2、随着大数据时代的到来,全文检索技术在各行各业信息检索中越来越重要,高效、准确地从大规模数据源中采集所需数据则是行业实际需求,制定全文检索数据处理标准过程则是技术实现手段,目前支持多源异构全文检索数据处理则是技术实现的重要前提。现阶段,很多学者深入研究全文检索离线数据处理方法,并取得了一定的研究成果,例如解决了各应用系统数据在索引建立、数据传输、ocr识别管理过程中的边界安全与访问控制安全的方法、通过物联网设备报文上报并消费报文解读数据后存入数据库的方法、按照预先设置的关键词进行分词,提取配电网数据库的关键信息并建立索引文件的方法、可以快速的完成海量的全文检索数据集成的方法以及通过关键词对文本内容进行读取,解决了数据库对海量数据处理的局限的方法等传统技术,然而,前述传统技术在全文检索离线数据处理过程中,仍然存在着数据处理难度较大的技术问题。


技术实现思路

1、针对上述传统方法中存在的问题,本专利技术提出了一种全文检索离线数据处理方法、一种全文检索离线数据处理系统、一种计算机设备和一种计算机可读存储介质,能够大幅降低全文检索离线数据处理难度并提高效率。

2、为了实现上述目的,本专利技术实施例采用以下技术方案:

3、一方面,提供一种全文检索离线数据处理方法,包括步骤:

4、在全文检索系统的异构数据源管理页面中添加各离线数据源和数据收集介质后,配置数据源连接信息并保存至数据源表中;数据收集介质包括logstash数据收集引擎;

5、基于dag界面操作创建与编辑dag全文检索集成画布后保存至画布表,并基于dag拖拉拽动态选择离线集成插件;离线集成插件包括spark输入插件、spark转换插件、spark输出插件、数据收集插件和数据存储插件;

6、采用全文检索基础特征要素模型对全文检索所需重要特征进行数据建模;特征要素包括检索标题、检索分类、检索字段、关键内容、检索内容、排序字段、数据来源、链接地址和数据时间;

7、在dag全文检索集成画布中,采用spark全文检索离线集成模型对整个全文检索离线处理过程进行模块划分;模块包括spark输入模块、spark转换模块、spark输出模块、数据收集模块和数据存储模块;

8、在dag全文检索集成画布中,选择spark输入插件并配置输入表,选择spark转换插件并配置转换规则,选择spark输出插件并配置输出源,选择数据收集插件并配置收集引擎,选择数据存储插件并配置存储表;

9、在全文检索离线处理过程中,基于spark内部临时表注册模型将模块插件中数据表注册为临时表对象;注册的数据表对象包括spark输入表、spark转换表和spark输出表;

10、在dag全文检索集成画布中,采用各数据表配置建模模型对各模块插件中的数据表配置进行数据建模及定义建模特征;数据表配置建模模型包括spark输入表配置模型、数据清洗规则配置模型和spark存储表配置模型;

11、采用数据清洗策略建模模型对spark转换插件中的清洗规则进行转化;

12、采用基于sql语句的数据转换构建模型,对spark转换插件中的清洗规则与清洗策略进行转换实现;

13、在全文检索离线处理过程中,利用设计的spark输入临时表构建过程并基于临时表注册模型对spark输入表进行临时表注册;

14、在全文检索离线处理过程中,利用设计的spark转换临时表构建过程并基于临时表注册模型对spark转换表进行临时表注册;

15、在全文检索离线处理过程中,采用spark离线数据输出模型执行临时表到消息中间件的数据导出过程;

16、在全文检索离线处理过程中,采用logstash数据同步模型将消息中间件中的数据流同步到外部存储库。

17、另一方面,还提供一种全文检索离线数据处理系统,包括:

18、源添加模组,用于在全文检索系统的异构数据源管理页面中添加各离线数据源和数据收集介质后,配置数据源连接信息并保存至数据源表中;数据收集介质包括logstash数据收集引擎;

19、画布创建模组,用于基于dag界面操作创建与编辑dag全文检索集成画布后保存至画布表,并基于dag拖拉拽动态选择离线集成插件;离线集成插件包括spark输入插件、spark转换插件、spark输出插件、数据收集插件和数据存储插件;

20、特征建模模组,用于采用全文检索基础特征要素模型对全文检索所需重要特征进行数据建模;特征要素包括检索标题、检索分类、检索字段、关键内容、检索内容、排序字段、数据来源、链接地址和数据时间;

21、过程划分模组,用于在dag全文检索集成画布中,采用spark全文检索离线集成模型对整个全文检索离线处理过程进行模块划分;模块包括spark输入模块、spark转换模块、spark输出模块、数据收集模块和数据存储模块;

22、插件配置模组,用于在dag全文检索集成画布中,选择spark输入插件并配置输入表,选择spark转换插件并配置转换规则,选择spark输出插件并配置输出源,选择数据收集插件并配置收集引擎,选择数据存储插件并配置存储表;

23、对象注册模组,用于在全文检索离线处理过程中,基于spark内部临时表注册模型将模块插件中数据表注册为临时表对象;注册的数据表对象包括spark输入表、spark转换表和spark输出表;

24、表配置模组,用于在dag全文检索集成画布中,采用各数据表配置建模模型对各模块插件中的数据表配置进行数据建模及定义建模特征;数据表配置建模模型包括spark输入表配置模型、数据清洗规则配置模型和spark存储表配置模型;

25、清洗转化模组,用于采用数据清洗策略建模模型对spark转换插件中的清洗规则进行转化;

26、转换实现模组,用于采用基于sql语句的数据转换构建模型,对spark转换插件中的清洗规则与清洗策略进行转换实现;

27、输入注册模组,用于在全文检索离线处理过程中,利用设计的spark输入临时表构建过程并基于临时表注册模型对spark输入表进行临时表注册;

28、转换注册模组,用于在全文检索离线处理过程中,利用设计的spark转换临时表构建过程并基于临时表注册模型对spark转换表进行临时表注册;

29、数据导出模组,用于在全文检索离线处理过程中,采用spark离线数据输出模型执行临时表本文档来自技高网...

【技术保护点】

1.一种全文检索离线数据处理方法,其特征在于,包括步骤:

2.根据权利要求1所述的全文检索离线数据处理方法,其特征在于,在所述全文检索离线处理过程中,临时表注册的过程包括步骤:

3.根据权利要求1或2所述的全文检索离线数据处理方法,其特征在于,所述清洗策略包括采用数据来源、关键信息和创建人构建检索标题,拼接多个关键字段构建关键内容,拼接多个检索字段构建检索内容,根据检索内容构建全文检索内容与模糊检索内容,根据地址前缀与主键字段构建链接地址。

4.根据权利要求3所述的全文检索离线数据处理方法,其特征在于,所述清洗规则中的配置特征包括输入表名称、主键字段、关键字段、检索字段、数据来源、创建人和数据时间。

5.一种全文检索离线数据处理系统,其特征在于,包括:

6.根据权利要求5所述的全文检索离线数据处理系统,其特征在于,在所述全文检索离线处理过程中,临时表注册的过程包括:

7.根据权利要求5或6所述的全文检索离线数据处理系统,其特征在于,所述清洗策略包括采用数据来源、关键信息和创建人构建检索标题,拼接多个关键字段构建关键内容,拼接多个检索字段构建检索内容,根据检索内容构建全文检索内容与模糊检索内容,根据地址前缀与主键字段构建链接地址。

8.根据权利要求7所述的全文检索离线数据处理系统,其特征在于,所述清洗规则中的配置特征包括输入表名称、主键字段、关键字段、检索字段、数据来源、创建人和数据时间。

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的全文检索离线数据处理方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4任一项所述的全文检索离线数据处理方法的步骤。

...

【技术特征摘要】

1.一种全文检索离线数据处理方法,其特征在于,包括步骤:

2.根据权利要求1所述的全文检索离线数据处理方法,其特征在于,在所述全文检索离线处理过程中,临时表注册的过程包括步骤:

3.根据权利要求1或2所述的全文检索离线数据处理方法,其特征在于,所述清洗策略包括采用数据来源、关键信息和创建人构建检索标题,拼接多个关键字段构建关键内容,拼接多个检索字段构建检索内容,根据检索内容构建全文检索内容与模糊检索内容,根据地址前缀与主键字段构建链接地址。

4.根据权利要求3所述的全文检索离线数据处理方法,其特征在于,所述清洗规则中的配置特征包括输入表名称、主键字段、关键字段、检索字段、数据来源、创建人和数据时间。

5.一种全文检索离线数据处理系统,其特征在于,包括:

6.根据权利要求5所述的全文检索离线数据处理系统,其特征在于,在所述全文检索离线处理过程中,临时表注...

【专利技术属性】
技术研发人员:刘洋曹林涂平梁春峰张林宇贺群雄刘准仇亚龙贺若龙李志超彭中益王斯政廖佳佳刘博罗超金剑
申请(专利权)人:中电工业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1