一种基于NLP算法实现数据资产精准搜索方法技术

技术编号：34994840 阅读：19 留言：0更新日期：2022-09-21 14:42

本发明专利技术公开了一种基于NLP算法实现数据资产精准搜索方法，对数据资产的自然语言进行检索，将数据作为一种资产，进行关系的自动维护、模型生成、智能检索等。针对大数据产生的资产目录和资产目录中的字段血缘关系、标签、指标等都有高效的检索和命中率。同时对于一些查询较热的TopN数据也能有效地进行建立。使用reids缓存，快速的响应同类关键词查询的结果，大大的缩短了查询链路的长度和对关系数据库的压力。的压力。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于NLP算法实现数据资产精准搜索方法

[0001]本专利技术涉及数据处理
，具体涉及一种基于NLP算法实现数据资产精准搜索方法。

技术介绍

[0002]在现有的数据资产搜索方法中，资产检索的种类固化到了实物资产的维护和检索，例如建筑物资的数据检索，查询链路较长，而且需要手动维护接口和调用关系。对于一些元数据资产标签和跨资产的血缘关系，现有技术无法有效的检索。另外，还存在命中率和召回率较低的问题。

技术实现思路

[0003]针对现有技术的不足，本专利技术旨在提供一种基于NLP算法实现数据资产精准搜索方法。
[0004]为了实现上述目的，本专利技术采用如下技术方案：一种基于NLP算法实现数据资产精准搜索方法，具体过程为：一、资产元数据的生成：二、索引的构建：（1）元数据索引的构建：采集模块根据定时的采集任务对资产元数据进行拉取，拉取方式分为全量拉取和增量拉取，对于新增的表采用全量拉取，对于已存在的表采用增量拉取，然后对于每个字段内容均进行去空值和去数值，保留关键字，作为元数据的索引；（2）数据的索引构建：1）对于已存在的表，同步/构建服务进行数据的增量拉取；以码表/术语库以及访问次数最多的关键字作为关键字库，对字段进行关键字的提取；提取完成后，对所有关键字进行去重，生成字典，通过同步/构建服务写入到es，作为数据的索引；2）对于新增的表，然后同步/构建服务进行全量拉取，以码表/术语库以及访问次数最多的关键字作为关键字库，对字段进行关键字的提取；提取完成后，对所有关键字进行去重，生成字典...

【技术保护点】

【技术特征摘要】
1.一种基于NLP算法实现数据资产精准搜索方法，其特征在于，具体过程为：一、资产元数据的生成：二、索引的构建：（1）元数据索引的构建：采集模块根据定时的采集任务对资产元数据进行拉取，拉取方式分为全量拉取和增量拉取，对于新增的表采用全量拉取，对于已存在的表采用增量拉取，然后对于每个字段内容均进行去空值和去数值，保留关键字，作为元数据的索引；（2）数据的索引构建：1）对于已存在的表，同步/构建服务进行数据的增量拉取；以码表/术语库以及访问次数最多的关键字作为关键字库，对字段进行关键字的提取；提取完成后，对所有关键字进行去重，生成字典，通过同步/构建服务写入到es，作为数据的索引；2）对于新增的表，然后同步/构建服务进行全量拉取，以码表/术语库以及访问次数最多的关键字作为关键字库，对字段进行关键字的提取；提取完成后，对所有关键字进行去重，生成字典，通过同步/构建服务写入到es，作为数据的索引；三、数据资产检索NLP2SQL服务从输入入口接收到要检索的内容，然后通过映射码表后生成查询的sql语句；NLP2SQL服务通过词法分析解析自然语言，生成机器可执行的sql语句；NLP服务检索先查找redis缓存，如果缓存中存在要检索的历史数据，缓...

【专利技术属性】
技术研发人员：于洋，高经郡，谢晋，
申请(专利权)人：北京科杰科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人