数据检索方法、装置、设备及存储介质制造方法及图纸

技术编号:36033081 阅读:14 留言:0更新日期:2022-12-21 10:35
本申请实施例提供一种数据检索方法、装置、设备及存储介质,涉及数据分析技术领域。该方法包括:响应于获取到的检索请求,确定对应目标检索词和请求对象;基于请求对象对应的对象检索词库和预先构建的业务系统检索词库,分别对目标检索词进行分词处理,基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签,建立对应的检索索引;基于请求对象对应的业务系统、基于对象检索词库得到的分词结果和检索索引,得到检索结果。本申请实施例解决了现有技术中搜索引擎在搜索多元化数据时,搜索结果无法满足用户期望的问题。搜索结果无法满足用户期望的问题。搜索结果无法满足用户期望的问题。

【技术实现步骤摘要】
数据检索方法、装置、设备及存储介质


[0001]本申请实施例涉及数据分析
,尤其涉及一种数据检索方法、装置、设备及存储介质。

技术介绍

[0002]现有的企业自行建立的搜索引擎大多是使用传统的检索方法构建,功能代码集成于企业业务系统本身,且索引文件的数据来源通常也局限于业务系统内的数据,并通过构建专属业务词库,分配相关域的计算权重,来调节搜索结果的命中排序,当需要搜索的数据不仅限于本业务系统,而是包含外源性数据在内的多元化数据时,难以保证检索结果满足用户期望。

技术实现思路

[0003]本申请实施例提供了一种数据检索方法、装置、设备及存储介质,以解决现有技术中搜索引擎在搜索多元化数据时,搜索结果无法满足用户期望的问题。
[0004]第一方面,本申请实施例提供了一种数据检索方法,该数据检索方法包括:
[0005]响应于获取到的检索请求,确定对应目标检索词和请求对象;
[0006]基于请求对象对应的对象检索词库和预先构建的业务系统检索词库,分别对目标检索词进行分词处理,请求对象对应的对象检索词库基于请求对象的检索历史构建,业务系统检索词库基于本地业务系统中的数据和外源数据库中的数据构建;
[0007]基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签,建立对应的检索索引;
[0008]基于请求对象对应的业务系统、基于对象检索词库得到的分词结果和检索索引,得到检索结果。
[0009]可选地,业务系统检索词库通过如下方式得到:获取本地业务系统数据和采集的外源数据库中的外源性数据;基于本地业务系统数据和外源性数据中的结构化数据,得到对应的结构化数据副本;基于本地业务系统数据和外源性数据中的非结构化数据,得到对应的实体图谱,实体图谱用于表示本地业务系统数据与外源性数据间的关联关系;基于本地业务系统数据和外源性数据的具体来源,对结构化数据和非结构化数据分别添加对应的来源标签;基于非结构化数据的文件格式,对非结构化数据添加格式标签,并基于所述结构化数据副本、实体图谱、来源标签和格式标签,得到所述业务系统检索词库。
[0010]可选地,基于本地业务系统数据和外源性数据中的结构化数据,得到对应的结构化数据副本,包括:建立结构化数据与本地业务系统数据对应的数据库的主键关联;基于主键关联,对外源性数据进行整合;将整合结果和基于主键关联的本地业务系统数据结合,生成结构化数据副本。
[0011]可选地,基于本地业务系统数据和外源性数据中的非结构化数据,得到对应的实体图谱,包括:提取非结构化数据的目标信息,目标信息包括实体、实体属性和分类标签;基
于目标信息,通过相关性分析,得到非结构化数据间的匹配度;抽取目标信息中的实体对应词条,并在词条上标注匹配度;基于匹配度,建立目标信息中的实体对应的图数据库,并生成实体图谱。
[0012]可选地,基于本地业务系统数据和外源性数据的具体来源,对结构化数据和非结构化数据分别添加对应的来源标签,包括:在结构化数据副本中添加结构化数据对应的来源性标注;在同一结构化数据副本中的子数据中,根据数据来源设置对应的优先级标签;在非结构化数据的图数据库中,添加每个实体对应的来源标签。
[0013]可选地,外源性数据通过如下方式采集得到:若外源性数据为结构化数据,实时监听外源性数据对应外源业务系统的外源数据库的数据变化;根据数据变化对应的数据内容的类型,采集外源性数据中的结构化数据;若外源性数据为非结构化数据,获取外源业务系统的推送请求;基于推送请求,获取外源业务系统对应的外源性数据。
[0014]可选地,根据数据变化对应的数据内容的类型,采集外源性数据中的结构化数据,包括:若数据内容为单表数据变化,向外源业务系统发送拉取任务,以提取数据信息的单表;若数据内容为持续增量变更信息,向外源业务系统发送订阅任务,以通过订阅增量持续获取实时的增量变更信息;若数据内容为未采集过的存量数据,全量拉取外源性数据信息。
[0015]可选地,基于推送请求,获取外源性数据,包括:基于设定传输方式采集外源性数据中的非结构化数据至本地存储位置;通过设定采集方式从本地存储位置的非结构化数据中抽取结构化的数据信息。
[0016]可选地,基于推送请求,获取外源性数据之后,还包括:对获取到的外源性数据进行合法性校验;对通过合法性校验的外源性数据中的业务敏感数据进行脱敏处理;基于脱敏处理后外源性数据对应的外源业务系统,将外源性数据保存至对应的数据库分库或分表中。
[0017]可选地,基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签,建立对应的检索索引,包括:基于业务系统检索词库对应的分词处理结果,对库存数据进行倒排索引;基于库存数据中结构化数据副本包含的优先级标签和业务系统检索词库对应的分词处理结果,得到分词域优先级;基于倒排索引和分词域优先级,建立检索索引。
[0018]可选地,基于请求对象对应的业务系统、基于对象检索词库得到的分词结果和检索索引,得到检索结果,包括:基于对象检索词库得到的分词结果,确定请求对象的检索偏好;确定对象对应业务系统中的数据为主检索数据;基于检索偏好和实体图谱,确定与对象对应业务系统关联的外源业务系统中的数据为相关检索数据;基于检索索引,对主检索数据和相关检索数据进行检索,并对主检索数据和相关检索数据对应的检索得到的数据分别进行检索展示,得到检索结果。
[0019]可选地,基于请求对象对应的业务系统、基于对象检索词库得到的分词结果和检索索引,得到检索结果,包括:获取用户自定义的检索配置;基于检索配置和检索索引,对本地业务系统数据和外源性数据进行检索,得到检索结果。
[0020]第二方面,本申请实施例提供了一种数据检索装置,该数据检索装置包括:
[0021]获取模块,用于响应于获取到的检索请求,确定对应目标检索词和请求对象;
[0022]分词模块,用于基于请求对象对应的检索词库和预先构建的业务系统检索词库,分别对目标检索词进行分词处理,请求对象对应的检索词库基于请求对象的检索历史构
建,业务系统检索词库基于本地业务系统中的数据和外源数据库中的数据构建;
[0023]索引模块,用于基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签,建立对应的检索索引;
[0024]输出模块,用于基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签,建立对应的检索索引。
[0025]可选地,分词模块包括,通过如下方式得到业务系统检索词库:获取本地业务系统数据和采集的外源数据库中的外源性数据;基于本地业务系统数据和外源性数据中的结构化数据,得到对应的结构化数据副本;基于本地业务系统数据和外源性数据中的非结构化数据,得到对应的实体图谱,实体图谱用于表示本地业务系统数据与外源性数据间的关联关系;基于本地业务系统数据和外源性数据的具体来源,对结构化数据和非结构化数据分别添加对应的来源标签;基于非结构化数据的文件格式,对非结构化数据添加格式标签本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据检索方法,其特征在于,所述数据检索方法包括:响应于获取到的检索请求,确定对应目标检索词和请求对象;基于所述请求对象对应的对象检索词库和预先构建的业务系统检索词库,分别对所述目标检索词进行分词处理,所述请求对象对应的对象检索词库基于请求对象的检索历史构建,所述业务系统检索词库基于本地业务系统中的数据和外源数据库中的数据构建;基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签,建立对应的检索索引;基于所述请求对象对应的业务系统、基于对象检索词库得到的分词结果和所述检索索引,得到检索结果。2.根据权利要求1所述的数据检索方法,其特征在于,所述业务系统检索词库通过如下方式得到:获取本地业务系统数据和采集的外源数据库中的外源性数据;基于所述本地业务系统数据和外源性数据中的结构化数据,得到对应的结构化数据副本;基于所述本地业务系统数据和外源性数据中的非结构化数据,得到对应的实体图谱,所述实体图谱用于表示本地业务系统数据与外源性数据间的关联关系;基于所述本地业务系统数据和外源性数据的具体来源,对所述结构化数据和非结构化数据分别添加对应的来源标签;基于非结构化数据的文件格式,对所述非结构化数据添加格式标签,并基于所述结构化数据副本、实体图谱、来源标签和格式标签,得到所述业务系统检索词库。3.根据权利要求2所述的数据检索方法,其特征在于,所述基于所述本地业务系统数据和外源性数据中的结构化数据,得到对应的结构化数据副本,包括:建立所述结构化数据与所述本地业务系统数据对应的数据库的主键关联;基于所述主键关联,对所述外源性数据进行整合;将所述整合结果和基于主键关联的本地业务系统数据结合,生成所述结构化数据副本。4.根据权利要求2所述的数据检索方法,其特征在于,所述基于所述本地业务系统数据和外源性数据中的非结构化数据,得到对应的实体图谱,包括:提取所述非结构化数据的目标信息,所述目标信息包括实体、实体属性和分类标签;基于所述目标信息,通过相关性分析,得到所述非结构化数据间的匹配度;抽取所述目标信息中的实体对应词条,并在所述词条上标注所述匹配度;基于所述匹配度,建立所述目标信息中的实体对应的图数据库,并生成所述实体图谱。5.根据权利要求4所述的数据检索方法,其特征在于,所述基于所述本地业务系统数据和外源性数据的具体来源,对所述结构化数据和非结构化数据分别添加对应的来源标签,包括:在所述结构化数据副本中添加所述结构化数据对应的来源性标注;在同一结构化数据副本中的子数据中,根据数据来源设置对应的优先级标签;在所述非结构化数据的图数据库中,添加每个实体对应的来源标签。6.根据权利要求2至5中任一项所述的数据检索方法,其特征在于,所述外源性数据通
过如下方式采集得到:若所述外源性数据为结构化数据,实时监听所述外源性数据对应外源业务系统的外源数据库的数据变化;根据数据变化对应的数据内容的类型,采集外源性数据中的结构化数据;若所述外源性数据为非结构化数据,获取所述外源业务系统的推送请求;基于所述推送请求,获取所述外源业务系统对应的外源性数据。7.根据权利要求6所述的数据检索方法,其特征在于,所述根据数据变化对应的数据内容的类型,采集外源性数据中的结构化数据,包括:若所述数据内容为单表数据变化,向外源业务系统发送拉取任务,以提取数据信息的单表;若所述数据内容为持续增量变更信息,向外源业务系统发送订阅任务,以通过订阅增量持续获取实时的增量变更信息;若所述数据内容为未采集过的存量数据,...

【专利技术属性】
技术研发人员:张岱彬尹泓钦王豪李若刘伦陈力
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1