基于ES的文本搜索引擎的构建方法、装置、设备及介质制造方法及图纸

技术编号:27817938 阅读:17 留言:0更新日期:2021-03-30 10:22
本申请涉及人工智能技术领域,揭示了一种基于ES的文本搜索引擎的构建方法、装置、设备及介质,其中方法包括:构建ES组件和搜索引擎数据库;根据待搜索的数据源集获取待存储的文本数据存储在搜索引擎数据库中;分别对从搜索引擎数据库中获取待分析的文本数据中的每个待分析字段进行字段类型分析和重要性评分;根据目标字段类型得到目标匹配方式;根据待分析的文本数据、目标匹配方式得到目标搜索索引;根据目标重要性评分结果、ES组件的相关度评分方法得到目标搜索结果排序方式;根据ES组件、搜索引擎数据库、目标搜索结果排序方式、目标搜索索引得到目标文本搜索引擎。从而不需针对不同的数据源单独构建文本搜索引擎。不同的数据源单独构建文本搜索引擎。不同的数据源单独构建文本搜索引擎。

【技术实现步骤摘要】
基于ES的文本搜索引擎的构建方法、装置、设备及介质


[0001]本申请涉及到人工智能
,特别是涉及到一种基于ES的文本搜索引擎的构建方法、装置、设备及介质。

技术介绍

[0002]互联网时代,在企业信息化转型过程中,越来越多的使用搜索引擎支持员工进行内部信息的检索(比如:人员通讯录、人员信息、OA办公模块、文件等)。因为检索内容来自不同数据源、每个数据源的数据内容不同、不同数据源的交互方式不同,使现有技术的搜索引擎难以适应,导致需要开发不同的搜索引擎,从而增加了搜索引擎开发的开发成本。

技术实现思路

[0003]本申请的主要目的为提供一种基于ES的文本搜索引擎的构建方法、装置、设备及介质,旨在解决现有技术的搜索引擎难以适应检索内容来自不同数据源、每个数据源的数据内容不同、不同数据源的交互方式的应用场景的技术问题。
[0004]为了实现上述专利技术目的,本申请提出一种基于ES的文本搜索引擎的构建方法,所述方法包括:构建ES组件,基于所述ES组件构建搜索引擎数据库;获取待搜索的数据源集,根据所述待搜索的数据源集获取待存储的文本数据,将所述待存储的文本数据存储在所述搜索引擎数据库中;从所述搜索引擎数据库中获取文本数据,得到待分析的文本数据,分别对所述待分析的文本数据中的每个待分析字段进行字段类型分析,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标字段类型;分别对所述待分析的文本数据中的每个所述待分析字段进行重要性评分,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标重要性评分结果;根据所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标字段类型进行匹配方式设置,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标匹配方式;根据所述待分析的文本数据、所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标匹配方式进行所述ES组件的搜索索引构建,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标搜索索引;根据所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标重要性评分结果、所述ES组件的相关度评分方法进行搜索结果排序方式设置,得到目标搜索结果排序方式;根据所述ES组件、所述搜索引擎数据库、所述目标搜索结果排序方式、所述待分析的文本数据对应的各个待分析字段各自对应的所述目标搜索索引进行搜索引擎封装,得到目标文本搜索引擎。
[0005]进一步的,所述分别对所述待分析的文本数据中的每个待分析字段进行字段类型分析,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标字段类型的步骤,包括:分别对所述待分析的文本数据的每个所述待分析字段进行信息熵计算,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标字段信息熵;根据所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标字段信息熵进行字段类型分析,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标字段类型。
[0006]进一步的,根据所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标字段信息熵进行字段类型分析,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标字段类型的步骤,包括:当时确定所述目标字段类型为码值型,否则确定所述目标字段类型为非码值型;其中,所述目标字段类型的计算公式Type(i)如下:其中,是所述待分析的文本数据对应的第i个所述待分析字段对应的所述目标字段信息熵,是所述待分析的文本数据对应的第i个所述待分析字段对应的去重后的字段值的数量,k是所述待分析的文本数据对应的第i个所述待分析字段的所有字段值的数量,是所述待分析的文本数据对应的第i个所述待分析字段的非空的字段值的数量, k(i)是所述待分析的文本数据对应的第i个所述待分析字段的字段值的数量,C是一个常数;n(i)是所述待分析的文本数据对应的第i个所述待分析字段的去重后的字段值的数量,p(j)是所述待分析的文本数据对应的第i个所述待分析字段是去重后的字段值中第j个字段值的概率,log()是对数函数;是判断所述待分析的文本数据对应的第i个所述待分析字段的去重后的字段值中第j个字段值是否为空,当去重后的字段值中第j个字段值为空时确定为0,当去重后的字段值中第j个字段值不为空时确定为1。
[0007]进一步的,所述根据所述待分析的文本数据对应的各个所述待分析字段各自对应
的所述目标字段类型进行匹配方式设置,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标匹配方式的步骤,包括:分别判断所述待分析的文本数据对应的每个所述待分析字段对应的所述目标字段类型是否码值型;当所述目标字段类型为所述码值型时,将所述目标字段类型对应的所述待分析字段对应的所述目标匹配方式确定为所述ES组件的精确匹配搜索方式,否则将所述目标字段类型对应的所述待分析字段对应的所述目标匹配方式确定为关键词分词匹配度匹配方式。
[0008]进一步的,所述将所述目标字段类型对应的所述待分析字段对应的所述目标匹配方式确定为关键词分词匹配度匹配方式的步骤,包括:将非码值型的所述目标字段类型对应的所述待分析字段对应的所述目标匹配方式确定为所述关键词分词匹配度匹配方式,其中,所述关键词分词匹配度匹配方式是是指将关键词分词匹配度设置为100%;其中,所述关键词分词匹配度的计算公式match是:其中,是搜索关键词分词后的词语数量,是搜索关键词分词后的词语在搜索结果被命中的去重后的词语的数量。
[0009]进一步的,所述根据所述待分析的文本数据、所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标匹配方式进行所述ES组件的搜索索引构建,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标搜索索引的步骤,包括:从所述待分析的文本数据中提取一个所述待分析字段作为目标待分析字段;根据所述目标待分析字段和所述目标待分析字段对应的所述目标匹配方式进行所述ES组件的搜索索引构建,得到所述目标待分析字段对应的所述目标搜索索引;重复执行所述从所述待分析的文本数据中提取一个所述待分析字段作为目标待分析字段的步骤,直至确定所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标搜索索引。
[0010]进一步的,所述根据所述ES组件、所述搜索引擎数据库、所述目标搜索结果排序方式、所述待分析的文本数据对应的各个待分析字段各自对应的所述目标搜索索引进行搜索引擎封装,得到目标文本搜索引擎的步骤,包括:将所述待分析的文本数据对应的各个待分析字段各自对应的所述目标搜索索引设置为所述ES组件的索引,得到完成索引构建的ES组件;将所述目标搜索结果排序方式设置为所述完成索引构建的ES组件的搜索结果排序方式,得到目标ES组件;将所述目标ES组件和所述搜索引擎数据库进行封装,得到所述目标文本搜索引擎。
[0011]本申请还提出了一种基于ES的文本搜索引擎的构建装置,所述装置包括:ES组件和数据库构建模块,用于构建ES组件,基于所述ES组件构建搜索引擎数据
库;待存储的文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于ES的文本搜索引擎的构建方法,其特征在于,所述方法包括:构建ES组件,基于所述ES组件构建搜索引擎数据库;获取待搜索的数据源集,根据所述待搜索的数据源集获取待存储的文本数据,将所述待存储的文本数据存储在所述搜索引擎数据库中;从所述搜索引擎数据库中获取文本数据,得到待分析的文本数据,分别对所述待分析的文本数据中的每个待分析字段进行字段类型分析,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标字段类型;分别对所述待分析的文本数据中的每个所述待分析字段进行重要性评分,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标重要性评分结果;根据所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标字段类型进行匹配方式设置,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标匹配方式;根据所述待分析的文本数据、所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标匹配方式进行所述ES组件的搜索索引构建,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标搜索索引;根据所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标重要性评分结果、所述ES组件的相关度评分方法进行搜索结果排序方式设置,得到目标搜索结果排序方式;根据所述ES组件、所述搜索引擎数据库、所述目标搜索结果排序方式、所述待分析的文本数据对应的各个待分析字段各自对应的所述目标搜索索引进行搜索引擎封装,得到目标文本搜索引擎。2.根据权利要求1所述的基于ES的文本搜索引擎的构建方法,其特征在于,所述分别对所述待分析的文本数据中的每个待分析字段进行字段类型分析,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标字段类型的步骤,包括:分别对所述待分析的文本数据的每个所述待分析字段进行信息熵计算,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标字段信息熵;根据所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标字段信息熵进行字段类型分析,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标字段类型。3.根据权利要求2所述的基于ES的文本搜索引擎的构建方法,其特征在于,根据所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标字段信息熵进行字段类型分析,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标字段类型的步骤,包括:当时确定所述目标字段类型为码值型,否则确定所述目标字段类型为非码值型;其中,所述目标字段类型的计算公式Type(i)如下:
其中,是所述待分析的文本数据对应的第i个所述待分析字段对应的所述目标字段信息熵,是所述待分析的文本数据对应的第i个所述待分析字段对应的去重后的字段值的数量,k是所述待分析的文本数据对应的第i个所述待分析字段的所有字段值的数量,是所述待分析的文本数据对应的第i个所述待分析字段的非空的字段值的数量, k(i)是所述待分析的文本数据对应的第i个所述待分析字段的字段值的数量,C是一个常数;n(i)是所述待分析的文本数据对应的第i个所述待分析字段的去重后的字段值的数量,p(j)是所述待分析的文本数据对应的第i个所述待分析字段是去重后的字段值中第j个字段值的概率,log()是对数函数;是判断所述待分析的文本数据对应的第i个所述待分析字段的去重后的字段值中第j个字段值是否为空,当去重后的字段值中第j个字段值为空时确定为0,当去重后的字段值中第j个字段值不为空时确定为1。4.根据权利要求1所述的基于ES的文本搜索引擎的构建方法,其特征在于,所述根据所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标字段类型进行匹配方式设置,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标匹配方式的步骤,包括:分别判断所述待分析的文本数据对应的每个所述待分析字段对应的所述目标字段类型是否码值型;当所述目标字段类型为所述码值型时,将所述目标字段类型对应的所述待分析字段对应的所述目标匹配方式确定为所述ES组件的精确匹配搜索方式,否则将所述目标字段类型对应的所述待分析字段对应的所述目标匹配方式确定为关键词分词匹配度匹配方式。5...

【专利技术属性】
技术研发人员:张玉君罗晓生钱勇杜晓东谢良义
申请(专利权)人:深圳平安智汇企业信息管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1