【技术实现步骤摘要】
基于ES的文本搜索引擎的构建方法、装置、设备及介质
[0001]本申请涉及到人工智能
,特别是涉及到一种基于ES的文本搜索引擎的构建方法、装置、设备及介质。
技术介绍
[0002]互联网时代,在企业信息化转型过程中,越来越多的使用搜索引擎支持员工进行内部信息的检索(比如:人员通讯录、人员信息、OA办公模块、文件等)。因为检索内容来自不同数据源、每个数据源的数据内容不同、不同数据源的交互方式不同,使现有技术的搜索引擎难以适应,导致需要开发不同的搜索引擎,从而增加了搜索引擎开发的开发成本。
技术实现思路
[0003]本申请的主要目的为提供一种基于ES的文本搜索引擎的构建方法、装置、设备及介质,旨在解决现有技术的搜索引擎难以适应检索内容来自不同数据源、每个数据源的数据内容不同、不同数据源的交互方式的应用场景的技术问题。
[0004]为了实现上述专利技术目的,本申请提出一种基于ES的文本搜索引擎的构建方法,所述方法包括:构建ES组件,基于所述ES组件构建搜索引擎数据库;获取待搜索的数据源集,根据所述待搜索的数据源集获取待存储的文本数据,将所述待存储的文本数据存储在所述搜索引擎数据库中;从所述搜索引擎数据库中获取文本数据,得到待分析的文本数据,分别对所述待分析的文本数据中的每个待分析字段进行字段类型分析,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标字段类型;分别对所述待分析的文本数据中的每个所述待分析字段进行重要性评分,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目 ...
【技术保护点】
【技术特征摘要】
1.一种基于ES的文本搜索引擎的构建方法,其特征在于,所述方法包括:构建ES组件,基于所述ES组件构建搜索引擎数据库;获取待搜索的数据源集,根据所述待搜索的数据源集获取待存储的文本数据,将所述待存储的文本数据存储在所述搜索引擎数据库中;从所述搜索引擎数据库中获取文本数据,得到待分析的文本数据,分别对所述待分析的文本数据中的每个待分析字段进行字段类型分析,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标字段类型;分别对所述待分析的文本数据中的每个所述待分析字段进行重要性评分,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标重要性评分结果;根据所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标字段类型进行匹配方式设置,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标匹配方式;根据所述待分析的文本数据、所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标匹配方式进行所述ES组件的搜索索引构建,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标搜索索引;根据所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标重要性评分结果、所述ES组件的相关度评分方法进行搜索结果排序方式设置,得到目标搜索结果排序方式;根据所述ES组件、所述搜索引擎数据库、所述目标搜索结果排序方式、所述待分析的文本数据对应的各个待分析字段各自对应的所述目标搜索索引进行搜索引擎封装,得到目标文本搜索引擎。2.根据权利要求1所述的基于ES的文本搜索引擎的构建方法,其特征在于,所述分别对所述待分析的文本数据中的每个待分析字段进行字段类型分析,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标字段类型的步骤,包括:分别对所述待分析的文本数据的每个所述待分析字段进行信息熵计算,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标字段信息熵;根据所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标字段信息熵进行字段类型分析,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标字段类型。3.根据权利要求2所述的基于ES的文本搜索引擎的构建方法,其特征在于,根据所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标字段信息熵进行字段类型分析,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标字段类型的步骤,包括:当时确定所述目标字段类型为码值型,否则确定所述目标字段类型为非码值型;其中,所述目标字段类型的计算公式Type(i)如下:
其中,是所述待分析的文本数据对应的第i个所述待分析字段对应的所述目标字段信息熵,是所述待分析的文本数据对应的第i个所述待分析字段对应的去重后的字段值的数量,k是所述待分析的文本数据对应的第i个所述待分析字段的所有字段值的数量,是所述待分析的文本数据对应的第i个所述待分析字段的非空的字段值的数量, k(i)是所述待分析的文本数据对应的第i个所述待分析字段的字段值的数量,C是一个常数;n(i)是所述待分析的文本数据对应的第i个所述待分析字段的去重后的字段值的数量,p(j)是所述待分析的文本数据对应的第i个所述待分析字段是去重后的字段值中第j个字段值的概率,log()是对数函数;是判断所述待分析的文本数据对应的第i个所述待分析字段的去重后的字段值中第j个字段值是否为空,当去重后的字段值中第j个字段值为空时确定为0,当去重后的字段值中第j个字段值不为空时确定为1。4.根据权利要求1所述的基于ES的文本搜索引擎的构建方法,其特征在于,所述根据所述待分析的文本数据对应的各个所述待分析字段各自对应的所述目标字段类型进行匹配方式设置,得到所述待分析的文本数据对应的各个所述待分析字段各自对应的目标匹配方式的步骤,包括:分别判断所述待分析的文本数据对应的每个所述待分析字段对应的所述目标字段类型是否码值型;当所述目标字段类型为所述码值型时,将所述目标字段类型对应的所述待分析字段对应的所述目标匹配方式确定为所述ES组件的精确匹配搜索方式,否则将所述目标字段类型对应的所述待分析字段对应的所述目标匹配方式确定为关键词分词匹配度匹配方式。5...
【专利技术属性】
技术研发人员:张玉君,罗晓生,钱勇,杜晓东,谢良义,
申请(专利权)人:深圳平安智汇企业信息管理有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。