System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据集检索,涉及一种基于元数据的数据集检索方法及装置。
技术介绍
1、数据集是为特定目的而组织在一起的相关数据的集合,对数据集进行检索是数据库的重要功能之一。现有的数据集检索方法主要为通过对数据文本字符串直接匹配进行数据检索,这种匹配的方式由于缺乏对文本语义的分析,导致用户查询与数据集描述词汇不匹配,检索结果存在较大的系统误差。
技术实现思路
1、本专利技术提出一种基于元数据的数据集检索方法及装置,用以解决用户查询与数据集描述词汇不匹配导致检索结果不准确的问题。
2、本专利技术提供了如下技术方案:
3、第一方面,本说明书提供了一种基于元数据的数据集检索方法,包括:根据数据集元数据文本,得到数据集元数据向量和数据集元数据文本倒排索引;根据所述数据集元数据向量、所述数据集元数据文本倒排索引和用户查询,得到候选数据集;根据所述候选数据集,得到数据集排序结果。
4、可选的,根据数据集元数据文本,得到数据集元数据向量和数据集元数据文本倒排索引,具体包括:根据数据集元数据文本,得到数据集元数据向量;采用倒排索引器,建立数据集元数据文本倒排索引。
5、可选的,根据所述数据集元数据向量、所述数据集元数据文本倒排索引和用户查询,得到候选数据集,具体包括:将用户查询转换为查询向量,根据所述查询向量和所述数据集元数据向量之间的相似度,确定基于向量相似度的相关数据集;采用分词器对所述用户查询进行分词,根据所述数据集元数据文本倒排索引,确定基于倒
6、可选的,根据所述候选数据集,得到数据集排序结果,具体包括:对所述候选数据集的相关性进行评分,得到数据集评分结果;根据所述数据集评分结果对所述数据集元数据文本进行排序,得到数据集排序结果。
7、可选的,按照以下公式计算所述查询向量和所述数据集元数据向量之间的相似度:
8、
9、其中,sim(c,s)为所述查询向量和所述数据集元数据向量之间的相似度,c为用户查询,s为数据集,μi为数据集元数据字段的权重,cosine(...)为余弦相似度函数,tc为所述查询向量,v为所述数据集元数据向量,i=1,2,...,l,l为数据集s可检索字段的个数。
10、可选的,按照以下公式计算所述数据集评分结果:
11、
12、其中,fdcg为前n个搜索结果的所述数据集评分结果,gidcg为某一查询理想排序的折扣累计增益值,reli为第i个位置检索结果的相关性,reli=2为完全相关,reli=1为部分相关,reli=0为不相关,i=1,2,...,n。
13、第二方面,本专利技术提供了一种基于元数据的数据集检索装置,包括:
14、数据集文本索引模块,用于根据数据集元数据文本,得到数据集元数据向量和数据集元数据文本倒排索引;
15、候选数据集确定模块,用于根据所述数据集元数据向量、所述数据集元数据文本倒排索引和用户查询,得到候选数据集;
16、数据集评分排序模块,用于根据所述候选数据集,得到数据集排序结果。
17、可选的,所述候选数据集确定模块,具体用于将用户查询转换为查询向量,根据所述查询向量和所述数据集元数据向量之间的相似度,确定基于向量相似度的相关数据集,采用分词器对所述用户查询进行分词,根据所述数据集元数据文本倒排索引,确定基于倒排索引的相关数据集,根据所述基于向量相似度的相关数据集和所述基于倒排索引的相关数据集,得到候选数据集。
18、可选的,所述数据集评分排序模块,具体用于对所述候选数据集的相关性进行评分,得到数据集评分结果,根据所述数据集评分结果对所述数据集元数据文本进行排序,得到数据集排序结果。
19、可选的,按照以下公式计算所述查询向量和所述数据集元数据向量之间的相似度:
20、
21、其中,sim(c,s)为所述查询向量和所述数据集元数据向量之间的相似度,c为用户查询,s为数据集,μi为数据集元数据字段的权重,cosine(...)为余弦相似度函数,tc为所述查询向量,v为所述数据集元数据向量,i=1,2,...,l,l为数据集s可检索字段的个数。
22、本专利技术实施例提供的基于元数据的数据集检索方法及装置通过将数据集元数据文本转换为数据集元数据向量,建立数据集元数据文本倒排索引,根据查询向量和数据集元数据向量之间的相似度得到候选数据集,根据候选数据集的评分重新对数据集进行排序,从而解决了用户查询与数据集描述词汇不匹配的问题,进一步提高了数据集检索结果的准确度。
本文档来自技高网...【技术保护点】
1.一种基于元数据的数据集检索方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,根据数据集元数据文本,得到数据集元数据向量和数据集元数据文本倒排索引,具体包括:
3.根据权利要求1所述的方法,其特征在于,根据所述数据集元数据向量、所述数据集元数据文本倒排索引和用户查询,得到候选数据集,具体包括:
4.根据权利要求1所述的方法,其特征在于,根据所述候选数据集,得到数据集排序结果,具体包括:
5.根据权利要求3所述的方法,其特征在于,按照以下公式计算所述查询向量和所述数据集元数据向量之间的相似度:
6.根据权利要求4所述的方法,其特征在于,按照以下公式计算所述数据集评分结果:
7.一种基于元数据的数据集检索装置,其特征在于,包括:
8.根据权利要求7所述的装置,其特征在于,
9.根据权利要求7所述的装置,其特征在于,
10.根据权利要求8所述的装置,其特征在于,按照以下公式计算所述查询向量和所述数据集元数据向量之间的相似度:
【技术特征摘要】
1.一种基于元数据的数据集检索方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,根据数据集元数据文本,得到数据集元数据向量和数据集元数据文本倒排索引,具体包括:
3.根据权利要求1所述的方法,其特征在于,根据所述数据集元数据向量、所述数据集元数据文本倒排索引和用户查询,得到候选数据集,具体包括:
4.根据权利要求1所述的方法,其特征在于,根据所述候选数据集,得到数据集排序结果,具体包括:
5.根据权利要求3所述...
【专利技术属性】
技术研发人员:葛鹏,冯翔宇,郝琪,
申请(专利权)人:北京航天情报与信息研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。