【技术实现步骤摘要】
一种地理信息资源检索意图检测方法及计算机可读介质
[0001]本专利技术属于地理信息检索
,尤其涉及一种地理信息资源检索意图检测方法及计算机可读介质。
技术介绍
[0002]随着地理与地球科学数据采集与共享技术日益完善,互联网上各式地理信息资源大量涌现,为地学研究与应用提供丰富数据资源的同时,也给准确的资源检索与发现带来巨大挑战。目前,地理信息资源的检索方法大致分为基于语义的检索、基于内容的检索和基于用户相关反馈的检索。基于语义的检索通过匹配用户输入的检索词与资源元数据中的标题、描述等字段实现检索,这类方法可解释性强但过度依赖用户对文本化检索条件的精准表述,亦难以应对数据资源元数据字段缺失导致的匹配失效问题。基于内容的检索利用图像的多模态特征信息进行相似度匹配完成检索,能够应对元数据缺失或错误的问题,但容易导致视觉特征的“过拟合”(例如匹配中过度关注地理要素的几何形态等底层视觉特征,误将等高线识别为河流)与“欠匹配”(例如检索需求为水体时,若输入的样例图像中仅为线状水体则面状水体无法匹配),难以跨越底层图像特征与高层语义之间的“语义鸿沟”。基于用户相关反馈的检索,利用用户对当前检索结果的相关反馈数据训练分类器或构建典型样本进行重检索,实现检索结果的精化,该方法降低了用户检索需求表达的成本,但由于缺少对用户检索需求的显式建模,导致检索需求理解不准确且检索结果可解释性差。
[0003]基于意图的检索通过显式建模与识别用户需求提高检索精度,可为地理信息资源检索提供新的技术途径。基于预定义类别的意图识别方法在建 ...
【技术保护点】
【技术特征摘要】
1.一种地理信息资源检索意图检测方法,其特征在于:包括以下步骤:步骤S1:设计一种“意图
‑
子意图
‑
维度分量”三层嵌套的地理信息资源检索意图形式化表达模型;步骤S2:以用户相关反馈样本为顶点、样本间属性的同义与上下位关系为边,生成语义泛化程度不同的若干个超图构图方案;步骤S3:定义分割代价度量指标实现最优超图构图及对应的超图分割方案的选择,得到若干个可能表达同一检索子意图的子超图;步骤S4:从每个子超图中提取对应的子意图并评价其置信度,然后将所有子意图合并为意图。2.根据权利要求1所述的地理信息资源检索意图检测方法,其特征在于:步骤S1具体包括:步骤S11:定义用户地理信息资源检索意图由若干个子意图构成;步骤S12:定义子意图中可以用于约束检索条件的多种维度分量;步骤S13:定义每种维度分量上可能的概念取值集合。3.根据权利要求1所述的地理信息资源检索意图检测方法,其特征在于:步骤S2具体包括:步骤S21:将当前用户相关反馈中每个正样本作为超图的顶点;步骤S22:构建每个正样本对应的标签集合;步骤S23:使用基于语义的频繁项集挖掘方法,得到在多个正样本的标签集合中频繁共现的多个标签组合;步骤S24:生成每个标签组合对应的超图构图方案。4.根据权利要求1所述的地理信息资源检索意图检测方法,其特征在于:步骤S3具体包括:步骤S31:结合周氏归一化拉普拉斯算子得到每个超图的拉普拉斯矩阵,并求解拉普拉斯矩阵的特征值和特征向量;步骤S32:基于分割代价度量指标实现K
‑
means聚类算法参数的自适应设定,生成每个超图的分割方案;步骤S33:基于分割代价度量指标,从多个标签组合对应的多个超图的分割方案中选出一个超图的分割方案作为最优分割方案,并输出该方案对应的一组子超图。5.根据权利要求1所述的地理信息资源检索意图检测方法,其特征在于:步骤S4具体包括:步骤S41:计算每个子超图中每条超边的覆盖度,筛选出高于顶点覆盖度阈值的超边构建子意图的维度分量;步骤S42:计算每个子意图的置信度;步骤S43:将所有子意图合并为意图。6.根据权利要求2所述的地理信息资源检索意图检测方法,其特征在于,步骤S11所述用户地理信息资源检索意图由若干个子意图构成,具体如下:
其中,I为用户地理信息资源检索意图,M为子意图的数量,I
k
为意图中第k个子意图,∨表示逻辑“或”关系,k∈[1,M];步骤S12所述子意图中可以用于约束检索条件的多种维度分量,具体如下:其中,N为维度分量的数量,表示第k个子意图中第j个维度分量,∧表示逻辑“与”关系,j∈[1,N];步骤S13所述每种维度分量上可能的概念取值集合,具体如下:其中,为意图中第k个子意图的第j个维度分量中第h个概念取值,H为概念取值的数量,无同义与上下位关系,h∈[1,H],x∈[1,H],y∈[1,H]。7.根据权利要求3所述的地理信息资源检索意图检测方法,其特征在于:步骤S21所述将当前用户相关反馈中每个正样本作为超图的顶点,具体如下:每个正样本对应超图的每个顶点;步骤S22所述构建每个正样本对应的标签集合,具体如下:获取用户相关反馈的多个正样本及每个正样本的多个标签(所述标签为外部知识库中的概念,与用户地理信息资源检索意图中的概念取值来源相同);基于外部知识库中概念的同义和上下位关系,获取所有标签的多个最低公共祖先标签;为每个正样本构建由多个标签和多个最低公共祖先标签共同构成的标签集合;步骤S23所述使用基于语义的频繁项集挖掘方法,得到在多个正样本的标签集合中频繁共现的多个标签组合,具体如下:1)采用Apriori算法,将每个正样本标签集合中的单个标签作为频繁项集挖掘中的单个项,计算所有单个项的支持度;所述支持度定义为:每个项在所有正样本标签集合中出现的频率;2)判断所有单个项的支持度是否大于最小支持度阈值,若是则保留,若不是则剔除,得到频繁1项集;3)以频繁n
‑
1项集为基础(初始n=2),连接生成候选n项集,每个项集是由n个标签组成的集合;4)基于外部知识库中概念的同义和上下位关系,剔除候选n项集中不满足单个项取值无同义或上下位概念约束的项集;5)计算候选n项集中每个项的支持度;判断每个项的支持度是否大于最小支持度阈值,若是则保留,若不是则剔除,得到频繁n项集;
6)若频繁n项集为空或只有一项,输出所有频繁项集,迭代结束;否则,令n=n+1,转入3);7)在所有频繁项集中,最大程度合并任意单个项取值无同义与上下位概念关系的项,得到所有频繁项集下的多个标签组合;步骤S24所述生成每个标签组合对应的超图构图方案,具体如下:将每个标签组合中的每个标签作为一个超图中一条超边的取值;将每条超边的取值依次与每个正样本的多个标签进行语义判断,得到每条超边包含的多个顶点、每个顶点关联的多条超边,...
【专利技术属性】
技术研发人员:桂志鹏,姜屿涵,龚健雅,吴华意,凌志鹏,刘欣婕,赵安琪,
申请(专利权)人:武汉大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。