一种信息检索方法及系统技术方案

技术编号：11079720 阅读：145 留言：0更新日期：2015-02-25 18:03

本发明专利技术一种信息检索方法，包括如下步骤：S10：输入用于排序学习的数据，对其进行特征提取；S20：输入所得到的数据样本特征，输入样本间的相似性信息，得到由查询样本-排序列表对组成的训练数据集；S30：建立数学模型；S40：推导各参数的更新公式，迭代地更新布莱格曼距离函数的参数和模型的松弛变量，直至各参数收敛；S50：对新输入的查询样本在数据集上进行检索，将数据集中的各样本按照与查询样本的距离以升序排列，输出该排序作为检索结果。本发明专利技术信息检索方法结合了结构支持向量机和布莱格曼距离函数的优点，克服了传统距离函数的局限，检索准确率高。

全部详细技术资料下载

【技术实现步骤摘要】
一种信息检索方法及系统
本专利技术涉及信息检索
，具体涉及一种信息检索方法及系统。
技术介绍
在信息时代，各种形式的数据呈爆炸性增长，从海量的数据中检索出用户所需信息的信息检索技术显得尤为重要。特别地，在信息检索和数据挖掘领域中，排序学习是一个活跃的研究主题。排序学习的目标在于学习一个排序函数以精确刻画数据样本间的相关关系，也即，该排序函数对输入的查询样本输出一个排序列表，使得与查询样本相关的样本尽量排在前面，与查询样本不相关的样本尽量排在后面。由于数据样本间的关联程度通常由一个相似度或距离度量确定，因此排序学习的本质是学习一个相似度或距离度量函数，来准确刻画数据样本之间的相关关系，使相似或相关的样本距离近，不相似或不相关的样本距离远。如何学习一个有效的距离函数来捕捉数据特征的内在模式和数据间的相关关系，是数据挖掘中的一个基本问题。传统的距离度量学习方法有两个局限。第一，已有的距离度量学习方法通常假设一个在全体特征空间中固定的度量，从而缺乏灵活性和泛化能力，难以挖掘数据的局部模式。第二，对于高维的数据，传统的度量学习方法的计算代价很高，甚至难以处理。以最常用的玛氏距离为例： dM(xa, xb) = (xa-xb) tM (xa-xb) 其中M是对称半正定矩阵。度量矩阵M在整个输入空间中是固定不变的，缺乏灵活性，且待求解的矩阵M的变量维度是数据维度的平方，从而难以处理高维度的数据。此夕卜，玛氏距离可等价于将数据从原特征空间线性映射到另一个隐含子空间后的平方欧式距离： dM(...
一种信息检索方法及系统

【技术保护点】
一种信息检索方法，其特征在于，包括如下步骤：S10：输入用于排序学习的数据，对其进行特征提取，将原始数据转化为可用于机器学习的数据样本特征；S20：输入所得到的数据样本特征，输入样本间的相似性信息，得到由查询样本‑排序列表对组成的训练数据集；S30：基于结构支持向量机和布莱格曼距离函数，对所得到的由查询样本‑排序列表对组成的训练数据集建立数学模型；S40：根据所建立的数学模型，推导各参数的更新公式，迭代地更新布莱格曼距离函数的参数和模型的松弛变量，直至各参数收敛；S50：根据所得到的布莱格曼距离函数，对新输入的查询样本在数据集上进行检索，将数据集中的各样本按照与查询样本的距离以升序排列，输出该排序作为检索结果。

【技术特征摘要】
1. 一种信息检索方法，其特征在于，包括如下步骤： S10 :输入用于排序学习的数据，对其进行特征提取，将原始数据转化为可用于机器学习的数据样本特征； S20 :输入所得到的数据样本特征，输入样本间的相似性信息，得到由查询样本-排序列表对组成的训练数据集； S30 :基于结构支持向量机和布莱格曼距离函数，对所得到的由查询样本-排序列表对组成的训练数据集建立数学模型； S40 :根据所建立的数学模型，推导各参数的更新公式，迭代地更新布莱格曼距离函数的参数和模型的松弛变量，直至各参数收敛； S50 :根据所得到的布莱格曼距离函数，对新输入的查询样本在数据集上进行检索，将数据集中的各样本按照与查询样本的距离以升序排列，输出该排序作为检索结果。2. 如权利要求1所述的信息检索方法，其特征在于：步骤S30中，以结构支持向量机为框架建立结构学习模型，优化基于布莱格曼距离函数的总体排序结构代价，并添加正则项进行调节；其中，所建立的数学模型包括参数模型和非参数模型，模型中的布莱格曼距离函数具有参数化形式或非参数化形式。3. 如权利要求2所述的信息检索方法，其特征在于，步骤S40包括有： 5401 :利用单松弛变量割平面法对所建立的数学模型作近似，使模型参数可解，并推导模型参数的更新公式； 5402 :根据推导的更新公式，迭代地更新模型的参数，直至各参数收敛。4. 一种信息检索系统，其特征在于...

【专利技术属性】
技术研发人员：皮特，李玺，张仲非，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人