当前位置: 首页 > 专利查询>浙江大学专利>正文

一种信息检索方法及系统技术方案

技术编号:11079720 阅读:145 留言:0更新日期:2015-02-25 18:03
本发明专利技术一种信息检索方法,包括如下步骤:S10:输入用于排序学习的数据,对其进行特征提取;S20:输入所得到的数据样本特征,输入样本间的相似性信息,得到由查询样本-排序列表对组成的训练数据集;S30:建立数学模型;S40:推导各参数的更新公式,迭代地更新布莱格曼距离函数的参数和模型的松弛变量,直至各参数收敛;S50:对新输入的查询样本在数据集上进行检索,将数据集中的各样本按照与查询样本的距离以升序排列,输出该排序作为检索结果。本发明专利技术信息检索方法结合了结构支持向量机和布莱格曼距离函数的优点,克服了传统距离函数的局限,检索准确率高。

【技术实现步骤摘要】
一种信息检索方法及系统
本专利技术涉及信息检索
,具体涉及一种信息检索方法及系统。
技术介绍
在信息时代,各种形式的数据呈爆炸性增长,从海量的数据中检索出用户所需信 息的信息检索技术显得尤为重要。特别地,在信息检索和数据挖掘领域中,排序学习是一个 活跃的研究主题。排序学习的目标在于学习一个排序函数以精确刻画数据样本间的相关关 系,也即,该排序函数对输入的查询样本输出一个排序列表,使得与查询样本相关的样本尽 量排在前面,与查询样本不相关的样本尽量排在后面。由于数据样本间的关联程度通常由 一个相似度或距离度量确定,因此排序学习的本质是学习一个相似度或距离度量函数,来 准确刻画数据样本之间的相关关系,使相似或相关的样本距离近,不相似或不相关的样本 距离远。 如何学习一个有效的距离函数来捕捉数据特征的内在模式和数据间的相关关系, 是数据挖掘中的一个基本问题。传统的距离度量学习方法有两个局限。第一,已有的距离 度量学习方法通常假设一个在全体特征空间中固定的度量,从而缺乏灵活性和泛化能力, 难以挖掘数据的局部模式。第二,对于高维的数据,传统的度量学习方法的计算代价很高, 甚至难以处理。以最常用的玛氏距离为例: dM(xa, xb) = (xa-xb) tM (xa-xb) 其中M是对称半正定矩阵。度量矩阵M在整个输入空间中是固定不变的,缺乏灵 活性,且待求解的矩阵M的变量维度是数据维度的平方,从而难以处理高维度的数据。此 夕卜,玛氏距离可等价于将数据从原特征空间线性映射到另一个隐含子空间后的平方欧式距 离: dM(xa, xb) = I I R (xa-xb) I I2 其中RtR = M。因此玛氏距离只能挖掘数据特征中的线性关联模式,不能捕捉隐含 在数据特征中的复杂的非线性模式。综上,我们需要开发一个新的距离函数学习方法以克 服上述传统距离函数的局限。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种信息检索方法,能够捕捉隐含在数 据中的复杂的非线性模式,并能高效地处理高维度数据,从而更精确地使相似或相关的样 本距离更近,不相似或不相关的样本距离更远,提高检索的效率和精确度。 为实现上述目的,本专利技术的技术方案为: 一种信息检索方法,包括如下步骤: SlO :输入用于排序学习的数据,对其进行特征提取,将原始数据转化为可用于机 器学习的数据样本特征; S20 :输入所得到的数据样本特征,输入样本间的相似性信息,得到由查询样 本-排序列表对组成的训练数据集; S30:基于结构支持向量机和布莱格曼距离函数,对所得到的由查询样本-排序列 表对组成的训练数据集建立数学模型; S40:根据所建立的数学模型,推导各参数的更新公式,迭代地更新布莱格曼距离 函数的参数和模型的松弛变量,直至各参数收敛; S50:根据所得到的布莱格曼距离函数,对新输入的查询样本在数据集上进行检 索,将数据集中的各样本按照与查询样本的距离以升序排列,输出该排序作为检索结果。 进一步地,步骤S30中,以结构支持向量机为框架建立结构学习模型,优化基于布 莱格曼距离函数的总体排序结构代价,并添加正则项进行调节; 其中,所建立的数学模型包括参数模型和非参数模型,模型中的布莱格曼距离函 数具有参数化形式或非参数化形式。 进一步地,步骤S40包括有: S401 :利用单松弛变量割平面法对所建立的数学模型作近似,使模型参数可解,并 推导模型参数的更新公式; S402 :根据推导的更新公式,迭代地更新模型的参数,直至各参数收敛。 本专利技术的另一技术方案为: -种信息检索系统,包括数据预处理模块、模型输入处理模块、建模模块以及参数 更新模块与检索模块;其中,数据预处理模块输入用于排序学习的数据,对其进行特征提 取,输出可用于机器学习的数据样本特征;模型输入处理模块输入由数据预处理模块得到 的数据样本特征,输入样本间的相似性信息,输出由查询样本-排序列表对组成的训练数 据集;建模模块用于根据模型输入处理模块输出的由查询样本-排序列表对组成的训练数 据集,基于结构支持向量机和布莱格曼距离函数,建立数学模型;参数更新模块用于根据建 模模块输出的数学模型,推导各参数的更新公式,迭代地更新布莱格曼距离函数的参数和 模型的松弛变量,直至收敛;检索模块用于根据参数迭代更新模块得到的布莱格曼距离函 数,对新输入的查询样本进行检索,将数据集中的各样本按照与查询样本的距离以升序排 列,输出该排序作为检索结果。 进一步地,所述建模模块还用于以结构支持向量机为框架建立结构学习模型,优 化基于布莱格曼距离函数的总体排序结构代价,并添加正则项进行调节。 进一步地,所述建模模块还用于参数模型和非参数模型的建模。 进一步地,所述参数更新模块利用单松弛变量割平面法对建模模块输出的数学模 型作近似,使模型参数可解,并推导模型参数的更新公式;根据推导的更新公式,迭代地更 新模型的参数,直至各参数收敛。 本专利技术信息检索方法结合了结构支持向量机和布莱格曼距离函数的优点,克服了 传统距离函数的局限。相比于现有的排序学习方法和距离度量学习方法,本专利技术提出的方 法有更高的检索准确率。 【附图说明】 图1为本专利技术的方法流程图示。 图2为本专利技术的建模参数更新流程图。 图3为本专利技术信息检索系统的模块结构框图。 【具体实施方式】 本专利技术实施例提供了 一种信息检索方法。 为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术 实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述 的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域的 技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。 本专利技术的说明书和权利要求书及上述附图中的术语第一、第二等是用于区别 类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情 况下可以互换,这仅仅是描述本专利技术的实施例中对相同属性的对象在描述时所采用的区分 方式。此外,术语包括和具有以及他们的任何变形,意图在于覆盖不排他的包含,以 便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清 楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。 以下分别进行详细说明。 参照图1所不,本专利技术一种信息检索方法以结构支持向量机为框架学习一个布莱 格曼距离函数,据此可对新的查询样本输出其检索结果排序。具体包括如下步骤: SlO :输入用于排序学习的数据,对其进行特征提取,将原始数据转化为可用于机 器学习的数据样本特征; S20 :输入所得到的数据样本特征,输入样本间的相似性信息,得到由查询样 本-排序列表对组成的训练数据集; S30 :基于结构支持向量机和布莱格曼距离函数,对所得到的由查询样本-排序列 表对组成的训练数据集建立数学模型; 进一步地,步骤S30包括: S301 :以结构支持向量机为框架建立结构学习模型,优化基于布莱格曼距离函数 的总体排序结构代价,并添加正则项进本文档来自技高网
...
一种信息检索方法及系统

【技术保护点】
一种信息检索方法,其特征在于,包括如下步骤:S10:输入用于排序学习的数据,对其进行特征提取,将原始数据转化为可用于机器学习的数据样本特征;S20:输入所得到的数据样本特征,输入样本间的相似性信息,得到由查询样本‑排序列表对组成的训练数据集;S30:基于结构支持向量机和布莱格曼距离函数,对所得到的由查询样本‑排序列表对组成的训练数据集建立数学模型;S40:根据所建立的数学模型,推导各参数的更新公式,迭代地更新布莱格曼距离函数的参数和模型的松弛变量,直至各参数收敛;S50:根据所得到的布莱格曼距离函数,对新输入的查询样本在数据集上进行检索,将数据集中的各样本按照与查询样本的距离以升序排列,输出该排序作为检索结果。

【技术特征摘要】
1. 一种信息检索方法,其特征在于,包括如下步骤: S10 :输入用于排序学习的数据,对其进行特征提取,将原始数据转化为可用于机器学 习的数据样本特征; S20 :输入所得到的数据样本特征,输入样本间的相似性信息,得到由查询样本-排序 列表对组成的训练数据集; S30 :基于结构支持向量机和布莱格曼距离函数,对所得到的由查询样本-排序列表对 组成的训练数据集建立数学模型; S40 :根据所建立的数学模型,推导各参数的更新公式,迭代地更新布莱格曼距离函数 的参数和模型的松弛变量,直至各参数收敛; S50 :根据所得到的布莱格曼距离函数,对新输入的查询样本在数据集上进行检索,将 数据集中的各样本按照与查询样本的距离以升序排列,输出该排序作为检索结果。2. 如权利要求1所述的信息检索方法,其特征在于:步骤S30中,以结构支持向量机为 框架建立结构学习模型,优化基于布莱格曼距离函数的总体排序结构代价,并添加正则项 进行调节; 其中,所建立的数学模型包括参数模型和非参数模型,模型中的布莱格曼距离函数具 有参数化形式或非参数化形式。3. 如权利要求2所述的信息检索方法,其特征在于,步骤S40包括有: 5401 :利用单松弛变量割平面法对所建立的数学模型作近似,使模型参数可解,并推导 模型参数的更新公式; 5402 :根据推导的更新公式,迭代地更新模型的参数,直至各参数收敛。4. 一种信息检索系统,其特征在于...

【专利技术属性】
技术研发人员:皮特李玺张仲非
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1