检索方法及其建立文本语义提取模型的方法技术

技术编号:6866916 阅读:222 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种检索方法,其包括:将待检索数据库表示成文档_关键词矩阵,所述文档关键词矩阵的行数为文档的篇数n,列数为关键词的个数m;产生一个目标矩阵以表示改善后的待检索数据库,其包括:对文档_关键词矩阵进行转置以形成关键词文档矩阵,利用奇异值分解算法将所述关键词_文档矩阵分解成关键词向量矩阵、一对角线矩阵和文档向量矩阵的乘积;和选取所述关键词向量矩阵,利用所述文档关键词矩阵和所述关键词向量矩阵相乘以建立目标矩阵;和在所述目标矩阵表示的改善后的待检索数据库中进行检索。利用本发明专利技术的检索方法大大地提高了检索速度与效率。

【技术实现步骤摘要】

本专利技术涉及检索方法及其文本语义提取模型的建立,特别是关于一种基于隐型语义分析的文本语义提取模型建立的方法。
技术介绍
随着互联网技术的飞速发展,近几十年来网上的文本信息量成指数增长,如何快速有效地组织和管理大量的文本信息已成为现代信息检索技术的首要挑战。附图说明图1为信息检索适应的环境示意图。请参照图1所示,其中计算机102通过局域网LAN与服务器104A互联,服务器104A又与服务器104B或其他服务器相连以得到从服务器104B到服务器104N的所有的网络资源,这样计算机102通过服务器104A便可获得所有与相连的服务器上的资源,网民在使用端机计算机102中变可通过信息检索来获取想要的数据资源。由于每台服务器均有很大数据量的文本资源,为服务器带来很大的负担,怎样能够快速有效地组织和管理大量的文本信息已成为现代信息检索技术的首要挑战。现代搜索引擎常利用向量空间模型来表示与组织文档,每个关键词在向量空间中表示文档的一个特征,然而由于文本集由成千上万的不同关键词组成,导致向量空间中表示文本的特征量非常庞大,从而,进一步造成文本数据挖掘技术的计算量十分惊人。一个简捷、高效的文本表示模型对现代信息检索技术的效率起着关键的作用,但是向量空间模型中文本特征的高维性已成为文本索引、分类、聚类、摘要等应用的瓶颈。同时,由于每个关键词在向量空间模型中代表一个独立的特征,这种直接的表示法忽略了特征间的相互关系。然而自然语言里往往存在大量的同义词与反义词,一个概念能够由许多不同的关键词表示,而一个关键词又可能有多重的含义。如何有效的表示文档的特征是信息检索与自然语言处理的难点与重点。现代信息检索技术常把文档中每个关键词当作一个独立的单元表示,文档中关键词的数目在向量空间模型中等价于文档特征的维数。然而由于自然语言表达习惯的多样性,直接导致特征的维数非常庞大,从而,进一步造成信息检索技术的计算量十分惊人。现有的降维技术仅仅简单地选取一些词频较高的关键词来表示文档,其特征的维数往往和原始的维数在同一个数量级,不能从本质上达到降维的目的。同时,这种直接的降维方法仍把不同的关键词当作相互独立的特征,忽略了特征间的相互关系。现代搜索引擎对检索技术提出更高的挑战,要求能从语义上检索到相关的文档, 于是基于词典和基于文集的方法应运而生,用来解决文档间语义相关性的问题。基于词典的方法利用概念的分类技术把词汇组织成树型的分层结构,树型结构中每个结点代表一个概念,每个概念包括一系列语义上相似的词汇,Wordnet提供了一个分层的树型结构和覆盖面广泛的词库,我们可以利用其概念间最短路径长度和最近共同父结点深度来计算两个关键词间的语义相关性。但是Wordnet的词库在一些专业性很强的领域仍十分有限,很难准确地衡量相关概念间的相似性。同时,在树型结构中查找概念间最短路径长度与最近父结点深度的时间复杂度非常地高。基于文集的方法通过计算两个概念在文集中覆盖的最大信息背景(信息量)来衡量概念间的相关性,概念间的信息量通过文集中两个概念及其子概念的实例重叠概率来计算,此方法需要一个全面的文集来提供丰富的信息背景支持,但也导致该方法的时间复杂度十分惊人。同时,由于概念间的相关性受限于所选取的具体文集,对于一些专家数据库该方法的作用十分有限。因此有必要提出一种改进的技术方案来克服上述问题。
技术实现思路
本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。本专利技术的目的在于提供一种建立文本语义提取模型的方法,其可以既能有效地把表示文档的特征维数降到文档篇数的数量级(原始的特征维数为关键词的数量级),去除冗余的特征,大大降低了信息检索算法的计算复杂度;同时,又能充分地发掘文档间潜在的语义联系,因为相似背景的文档往往在语义空间中分享相似的语义向量。根据本专利技术的一方面,本专利技术提供检索方法,其包括将待检索数据库表示成文档 _关键词矩阵,所述文档_关键词矩阵的行数为文档的篇数n,列数为关键词的个数m ;产生一个目标矩阵以表示改善后的待检索数据库,其包括对文档_关键词矩阵进行转置以形成关键词_文档矩阵,利用奇异值分解算法将所述关键词_文档矩阵分解成关键词向量矩阵、一对角线矩阵和文档向量矩阵的乘积;和选取所述关键词向量矩阵,利用所述文档_关键词矩阵和所述关键词向量矩阵相乘以建立目标矩阵;和在所述目标矩阵表示的改善后的待检索数据库中进行检索。进一步的,其中所述对角线矩阵是一个以文档篇数η为秩的对角线矩阵,所述关键词向量矩阵为m阶矩阵,所述文档向量矩阵为η阶矩阵。进一步的,其中所述对角线矩阵是一个以小于文档篇数η的数量k为秩的对角线矩阵,所述关键词向量矩阵的行数为m,其列由其经济矩阵的前k列构成,所述文档向量矩阵的行数为k,其列数为η。根据本专利技术的另一方面,本专利技术提供一种建立文本语义提取模型的方法,其包括 在向量空间模型中以文档_关键词矩阵表示待检索数据库,所述文档_关键词矩阵的行数为文档的篇数η,列数为关键词的个数m ;对文档_关键词矩阵进行转置以形成关键词_文档矩阵,利用奇异值分解算法将所述关键词_文档矩阵分解成关键词向量矩阵、一对角线矩阵和文档向量矩阵的乘积;和选取所述关键词向量矩阵,利用文档_关键词矩阵和所述关键词向量矩阵相乘以建立目标矩阵。进一步的,其中所述对角线矩阵是一个以文档篇数η为秩的对角线矩阵,所述关键词向量矩阵为m阶矩阵,所述文档向量矩阵为η阶矩阵。进一步的,其中所述对角线矩阵是一个以小于文档篇数η的数量k为秩的对角线矩阵,所述关键词向量矩阵的行数为m,其列由其经济矩阵的前k列构成,所述文档向量矩阵的行数为k,其列数为η。根据本专利技术的再一方面,本专利技术提供一种建立文本语义提取模型的方法,其包括在向量空间模型中以文档_关键词矩阵表示待检索数据库,所述文档_关键词矩阵的行数为文档的篇数n,列数为关键词的个数m ;对文档_关键词矩阵进行转置以形成关键词_文档矩阵,利用奇异值分解算法将关键词_文档矩阵分解成关键词向量矩阵的酉矩阵的前k 列构成的k列关键词向量矩阵、关键词_文档矩阵的前k个最大的奇异值构成的k阶对角线矩阵和文档向量矩阵的前k行构成的k行文档向量矩阵的乘积;和选取所述k列关键词向量矩阵,利用文档_关键词矩阵和所述k列关键词向量矩阵相乘以建立目标矩阵;其中k 为小于或等于文档篇数η的数量的一个值。进一步的,所述k的值通过所述的文档_关键词矩阵和目标矩阵的相似性差异函数来确定,所述相似性差异函数SStress为η ηSStress = Σ Σ ^sJ — sJ,=1其中η代表文档_关键词矩阵的行数,其中Sm表示所述文档_关键词矩阵中第i 行元素(Ii (Wij 1; wij2, . . . WijJ 禾口第 j 行元素 dj^Wi^, wij2, . . . wijm)间的 cosine 值,S' 表示所述目标矩阵中第i行元素(ν,…,ν, J和j行元素式(V7l5Vy 2,…,Vy i))间的cosine值,其中SijS' μ分别为权利要求1.一种检索方法,其特征在于,其包括将待本文档来自技高网
...

【技术保护点】
1.一种检索方法,其特征在于,其包括:将待检索数据库表示成文档_关键词矩阵,所述文档_关键词矩阵的行数为文档的篇数n,列数为关键词的个数m;产生一个目标矩阵以表示改善后的待检索数据库,其包括:对文档_关键词矩阵进行转置以形成关键词_文档矩阵,利用奇异值分解算法将所述关键词_文档矩阵分解成关键词向量矩阵、一对角线矩阵和文档向量矩阵的乘积;和选取所述关键词向量矩阵,利用所述文档_关键词矩阵和所述关键词向量矩阵相乘以建立目标矩阵;和在所述目标矩阵表示的改善后的待检索数据库中进行检索。

【技术特征摘要】

【专利技术属性】
技术研发人员:宋威梁久祯
申请(专利权)人:无锡科利德斯科技有限公司
类型:发明
国别省市:32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1