检索方法及其建立文本语义提取模型的方法技术

技术编号：6866916 阅读：222 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供一种检索方法，其包括：将待检索数据库表示成文档_关键词矩阵，所述文档关键词矩阵的行数为文档的篇数n，列数为关键词的个数m；产生一个目标矩阵以表示改善后的待检索数据库，其包括：对文档_关键词矩阵进行转置以形成关键词文档矩阵，利用奇异值分解算法将所述关键词_文档矩阵分解成关键词向量矩阵、一对角线矩阵和文档向量矩阵的乘积；和选取所述关键词向量矩阵，利用所述文档关键词矩阵和所述关键词向量矩阵相乘以建立目标矩阵；和在所述目标矩阵表示的改善后的待检索数据库中进行检索。利用本发明专利技术的检索方法大大地提高了检索速度与效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及检索方法及其文本语义提取模型的建立，特别是关于一种基于隐型语义分析的文本语义提取模型建立的方法。
技术介绍
随着互联网技术的飞速发展，近几十年来网上的文本信息量成指数增长，如何快速有效地组织和管理大量的文本信息已成为现代信息检索技术的首要挑战。附图说明图1为信息检索适应的环境示意图。请参照图1所示，其中计算机102通过局域网LAN与服务器104A互联，服务器104A又与服务器104B或其他服务器相连以得到从服务器104B到服务器104N的所有的网络资源，这样计算机102通过服务器104A便可获得所有与相连的服务器上的资源，网民在使用端机计算机102中变可通过信息检索来获取想要的数据资源。由于每台服务器均有很大数据量的文本资源，为服务器带来很大的负担，怎样能够快速有效地组织和管理大量的文本信息已成为现代信息检索技术的首要挑战。现代搜索引擎常利用向量空间模型来表示与组织文档，每个关键词在向量空间中表示文档的一个特征，然而由于文本集由成千上万的不同关键词组成，导致向量空间中表示文本的特征量非常庞大，从而，进一步造成文本数据挖掘技术的计算量十分惊人。一个简捷、高效的文本表示模型对现代信息检索技术的效率起着关键的作用，但是向量空间模型中文本特征的高维性已成为文本索引、分类、聚类、摘要等应用的瓶颈。同时，由于每个关键词在向量空间模型中代表一个独立的特征，这种直接的表示法忽略了特征间的相互关系。然而自然语言里往往存在大量的同义词与反义词，一个概念能够由许多不同的关键词表示，而一个关键词又可能有多重的含义。如何有效的表示文档的特征是信息检索与自然语言处理的...

【技术保护点】
１．一种检索方法，其特征在于，其包括：将待检索数据库表示成文档＿关键词矩阵，所述文档＿关键词矩阵的行数为文档的篇数ｎ，列数为关键词的个数ｍ；产生一个目标矩阵以表示改善后的待检索数据库，其包括：对文档＿关键词矩阵进行转置以形成关键词＿文档矩阵，利用奇异值分解算法将所述关键词＿文档矩阵分解成关键词向量矩阵、一对角线矩阵和文档向量矩阵的乘积；和选取所述关键词向量矩阵，利用所述文档＿关键词矩阵和所述关键词向量矩阵相乘以建立目标矩阵；和在所述目标矩阵表示的改善后的待检索数据库中进行检索。

【技术特征摘要】

【专利技术属性】
技术研发人员：宋威，梁久祯，
申请(专利权)人：无锡科利德斯科技有限公司，
类型：发明
国别省市：32

全部详细技术资料下载我是这个专利的主人