一种基于词矢量的短文本查询扩展及检索方法技术

技术编号:11699470 阅读:189 留言:0更新日期:2015-07-08 23:37
一种基于词矢量的短文本查询扩展及检索方法,具体包括:A、短文本语料信息预处理;B、训练模型将语料词典中的每个词用词矢量来表示;C、查询扩展;D、利用查询扩展词集及BM25检索模型获取文本候选集;E、短文本的主题抽取;F、计算短文本的文本矢量;G、对传统检索模型返回的短文本重排序。本发明专利技术能够更加准确,有效地满足用户检索的需求,并且查询扩展模块会根据已有数据找出能表达用户意图的词进行查询扩展。

【技术实现步骤摘要】

本专利技术涉及数据挖掘和搜索引擎
,尤其是一种基于词矢量的短文本查询 扩展及检索方法。
技术介绍
随着计算机和网络Internet的迅猛发展,从海量的信息资源中精确地获取信息 变得越来越困难。海量信息中有很大一部分是以短文本的形式存在,同时短文本也是人们 在日常生活中所必不可少的一种数据形式。短文本信息主要包括博客留言,微博信息,短 信息,聊天记录等,其特点是信息长度较短,语言形式比较灵活,数据规模巨大,时效性比较 强,更新速度飞快。传统的搜索引擎在这些短文本检索中精确度并不高,不能够满足人们准 确获取信息的需要,因此本专利技术设计并实现了一种更为适合短文本信息获取的搜索引擎系 统。 人们对短文本还没有找到一个高效准确的检索方法,目前关于短文本检索的方法 有以下几种: -、基于词共现的方法 当用户给定一个查询词后,搜索引擎会根据倒排索引对出现查询词的文档进行检 索并评分。该方法要求所返回的短文本必须包含用户的查询词,如布尔模型、VSM模型、BM25 模型、LM模型等。这类方法的缺点是:当用户给一个检索词的时候,搜索引擎只能返回包含 该检索词的文档,而无法返回语义上相关但是用不同词语表达的其它文档。在短文本中,该 缺点将表现的更加明显,因此短文本不太适合采用此类方法。 二、基于语义关联的方法 当用户给定一个查询词后,搜索引擎会根据这些查询词的语义信息进行扩展,将 语义上相近的词语共同作为文档搜索的关键字,来丰富查询的结果。该类方法主要包括潜 在语义分析模型(LSA)、概率潜在语义分析模型(PLSA),文档生成模型(LDA)等。这类方法 的缺点是:当用户给定一个检索词的时候,搜索引擎会引入大量的噪音信息,虽然在一定程 度上提高了检索系统的召回率,但同样引入了大量不相关的文本,降低了检索的准确度。因 此,如何在丰富检索结果的同时,去掉大量不相关的信息是此类方法研宄的关键。 另外,由于有的时候用户给定的查询不足以表达其所要查询的确切需求,或者说 用户不知道用什么词语来表达所要检索的内容。针对这种问题,研宄者们专利技术了查询扩展 技术,用以更准确的描述用户的需求,获得更多相关、准确的返回结果。 为了提高用户的检索满意度,查询扩展技术已经成为所有搜索引擎所必须加入的 一个模块,目前查询扩展方法有以下几种: 一、基于相关反馈的查询扩展 系统对用户的初始查询返回一系列结果,用户检查这组结果,并标注相关与否,然 后,搜索引擎再一次利用相关文档中的重要词语进行查询扩展。该方法缺点是需要用户的 参与,并且需要大量的数据来进行参数训练,因此在实践中还有许多问题需要解决。 二、基于局部分析的查询扩展 系统对用户查询所返回的前N篇文档作为相关文档,然后将其中的重要词汇作为 扩展词进行查询扩展。该方法克服了相关反馈的需要用户参与的缺点,但是却牺牲了准确 性,有可能把大量无关的词语加入到扩展词中来。 三、基于全局分析的查询扩展 全局分析通过对词语之间的相互关联程度,将与查询词关联度相近的若干个词语 作为查询词进行扩展,具体技术主要包括词聚类、潜在语义分析、相似性词典、统计词典和 语义词典(WordNet)等。 这些方法仅从语义上丰富了查询词的表示,但是并没有试图去理解用户的查询意 图,而是找到每个词相近的词来进行查询扩展,很容易导致主题偏移和引入噪音等问题。因 此,针对短文本如何选择最好的查询扩展词和最准确高效的检索模型成为目前该领域亟待 解决的问题。
技术实现思路
本专利技术的目的是提供一种用以理解用户的查询意图并提高检索的准确性的基于 词矢量的短文本查询扩展及检索方法。 本专利技术解决现有技术问题所采用的技术方案:一种基于词矢量的短文本查询扩展 及检索方法,包括以下步骤:A、短文本语料信息预处理:从已知数据库中采集包含短文本语料信息的文本语料 集,从文本语料集中删除字数少于预设阈值的短文本语料信息;识别出所述文本语料集中 的转发短文本语料信息并将其删除;对文本语料集中剩余的短文本语料信息进行分词处 理,得到分词语料词典;记录每个词在所述分词语料词典中的出现次数,并去除频率小于预 设阈值的词,得到语料词典;对语料词典中的短文本建立倒排索引; B、训练模型将语料词典中的每个词用词矢量来表示:包括以下步骤: B1、根据语料词典创建Huffman树: 对所述语料词典中的每个词语进行Huffman编码并创建Huffman树,Huffman树 的每个叶子节点来代表语料词典中的每个词,根节点到每个叶子节点的路径表示该词的 Huffman编码,根节点到每个叶子节点之间的内部节点不断对词语进行分类,最终把每一个 词分到某个对应的叶子节点上;B2、利用无监督训练模型对语料词典中的每个词用词矢量的形式表示 对于所述语料词典中的每个词定义一个k维实数向量,每一维实数向量为一个变 量,将所述k维实数向量作为逻辑回归模型的输入向量通过逻辑回归二元分类方法来预测 Huffman树中该词的上下文词语所对应的叶子节点所在路径的边值的概率;Huffman树中 包括根节点在内的每一个内部节点对应一个逻辑回归模型,并同时通过损失函数和求导公 式进行参数与输入变量的更新,以使输入的矢量比较接近;最后,将更新后得到的输入向量 作为该词的矢量表示;C、查询扩展:将用户的查询文本信息进行分词处理并去除停用词,得到查询词集, 所述查询词集利用步骤B2的方法使查询词集中的每个查询词以词矢量的形式表示,查询 词集中的词矢量经归一化后矢量相加,获得一个新的向量作为查询向量;再从所述语料词 典中选出与所述查询向量的矢量夹角最相近的词语所形成的集合作为查询扩展候选集,并 把它们与局部分析的查询扩展词集的交集作为最后使用的查询扩展词集,并加大原查询词 的权重;所述局部分析的查询扩展词集为在通过BM25检索模型对查询词进当前第1页1 2 本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/CN104765769.html" title="一种基于词矢量的短文本查询扩展及检索方法原文来自X技术">基于词矢量的短文本查询扩展及检索方法</a>

【技术保护点】
一种基于词矢量的短文本查询扩展及检索方法,其特征在于,包括以下步骤:A、短文本语料信息预处理:从已知数据库中采集包含短文本语料信息的文本语料集,从文本语料集中删除字数少于预设阈值的短文本语料信息;识别出所述文本语料集中的转发短文本语料信息并将其删除;对文本语料集中剩余的短文本语料信息进行分词处理,得到分词语料词典;记录每个词在所述分词语料词典中的出现次数,并去除频率小于预设阈值的词,得到语料词典;对语料词典中的短文本建立倒排索引;B、训练模型将语料词典中的每个词用词矢量来表示:包括以下步骤:B1、根据语料词典创建Huffman树:对所述语料词典中的每个词语进行Huffman编码并创建Huffman树,Huffman树的每个叶子节点来代表语料词典中的每个词,根节点到每个叶子节点的路径表示该词的Huffman编码,根节点到每个叶子节点之间的内部节点不断对词语进行分类,最终把每一个词分到某个对应的叶子节点上;B2、利用无监督训练模型对语料词典中的每个词用词矢量的形式表示:对于所述语料词典中的每个词定义一个k维实数向量,每一维实数向量为一个变量,将所述k维实数向量作为逻辑回归模型的输入向量通过逻辑回归二元分类方法来预测Huffman树中该词的上下文词语所对应的叶子节点所在路径的边值的概率;Huffman树中包括根节点在内的每一个内部节点对应一个逻辑回归模型,并同时通过损失函数和求导公式进行参数与输入变量的更新,以使输入的矢量比较接近;最后,将更新后得到的输入向量作为该词的矢量表示;C、查询扩展:将用户的查询文本信息进行分词处理并去除停用词,得到查 询词集,所述查询词集利用步骤B2的方法使查询词集中的每个查询词以词矢量的形式表示,查询词集中的词矢量经归一化后矢量相加,获得一个新的向量作为查询向量;再从所述语料词典中选出与所述查询向量的矢量夹角最相近的词语所形成的集合作为查询扩展候选集,并把它们与局部分析的查询扩展词集的交集作为最后使用的查询扩展词集,并加大原查询词的权重;所述局部分析的查询扩展词集为在通过BM25检索模型对查询词进行文本相似度计算后所返回的排序靠前的文档中,去除停用词后排序靠前的高频关键字所构成的集合;D、利用查询扩展词集及BM25检索模型获取文本候选集:将查询扩展词集中每个查询词的IDF权值、查询词短文本权值与查询权值乘积的加和作为每篇短文本的传统模型检索得分,其中,IDF权值为查询词短文本权值为查询权值为N为短文本总数,ni为包含查询词i的文本个数,tfi为该篇文档所含查询词词频,qfi为查询文本中查询词i的词频,dl和avdl分别表示短文本长度和短文本平均长度,其它变量为调节参数;然后,采用BM25检索模型根据查询扩展词集中的查询词进行检索,按照传统模型检索得分由高到低对每篇输出文档进行排序并把排名靠前的短文本返回作为候选集;E、短文本的主题抽取:首先对步骤D中获得的候选集中的短文本中的词语进行聚类分析,然后选出与步骤C中的查询向量最相近的一组聚类结果作为短文本主题;所述聚类结果的每一类别内的词数至少是原文本总词数的1/5;F、计算短文本的文本向量:把所述短文本主题中的词矢量经归一化处理后进行累加作为该短文本的主题向量,并记录所述主题向量与查询向量的余弦相 似度;G、对传统检索模型返回的短文本进行二次排序,同时考虑语义相似度和传统模型所得分数进行二次排序:将步骤F中记录的主题向量与查询向量的余弦相似度值和传统模型检索得分进行线性插值,得到最终得分并对所述最终得分进行二次排序输出。...

【技术特征摘要】

【专利技术属性】
技术研发人员:林鸿飞王琳
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1