一种基于改进TF-IDF的多索引合并排序算法制造技术

技术编号：11736053 阅读：328 留言：0更新日期：2015-07-15 11:18

本发明专利技术涉及一种基于改进TF-IDF的多索引合并排序算法。它利用特征词的TF-IDF权重及夹角余弦值计算文档向量和查询向量的相似度，以此来确定返回给用户的排序结果。用户往往只关心Top-n的查询结果，采用合理的排序算法对查询结果进行优化排序，能够有效地改善系统的查询效果与用户体验。针对单索引情况，综合考虑了多个检索词之间的词序、词距、扩展词权重等因素，对TF-IDF算法进行了改进，进一步对基于TF-IDF的多索引合并排序算法进行了研究。实验证明，采用该算法后，系统的查全率有大幅提升，整体性能也有所提升。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多索引合并排序算法

技术介绍
近年来，随着社会的发展，信息呈现出爆炸增长的趋势。科技领域的资源信息作为一种特定的信息，同样在快速增长并具有鲜明的类别特征，如微生物资源、农作物种质资源等。基于单一索引的检索在面向海量科技资源时，逐渐显现出一些不足，如响应速度慢、资源维护困难、检索结果排序准确性不高等，因此，结合科技资源明显的类别特征，可以将科技资源按其类别进行分类索引，检索时分别检索每一类的索引，再对结果进行合并排序。在信息检索中，检索结果排序一般依据的是用户检索意图与返回文档的相关程度，其中，TF-IDF作为衡量检索词在文档中的权重信息，被广泛采用。经典的TF-IDF算法能根据文档中特征词出现频率以及在文档集中包含该特征词的文档数来计算特征权重。根据主观判断，这种算法计算出的结果符合实际情况。但TF-IDF还存在一些不足，如结构简单，容易产生计算偏差；无法反映一些关键词语的重要程度；没有考虑特征词的分布情况等。这就导致其在实际应用中不能很好地满足用户的需要。因此，本文提出一种改进的TF-IDF算法，充分考虑特征词的重要程度以及分布情况；在此基础之上，通过《知网》计算的词语相似度，提出一种多索引合并排序算法，从而达到更好的检索效果。 1.单索引TF-IDF算法 LI TF-IDF 特征权重为了能够更好的表示某个特征词在整个文档集中的重要程度，Salton于1988 年提出了单文本词汇频率--逆文本频率TF-IDF(Term Frequency-Inverse Document Frequenc...

【技术保护点】
一种基于改进TF‑IDF的多索引合并排序算法，运用于文本检索，其特征在于包括如下步骤：步骤1.针对经典TF‑IDF算法和Lucene中TF‑IDF打分公式算法的不足，对TF‑IDF算法进行了改进，改进方面包括考虑词序、词距因素，以及引入查询词扩展，用公式表示为：score=ΣtermsTF-IDF*distance(terms)*boost(term)*decrease]]>其中score是指针对查询词terms，文档的最终得分；TF‑IDF是指利用Lucene中的TF‑IDF打分公式得出的文档得分；dis tan ce(terms)是所有terms之间的词序和词距因子，它由两部分构成，分别是词序因子和词距因子，其计算公式如下：dis tan ce(terms)＝t.seq*t.dis，其中，t.seq是词序因子，t.dis是词距因子；boost(term)是特征词权重因子，能够根据检索词的重要程度进行修改，如引入同义词扩展时，可适当减小该值的权重；decrease是指衰减因子，目的是削减查询扩展词对原始查询词的影响；步骤2.按照科技资源领域不同将科技资源进行分类，构建多个...

【技术特征摘要】

【专利技术属性】
技术研发人员：彭升辉，张辉，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人