藏文期刊论文检索系统技术方案

技术编号：24168913 阅读：62 留言：0更新日期：2020-05-16 02:19

本发明专利技术公开了藏文期刊论文检索系统，涉及藏文检索技术领域。本发明专利技术包括查询功能模块、文档存储库以及显示模块；查询功能模块包括检索单元以及相似度对比单元；检索单元用户接收检索关键词；检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档；相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序；显示模块将排序好的检索文档按相似度从高到低显示。本发明专利技术通过检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档；所述相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序，提高查全率和查准率，同时对查询效率。

全部详细技术资料下载

【技术实现步骤摘要】
藏文期刊论文检索系统
本专利技术属于藏文检索
，特别是涉及一种藏文期刊论文检索系统。
技术介绍
向量空间模型根据特征频率进行检索的典型算法，此模型主要通过将定的文本看过相互独立的特征项(t1,t2,t3,…tn)构成，将特征项看成一个n维坐标系中的坐标轴，对于每一个特征项ti都根据其在文档中的重要程度赋予一定的权值wi(w1，w2，w3…wn)对应为n维坐标系中的坐标值，特征权值的计算框架一般被称为Tf*IDF框架，可以用如下(1)词频因子的变体计算公式来计算：这种方法被称为增强型规范化Tf，公式的a是调节因子，Tf是这个单词的实际词频数目，Max(Tf)是文档中所有单词中出现次数最多的那个单词对应的词频数目。这样处理的目的主要是对长文档的一种抑制。而IDF主要考虑的是特征单词之间的相对重要性，是文档集合中范围的一种全局因子，并非文档本身的特征，其计算公式如下(2)所示：其中的N代表文档集合中文档总数，而nk代表特证词k的文档频率，IDF反映的是某个特证词在整个文档集合中的分布情况。Tf*IDF框架就是结合了上述的词频因子和逆文档频率因子的计算框架，一般是将两者相乘作为特征权值，特征权值越大，则越可能是好的指示词，其计算公式如下(3)所示：Weightword＝Tf×IDF(3)向量空间算法虽简单有效，并被各种领域广泛采用，但是没有考虑各个特征项在文档中出现的位置。本专利技术提供一种藏文期刊论文检索系统，通过检索单元根据改进向量空间模型算法检索文档存储库获...

【技术保护点】
1.藏文期刊论文检索系统，其特征在于，包括：查询功能模块、文档存储库以及显示模块；所述查询功能模块包括检索单元以及相似度对比单元；/n所述检索单元用户接收检索关键词；所述检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档；所述相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序；所述显示模块将排序好的检索文档按相似度从高到低显示；/n所述改进向量空间模型算法具体包括如下：/nA00：将文档D

【技术特征摘要】
1.藏文期刊论文检索系统，其特征在于，包括：查询功能模块、文档存储库以及显示模块；所述查询功能模块包括检索单元以及相似度对比单元；
所述检索单元用户接收检索关键词；所述检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档；所述相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序；所述显示模块将排序好的检索文档按相似度从高到低显示；
所述改进向量空间模型算法具体包括如下：
A00：将文档Di按位置分为若干文本段Sit；
A01：根据位置词频权重计算方法计算文本段Sit的词项权重；
A02：计算索引项Tk在查询时Q中的权重；
A03：计算文本段Sit与查询式Q、查询式Q与文档Di的相似度：

其中，ηt为可调参数，表示文本段Sit对于论文文档Di主题的贡献率。

2....

【专利技术属性】
技术研发人员：陈晓红，
申请(专利权)人：芜湖乐哈哈信息科技有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人