藏文期刊论文检索系统技术方案

技术编号:24168913 阅读:62 留言:0更新日期:2020-05-16 02:19
本发明专利技术公开了藏文期刊论文检索系统,涉及藏文检索技术领域。本发明专利技术包括查询功能模块、文档存储库以及显示模块;查询功能模块包括检索单元以及相似度对比单元;检索单元用户接收检索关键词;检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序;显示模块将排序好的检索文档按相似度从高到低显示。本发明专利技术通过检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;所述相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序,提高查全率和查准率,同时对查询效率。

【技术实现步骤摘要】
藏文期刊论文检索系统
本专利技术属于藏文检索
,特别是涉及一种藏文期刊论文检索系统。
技术介绍
向量空间模型根据特征频率进行检索的典型算法,此模型主要通过将定的文本看过相互独立的特征项(t1,t2,t3,…tn)构成,将特征项看成一个n维坐标系中的坐标轴,对于每一个特征项ti都根据其在文档中的重要程度赋予一定的权值wi(w1,w2,w3…wn)对应为n维坐标系中的坐标值,特征权值的计算框架一般被称为Tf*IDF框架,可以用如下(1)词频因子的变体计算公式来计算:这种方法被称为增强型规范化Tf,公式的a是调节因子,Tf是这个单词的实际词频数目,Max(Tf)是文档中所有单词中出现次数最多的那个单词对应的词频数目。这样处理的目的主要是对长文档的一种抑制。而IDF主要考虑的是特征单词之间的相对重要性,是文档集合中范围的一种全局因子,并非文档本身的特征,其计算公式如下(2)所示:其中的N代表文档集合中文档总数,而nk代表特证词k的文档频率,IDF反映的是某个特证词在整个文档集合中的分布情况。Tf*IDF框架就是结合了上述的词频因子和逆文档频率因子的计算框架,一般是将两者相乘作为特征权值,特征权值越大,则越可能是好的指示词,其计算公式如下(3)所示:Weightword=Tf×IDF(3)向量空间算法虽简单有效,并被各种领域广泛采用,但是没有考虑各个特征项在文档中出现的位置。本专利技术提供一种藏文期刊论文检索系统,通过检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;所述相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序,提高查全率和查准率,同时对查询效率。
技术实现思路
本专利技术的目的在于提供藏文期刊论文检索系统,通过检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;所述相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序,提高查全率和查准率,同时对查询效率。为解决上述技术问题,本专利技术是通过以下技术方案实现的:本专利技术为藏文期刊论文检索系统,包括:查询功能模块、文档存储库以及显示模块;所述查询功能模块包括检索单元以及相似度对比单元;所述检索单元用户接收检索关键词;所述检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;所述相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序;所述显示模块将排序好的检索文档按相似度从高到低显示;所述改进向量空间模型算法具体包括如下:A00:将文档Di按位置分为若干文本段Sit;A01:根据位置词频权重计算方法计算文本段Sit的词项权重;A02:计算索引项Tk在查询时Q中的权重;A03:计算文本段Sit与查询式Q、查询式Q与文档Di的相似度:其中,ηt为可调参数,表示文本段Sit对于论文文档Di主题的贡献率。优选地,A01中文本段Sit的词项权重计算公式具体如下:其中,i=1,2,…,m代表文档存储库内存储的第i个文档,t=1,2,…,N代表文档划分的第t个文本段,k=1,2,…,n代表文档存储库内的第k个索引项;tfitk为索引项Tk出现在文档Di中的文本段Sit中的频率,Sit的大小为lit。优选地,A02中索引项Tk在查询时Q中的权重计算公式如下:其中,用户查询式向量为:优选地,A03中相似度计算公式如下相似度:其中,ηt为可调参数,表示文本段Sit对于论文文档Di主题的贡献率。本专利技术的一个方面具有以下有益效果:本专利技术通过检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;所述相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序,提高查全率和查准率,同时对查询效率。当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术中改进向量空间模型算法的流程图;图2为本专利技术中改进向量空间模型与传统向量空间模型查全率对比图;图3为本专利技术中改进向量空间模型与传统向量空间模型查准率对比图;图4为本专利技术中改进向量空间模型与传统向量空间模型综合评估率F对比图对比图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。在本专利技术的描述中,需要理解的是,术语“开孔”、“上”、“中”、“长度”、“内”等指示方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的组件或元件必须具有特定的方位,以特定的方位构造和操作,因此不能理解为对本专利技术的限制。本专利技术为藏文期刊论文检索系统,包括:查询功能模块、文档存储库以及显示模块;查询功能模块包括检索单元以及相似度对比单元;检索单元用户接收检索关键词;检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序;显示模块将排序好的检索文档按相似度从高到低显示;请参阅图1所示,改进向量空间模型算法具体包括如下:A00:将文档Di按位置分为若干文本段Sit;A01:根据位置词频权重计算方法计算文本段Sit的词项权重;A02:计算索引项Tk在查询时Q中的权重;A03:计算文本段Sit与查询式Q、查询式Q与文档Di的相似度:其中,ηt为可调参数,表示文本段Sit对于论文文档Di主题的贡献率。其中,A01中文本段Sit的词项权重计算公式具体如下:其中,i=1,2,…,m代表文档存储库内存储的第i个文档,t=1,2,…,N代表文档划分的第t个文本段,k=1,2,…,n代表文档存储库内的第k个索引项;tfitk为索引项Tk出现在文档Di中的文本段Sit中的频率,Sit的大小为lit。其中,A02中索引项Tk在查询时Q中的权重计算公式如下:其中,用户查询式向量为:其中,A03中相似度计算公式如下相似度:其中,ηt为可调参数,表示文本段Sit对于论文文档Di主题的贡献率;实际上,改进向量空间模型算法将藏文期刊论文从组织结构上划分为n个文本段,形成了多层向量空间模型,对每个文本段建立相对应的文本特征向量和文本权值向量。一篇论文的不同逻辑划分可使特征项在论文中本文档来自技高网
...

【技术保护点】
1.藏文期刊论文检索系统,其特征在于,包括:查询功能模块、文档存储库以及显示模块;所述查询功能模块包括检索单元以及相似度对比单元;/n所述检索单元用户接收检索关键词;所述检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;所述相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序;所述显示模块将排序好的检索文档按相似度从高到低显示;/n所述改进向量空间模型算法具体包括如下:/nA00:将文档D

【技术特征摘要】
1.藏文期刊论文检索系统,其特征在于,包括:查询功能模块、文档存储库以及显示模块;所述查询功能模块包括检索单元以及相似度对比单元;
所述检索单元用户接收检索关键词;所述检索单元根据改进向量空间模型算法检索文档存储库获取若干检索文档;所述相似度对比单元根据检索文档的相似度从高到低对若干检索文档排序;所述显示模块将排序好的检索文档按相似度从高到低显示;
所述改进向量空间模型算法具体包括如下:
A00:将文档Di按位置分为若干文本段Sit;
A01:根据位置词频权重计算方法计算文本段Sit的词项权重;
A02:计算索引项Tk在查询时Q中的权重;
A03:计算文本段Sit与查询式Q、查询式Q与文档Di的相似度:






其中,ηt为可调参数,表示文本段Sit对于论文文档Di主题的贡献率。


2....

【专利技术属性】
技术研发人员:陈晓红
申请(专利权)人:芜湖乐哈哈信息科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1