科技文献检索方法及系统技术方案

技术编号:10696514 阅读:324 留言:0更新日期:2014-11-27 00:01
本发明专利技术提供一种基于限定词的中文科技文献检索方法,该方法首先计算检索词条的特征向量与数据集中每个科技文献名称的特征向量的语义相关度;接着基于“的”字,对该检索词条划界,找出前缀与所述检索词条的前缀相同的各个科技文献名称,并修正其对应的语义相关度,最后取其名称对应的语义相关度高的前若干个科技文献作为检索结果。该方法考虑了检索词与科技文献标题的语义相关性,并且结合了中文语法中词汇间的关联性,提高了对于中文科技文献的检索效率。

【技术实现步骤摘要】
【专利摘要】本专利技术提供一种基于限定词的中文科技文献检索方法,该方法首先计算检索词条的特征向量与数据集中每个科技文献名称的特征向量的语义相关度;接着基于“的”字,对该检索词条划界,找出前缀与所述检索词条的前缀相同的各个科技文献名称,并修正其对应的语义相关度,最后取其名称对应的语义相关度高的前若干个科技文献作为检索结果。该方法考虑了检索词与科技文献标题的语义相关性,并且结合了中文语法中词汇间的关联性,提高了对于中文科技文献的检索效率。【专利说明】科技文献检索方法及系统
本专利技术涉及信息检索和数据挖掘领域,尤其涉及对科技文献的检索方法。
技术介绍
随着信息技术和计算机的发展,各类电子文档的数量以空前的速度增长,电子文档正逐步取代传统的纸质出版物。电子文献检索已经成为获取信息的有效途径。 现有的电子文献检索方法通常是基于统计词频的方式来实现的。当输入检索的关键词时,依据所统计的关键词在电子文件中出现的频率来对检索结果进行排序。这类方法都是机械式地进行统计和匹配,而忽视了词本身在语义上的实际意义和词与词之间在语义上的关联性,而且也没有结合各种语言的语言习惯,检索本文档来自技高网...
科技文献检索方法及系统

【技术保护点】
一种科技文献检索方法,所述方法包括:步骤1)基于科技文献名称的特征向量空间,将接收到的检索词条表示为特征向量的形式,并计算该检索词条的特征向量与数据集中每个科技文献名称的特征向量之间的语义相关度;步骤2)取其名称对应的语义相关度高的前若干个科技文献作为检索结果;其中,所述科技文献名称的特征向量空间是通过下列操作得到的:a)提取用于检索的数据集中所有科技文献名称来构成训练集;b)对训练集中每个科技文献名称进行分词,统计每个词在训练集中出现的次数并计算每个词的词频与逆向文档频率;其中,每个词的词频等于该词在训练集中出现的次数除以所有词在训练集中出现的次数之和;所述每个词的逆向文档频率为:c)取其词...

【技术特征摘要】

【专利技术属性】
技术研发人员:郭晓利曲朝阳潘峰娄建楼孙慧宇
申请(专利权)人:东北电力大学
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1