当前位置: 首页 > 专利查询>上海大学专利>正文

一种基于改进的TF-IDF方法的检索词实时修正方法技术

技术编号:9596813 阅读:102 留言:0更新日期:2014-01-23 02:18
本发明专利技术公开了一种基于改进的TF-IDF方法的检索词实时修正方法,该方法步骤为:(1)用户输入检索词,计算机系统对所有的检索资源搜索,返回给用户检索结果,将当前页面结果中包含检索词的文本组成文本集合;(2)下载用户想要的文本;(3)由下载的文本集合生成关键词集合W;(4)采用改进后的TF-IDF方法计算关键词集合W中各关键词的TF-IDF值;(5)选出TF-IDF值最大的关键词,记为r;(6)使用关键词r修正用户输入的检索词,在用户点击下一个网页时,使用新的检索词进行检索,并返回检索结果。本发明专利技术能在检索过程中逐步的帮助用户检索到所要的文本,从而使用户检索的过程更加高效和准确,提高用户检索效率和质量。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于改进的TF-IDF方法的检索词实时修正方法,该方法步骤为:(1)用户输入检索词,计算机系统对所有的检索资源搜索,返回给用户检索结果,将当前页面结果中包含检索词的文本组成文本集合;(2)下载用户想要的文本;(3)由下载的文本集合生成关键词集合W;(4)采用改进后的TF-IDF方法计算关键词集合W中各关键词的TF-IDF值;(5)选出TF-IDF值最大的关键词,记为r;(6)使用关键词r修正用户输入的检索词,在用户点击下一个网页时,使用新的检索词进行检索,并返回检索结果。本专利技术能在检索过程中逐步的帮助用户检索到所要的文本,从而使用户检索的过程更加高效和准确,提高用户检索效率和质量。【专利说明】—种基于改进的TF-1DF方法的检索词实时修正方法
本专利技术涉及一种计算机实时修正用户的检索词的方法,更具体地说,涉及一种基于改进的TF-1DF方法的检索词实时修正方法,该方法是利用改进的TF-1DF方法从下载的文档中选出合适的关键词对用户输入的检索词进行实时修正的方法。
技术介绍
在中国专利说明书中公开了一种“文本关键词的提取方法”(专利申请号:200710041150.7),该方法指出“在利用TF-1DF方法提取文本关键词的基础上,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对比选择法提取同类文本集合中共同的领域关键词”,该方法能避免一个关键词在一篇文档中频繁出现,而导致绝对词频很高被错误地计入领域关键词。此外,该方法也可以有效地提高单篇文本的关键词提取精度,从而提高文本领域知识获取的性能与领域知识本体建立的效果,提高网络资源服务的质量与效果。然而,上述方法在提取领域关键词时,需要搜索大量的领域文本才能保证提取关键词的准确度。因而,当用户搜索大量的领域文本时,就会造成其搜索效率低;但当用户搜索较少的领域文本时,又会影响提取关键词的准确度。
技术实现思路
本专利技术的目的在于,针对现有技术的不足,提出一种基于改进的TF-1DF方法的检索词实时修正方法,该方法采用改进的TF-1DF方法选出最能表达用户需求的关键词,然后对用户的输入检索词进行修正,再进行检索,从而提高用户的搜索效率。为达到上述目的,本专利技术采用下述技术方案: 一种基于改进的TF-1DF方法的检索词实时修正方法,该方法通过对一次检索中,用户已下载的文本所组成的关键词集合,利用改进的TF-1DF方法对上述关键词集合进行处理,得到最靠近用户检索目标的关键词,然后使用最靠近用户检索目标的关键词对用户的输入检索词进行修改,再进行检索,其具体步骤如下: (1)、用户输入检索词,计算机系统对所有的检索资源搜索,系统返回给用户首个网页的搜索结果,将当前页面结果中包含检索词的文本组成文本集合,该文本集合记为A ; (2)、用户判断文本集合A中是否存在用户想要的文本,如果存在,则下载用户想要的文本,转步骤(3);如果不存在,则跳转到步骤(I); (3)、提取步骤(2)中所有用户想要下载的文本组成想要的文本集合,根据上述想要的文本集合生成关键词集合,该关键词集合记为W ;(4)、采用改进后的TF-1DF方法计算上述关键词的集合W中各关键词的TF-1DF值; (5)、从关键词集合W中,选出TF-1DF值中最大的关键词,记为关键词r; (6)、利用关键词r修正用户的输入检索词,生成新的检索词,当用户点击下一页时,返回由新的检索词检索到的结果。上述步骤(3)所述的提取步骤(2)中所有用户想要下载的文本,组成想要的文本集合,该想要的文本集合中所生成关键词集合W,其步骤如下: (3-1)、将步骤(2)中用户下载的文本组成想要的文本集合,该想要的文本集合记为D ; (3-2)、根据想要的文本集合D提取关键词集合,该关键词集合记为WD ; (3-3)、统计出关键词集合WD中每个关键词在文本集合A和文本集合D中的篇频;(3-4)、去掉在文本集合A中篇频为I的关键词,剩余的关键词组成新的关键词集合,该新的关键词集合记为W。上述步骤(4)中所述的采用改进后的TF-1DF方法计算关键词集合W中各关键词的TFi和TF-1DF值,其步骤如下: (4-1)、采用改进后的TF-1DF公式,计算关键词的TFi值,TFi的计算公式为:【权利要求】1.一种基于改进的TF-1DF方法的检索词实时修正方法,该方法通过对一次检索中,用户已下载的文本所组成的关键词集合,利用改进的TF-1DF方法对上述关键词集合进行处理,得到最靠近用户检索目标的关键词,然后使用最靠近用户检索目标的关键词对用户的输入检索词进行修改,再进行检索,其具体步骤如下: (1)、用户输入检索词,计算机系统对所有的检索资源搜索,系统返回给用户首个网页的搜索结果,将当前页面结果中包含检索词的文本组成文本集合,该文本集合记为A ; (2)、用户判断文本集合A中是否存在用户想要的文本,如果存在,则下载用户想要的文本,转步骤(3);如果不存在,则跳转到步骤(1); (3)、提取步骤(2)中所有用户想要下载的文本组成想要的文本集合,根据上述想要的文本集合生成关键词集合,该关键词集合记为W ; (4)、采用改进后的TF-1DF方法计算上述关键词的集合W中各关键词的TF-1DF值; (5)、从关键词集合W中,选出TF-1DF值中最大的关键词,记为关键词r; (6)、利用关键词r修正用户的输入检索词,生成新的检索词,当用户点击下一页时,返回由新的检索词检索到的结果。2.根据权利要求1所述的一种基于改进的TF-1DF方法的检索词实时修正方法,其特征在于上述步骤(3)所述的提取步骤(2)中所有用户想要下载的文本,组成想要的文本集合,该想要的文本集合中所生成关键词集合W,其步骤如下: (3-1)、将步骤(2)中用户下载的文本组成想要的文本集合,该想要的文本集合记为D ; (3-2)、根据想要的文本集合D提取关键词集合,该关键词集合记为WD ; (3-3)、统计出关键词集合WD中每个关键词在文本集合A和文本集合D中的篇频;(3-4)、去掉在文本集合A中篇频为I的关键词,剩余的关键词组成新的关键词集合,该新的关键词集合记为W。3.根据权利要求2所述的一种基于改进的TF-1DF方法的检索词实时修正方法,其特征在于上述步骤(4)所述的采用改进后的TF-1DF方法计算关键词集合W中各关键词的TFi和TF-1DF值,其步骤如下: (4-1)、采用改进后的TF-1DF公式,计算关键词的TFi值,TFi的计算公式为: 【文档编号】G06F17/30GK103530344SQ201310464625【公开日】2014年1月22日 申请日期:2013年10月9日 优先权日:2013年10月9日 【专利技术者】陈雪, 汤文清, 王鹏, 高英虎 申请人:上海大学本文档来自技高网
...

【技术保护点】
一种基于改进的TF?IDF方法的检索词实时修正方法,该方法通过对一次检索中,用户已下载的文本所组成的关键词集合,利用改进的TF?IDF方法对上述关键词集合进行处理,得到最靠近用户检索目标的关键词,然后使用最靠近用户检索目标的关键词对用户的输入检索词进行修改,再进行检索,其具体步骤如下:(1)、用户输入检索词,计算机系统对所有的检索资源搜索,系统返回给用户首个网页的搜索结果,将当前页面结果中包含检索词的文本组成文本集合,该文本集合记为A;(2)、用户判断文本集合A中是否存在用户想要的文本,如果存在,则下载用户想要的文本,转步骤(3);如果不存在,则跳转到步骤(1);(3)、提取步骤(2)中所有用户想要下载的文本组成想要的文本集合,根据上述想要的文本集合生成关键词集合,该关键词集合记为W;(4)、采用改进后的TF?IDF方法计算上述关键词的集合W中各关键词的TF?IDF值;(5)、从关键词集合W中,选出TF?IDF值中最大的关键词,记为关键词r;(6)、利用关键词r修正用户的输入检索词,生成新的检索词,当用户点击下一页时,返回由新的检索词检索到的结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈雪汤文清王鹏高英虎
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1