当前位置: 首页 > 专利查询>刘健专利>正文

获取有助检索的特征、评价相关事物的价值的系统及方法技术方案

技术编号:3814608 阅读:206 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种获取有助于文本检索的特征的系统与方法,利用该系统与方法,用户可以获得与自己检索需求相关的有助于检索的特征,比如:关键词、序列、语法模式、语义角色等。依靠这些特征,用户可以构造出更有效的查询,提高搜索文档的效率;另一方面,还涉及一种评价与输入文本相关事物的价值的系统与方法,用户可以通过提交输入文本,得到对于与输入文本相关的各种事物的评价;同时还涉及一种根据某人的简历评估其职业优势的系统与方法,借助于招聘启事库和/或简历库,给出与此人简历相关的各种技能、经历的职业优势评分;而且还涉及一种以文本作为查询输入的文档检索的系统与方法,能快速收缩检索范围、避免潜在有价值检索结果丢失。

【技术实现步骤摘要】

本专利技术涉及信息处理领域,特别涉及文本检索
和文本处理领域,具体是指一种 获取有助于文本检索的特征的系统与方法、评价与输入文本相关事物对于用户的价值的系统 与方法、实现根据人员的简历评估其职业优势的系统与方法以及以文本作为查询输入的文档 ;f全索的系统与方法。
技术介绍
作为本专利技术的一个方面,如何提升检索的效果,是网络时代的一个重要问题。检索的根 本目的在于帮助用户从海量文档中将需要的文档与无关的文档进行区分。现有检索系统的做法是,用户提供由若干特征(通常为关键词)构成的查询(query ), 检索系统根据查询,评估文档库中的各个文档与查询的匹配程度,并输出匹配程度达到预设 标准的文档或者文档标识。但是,用户往往并不清楚每个特征的检索效力,这导致了一定的盲目性。用户在一个查 询中使用了大量特征却仍然无法有效改善查询效果。其后果,或者是不能收缩检索结果的规 模,或者是丟失对于用户的检索需求而言具有潜在重要性的检索结果。此外,由大量特征构 成的复杂查询导致检索系统的计算开销极大增加。所以,面对需要检索的海量文档,如何帮助用户找到合适的特征,从而帮助用户快速收 缩检索范围但又不造成重要检索结果的丢失,是提升检索效果的一个重要问题。另一方面,如何利用信息技术手段来评价各种事物对于人类的重要性,也是网络时代的 一个重要问题,关系到电子商务、网络社区等诸多方面。现有的技术基本上是通过分析网络 交互行为(比如,点击、网页间的链接指向、用于检索的查询语句等)来评估各种网络资源 (链接、搜索关键词等)所表征的事物的被关注程度。但这些行为含有的信息量毕竟有限, 因而会影响评价结果的准确性。同时,与本专利技术相关的
技术介绍
文献如下 (1 )涉及主题词抽取的专利文献中国专利申请CN200710177074, 一种基于词频和多元文法的新闻关4建词抽耳又方法;* 美国专利申请US2008/0195595, Keyword Extracting Device;* 美国专利申请US2008/0319746, KEYWORD OUTPUTTING APPARATUS AND METHOD;* 美国专利申i青US2008/0033938, Keyword outputting apparatus, keyword outputting method, and keyword outputting computer program product;參 美国专矛]US6470307, Method and apparatus for automatically identifying keywords within a document 。(2) 评价检索特征的技术* 美国专利申i青US2009/0049036, Systems and methods for keyword selection in a web-based social network,其中披露了如何根据关键词在两个文本集合中的分布差异 来计算关键词的评分;* 美国专利申^青US2007/0288514, System and method for keyword extraction以及 US2009/0083262, SYSTEM FOR ENTITY SEARCH AND A METHOD FOR ENTITY SCORING IN A LINKED DOCUMENT DATABASE,其中披露了如何根据用户提供的 关键词以及实体类型作为检索输入,寻找含有关键词以及属于该实体类型的实体的 文档,然后根据这些文档计算各实体的评分;* 美国专利申请US2007/0061320, Multi-document keyphrase exctraction using partial mutual information,其中披露了从文档集合子集中抽取关4建词,根据文档集合对关键 词评分的方法;參 美国专利US6502065, Teletext broadcast receiving apparatus using keyword extraction and weighting,其中披露了寻找文档集合中共同关键词作为文本摘要的方法,其中涉 及统计文档集合中各词汇的文档内词频以及文档间词频。(3) 相似搜索(根据一个文本,找到与之相似文本)* 美国专利申请US2007/0192310, INFORMATION PROCESSING APPARATUS AND METHOD, AND PROGRAM,其中披露了利用查询与待检索文档中共同含有的关键 词,评估查询与待检索文档的相关性的方法。(4 )检索特征集合的扩展与收缩* 美国专利US7191177, Keyword extracting device,其中披露了如何从查询文本中抽耳又 候选关44词,然后通过黑名单过滤来精简候选关键:词;* 美国专利申 US2008/0243820 , Semantic analysis documents to rank term与US20080133509, Selecting Keywords Representative of a Document,其中披露了从查 询文本中抽取候选关键词,利用本体对关键词进行评分,实现候选关键词的扩展。 (5 )同时涉及到特征抽取与特征评价* 中国专利申请CN200580044686,全文查询和搜索系统及其使用方法,其中披露了计 算查询文本与检索结果之间的匹配程度的方法,但未涉及评价检索特征的区分能力;* 中国专利申请CN200510117001, 一种用于海量文本快速相似搜索的方法,其中披露 了一种文档快速检索的方法,涉及利用重要特征来收缩检索范围,但未披露重要特 征是如何纟皮选择的。* 美国专利申请US2007/0288433 , DETERMINING RELEVANCY AND DESIRABILITY OF TERMS,其中披露了根据查询中涉及的关键词在其他用户查询中的分布,对关键 词进4于评分的方法。* 美国专利以及专利申请US6064952, Information abstracting method, information abstracting apparatus, and weighting method, US6240378, "Weighting method for use in information extraction and abstracting, based on the frequency of occurrence of keywords and similarity calculations, US2002/0072895, Weighting method for use in information extraction and abstracting, based on the frequency of occurrence of keywords and similarity calculations,其中披露了将文章分为若干段,每段抽取关键词,根据关键词 在其他段的出现,本文档来自技高网
...

【技术保护点】
一种获取有助于文本检索的特征的系统,其特征在于,所述的系统包括: 输入装置,用于接收用户提交的输入文本; 特征生成装置,用于根据所述的输入文本生成至少一个候选特征; 评分装置,用于计算所述的候选特征的关于检索效力的至少一个 评分; 结果生成装置,用于根据具有所述的评分的候选特征产生至少一个结果特征;和 输出装置,用于以可被用户处理或理解的表现形式将所述的结果特征输出给用户; 且所述的评分的计算过程至少部分地依赖于所述的候选特征在参照文档集合中 的分布特性。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘健
申请(专利权)人:刘健
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1