根据有含义中心词检索信息的方法和系统技术方案

技术编号:2876622 阅读:272 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及从询问词中提取有含义中心词的方法和系统,并且公开了据此检索信息的方法和系统。检索系统提取词条的有含义中心词,扩充词条,和根据扩充的词条检索文本,从而提高了检索系统的性能和使用的便利性。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及提取有含义中心词和根据有含义中心词检索信息的方法和系统,尤其涉及从词条中提取中心词,即词干或派生词的方法和系统、其性能提高了的和便于使用中心词提取方法的信息检索系统、和记录方法和使方法具体化的程序的计算机可读记录介质,以及记录中心词词典的数据的计算机可读记录介质。
技术介绍
众所周知,为了适应迅速、准确和容易地搜索信息的需要,人们已经着手开发称为信息搜索的技术。为了满足需要而开发出来的信息检索系统把最适合用户需要的信息提供给他或她。随着信息量不断增加,信息检索系统不是从每个数据中直接找出信息,而是采用索引系统,在这种索引系统中,以适合于数据搜索的容易方式,事先处理和存储数据,以便可以实时搜索信息。从上面可以看出,信息搜索分三步进行询问、编索引和搜索。在编索引步骤中,事先把数据收集起来,处理成较容易搜索的,然后存储起来。在询问步骤中,用户请求信息,和在搜索步骤中,提供与他或她的询问相对应的信息。在许多情形中都可以使用信息搜索。例如,存在如下一些情况计算机操作系统从硬盘或辅助存储单元的数据中搜索某个文件或文件夹;从文字处理器的一个文件中搜索某个词或词组;从电子日程表的电子词典或作为离线应用软件的电子词典中搜索某个词;和电子词典的在线服务器程序搜索和提供与客户计算机请求的某个词相关的信息。现今,计算机相关存储介质的容量越来越大,和因特网的普及使全世界所有计算机连接成一个大型网络,因此,信息量成几何级数增长。因此,从巨大的信息中迅速和容易地找出所需的正确信息变得越来越难。搜索的性能由两个因子来衡量。一个是再现率,另一个是精确率。再现率是搜索到的适用文本与系统拥有的适用文本之比。精确率指的是适用文本与搜索出的文本之比。也就是说,再现率表示系统搜索适用文本的能力,而精确率则显示系统不搜索不适用文本的能力。换一种方式来说,前者衡量搜索的完全性,而后者衡量搜索的精确性。因此,最完美的检索系统应该具有100%的再现率和精确率。但是,一般说来,这两个比率成反比。换句话说,当扩大搜索范围,以获得高再现率时,精确率下降,而当缩小搜索范围,以提高精确率时,再现率下降。实际上,使这两个比率都很高是很少见的。因此,对于每种检索系统,人们试图同时提高这两个因子。但是,随着因特网的引入,信息量变得十分巨大,因此,难以衡量再现率和精确率。当要搜索的目标文本的数量像在因特网中那样不断增加时,搜索结果多种多样,因此,难以搞清楚搜索的所有目标文本中到底搜索了多少适用文本。也就是说,即使搜索出询问的适用文本,也不可能搞清楚未搜索的文本的数量,因此,用户想要在搜索出的所有数据当中,检查每个单独文本,看一看它是否适用是相当困难和繁重的。搜索质量与索引的有效性密切相关。编索引指的是事先提取和存储索引词,即,要搜索文本数据所需的信息。这是有效信息搜索所需的。信息检索系统将用户的询问与索引相比较,然后提供最合适的信息。至于生成索引的方法,有由本领域的普通技术人员完成的人工方法和由计算机程序完成的自动索引生成方法。与自动编索引相比,人工编索引需要更多的劳力和时间。因此,实际上,难以把它应用在因特网的众多文本上。此外,即使同一个编索引者也有可能在不同的试用场合对同一种情况选择不同的索引词。因此,难以保持一致性,造成编索引者与搜索信息的用户之间的不一致。自动编索引是由计算机完成的。因此,不仅可以非常快地对大量文本编索引,而且根据系统采用的自动编索引程序,也可以保持一致性。尽管这种自动编索引存在这些优点,但是,正如人工编索引一样,在用户的询问词与编索引者选择的索引词之间仍然存在着不一致。由于索引词是编索引程序从文本中选择的,因此,数据发生器选择一个术语的不同表达式造成索引词的不一致。为了解决这个问题和对来自用户的同一询问词得出相同的搜索结果,已经进行了一些研究。同时,索引的有效性由两个因子,即完全度和准确度确定。索引的准确度指的是索引精确表达某个概念的能力。索引的准确度越高,由于它可以更准确地表示某个概念,因此,可以更有效地搜索到适用的文本。索引的完全度指的是多少索引词用于表达一个文本所涉及的概念。当除了文本的中心概念之外,所有的相近概念都被选作索引词时,完全度就更高。因此,当再现率上升时,由于搜索了相近概念的文本,因此,精确率就下降。请记住,再现率取决于索引的完全度,精确率取决于索引的准确度。同时,执行搜索方法与执行编索引方法相反。例如,当在文本中存在词“political(政治的)”和对词“politic(精明的)”编索引时,在搜索期间从询问词“political”中生成关键词“politic”和搜索带有这个词的文本。如果对词“political”编索引,那么,在搜索期间从询问词“political”中生成“political”作为关键词,和搜索包含这个词的文本。如果对两个字符串“politic”和“al”编索引,那么,在搜索期间从询问词“political”中生成“politic”和“al”作为关键词,和搜索同时包含这两个字符串的文本。也就是说,对词“political”编索引和生成“politic”作为关键词使搜索失败。在带有许多数据和网页的因特网上,存在数十种网络搜索引擎。用户把询问词输入之后,它们搜索和提供可能与它最匹配的网络文件的位置。这里,位置指的是聚集用户想要的网络文件的目录或路径(目录搜索、网络类别搜索、或某个网络文件的因特网地址或URL(统一资源定位地址)(网页搜索))。但是,实际上,当前的因特网检索系统搜索和提供用户想要的信息的很少一部分,因此,使信息搜索的置信度下降。受用户的便利性和搜索速度制约,传统搜索引擎以众所周知的简单方式对数据编索引,将索引词与询问词相比较来确定索引词。因此,在编索引和翻译询问词时在对目标的表达方面的少许差异可能把用于与询问词相比较的、搜索目标当中的信息排除在外。也就是说,由于信息生产者的片面表达、编索引者的编索引表达、和信息用户的询问表达相互之间存在些许差异,导致检索系统效率低下。举一个例子来说,可能存在这样一种情况,信息生产者把某个信息表达成“politician(政治家)”,索引者或编索引程序把它的索引编成“politic”,和信息用户查询“politician”。这里,当用户在信息检索系统中搜索用询问词“politician”编索引的信息时,用“politic”编索引的信息将遗漏掉。此外,当在上述情况中用“statesman(政治家)”对信息编索引时,不搜索带有询问词“politician”的文本。正如这里所示的,存在着具有相同含义的一些术语,和同一概念可能用不同方式来表达。因此,即使实际上存在所需信息,也由于把它当作不同的东西,而不能把它搜索出来。因此,只有在用户把所有相关词,即“politic”、“politician”、“statesman”和“political”输入成与“politic”相关的搜索信息时,按照这种方式具体化的传统检索系统才能提供与询问词对应的信息。这就造成了使用上的不方便和使信息搜索的置信度下降的缺点。同时,另一个例子显示了这样一种情况,信息生产者把某个信息表达成“backbone”,索引者或编索引程序把它的索引编成“back”、“bone”、和“本文档来自技高网...

【技术保护点】
一种基于中心词词典的信息检索系统,包括:中心词词典存储单元,用于存储找出含有词条的中心含义的词(下文称之为“中心词”)的信息;匹配单元,用于从用户那里接收询问词;信息搜索单元,用于根据询问词设置至少一个词条,利用词条从中心词词典 存储单元中提取中心词,和利用词条和中心词作为关键词搜索相关信息;和输出单元,用于输出信息搜索单元搜索的结果。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:郑一亨
申请(专利权)人:韩国电气通信公社
类型:发明
国别省市:KR[韩国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1