搜索文本中关键词的系统及其方法技术方案

技术编号:2841902 阅读:304 留言:0更新日期:2012-04-11 18:40
本发明专利技术的目的是比以前更有效地搜索关键词,该关键词在文本中以高频率使用,每个关键词满足预定的条件。本发明专利技术的系统存储:第一索引,其从各个文本的标识符指明包含在文本中的关键词的列表;第二索引,其从各个关键词的标识符指明包含关键词的文本的列表;以及包含各个关键词的文本的数量。然后,接收到文本搜索条件的输入,系统计算通过第一索引的搜索时间的估计和通过第二索引的搜索时间的估计,并且确定第一和第二索引的哪一个使得搜索更快。然后,通过使用已经被确定的使得搜索更快的索引,系统搜索以更高频率出现在满足文本搜索条件的文本中的关键词。

【技术实现步骤摘要】

本专利技术涉及,并且更具体地涉及通过使用预先准备的索引有效地搜索关键词的系统及其方法。
技术介绍
随着最近通信网络和信息处理设备的发展,许多文本被存储为数字数据。因此,文本挖掘作为从这些文本中获得有用信息的技术已经引起注意。在文本挖掘中,存在一个实际的问题,即“从在任何搜索条件下已经被限制的文本的集合中,以出现频率的降序检测属于任何范畴的N个关键词(参见非专利文献1)”。以上问题的一个解决方案可以通过以文本的标识符和关键词的标识符作为主要的关键构造RDB(关系数据库)获得。该RDB是,例如,以关键词对应文本的方式记录包含在特定文本中的关键词的数据库。然而,在使用这种RDB的情况下,如果文本数量变得巨大,则搜索时间也变得极长。因此,迄今为止,已经提出通过使用多个信息处理设备并行地计算以上问题的技术(参见非专利文献1)。稍后描述非专利文献2和3。Yu C,Philip G,Meng WY.Distributed top-nquery processing with possibly uncooperative local system(以可能不合作的本地系统处理的分布式的前n个查询),Proc.Of the 29thInt’1Conf.on Very Large Data Bases. BerlinMorgan KaufmannPublishers,2003.117-128。Wei Wang,Jiong Yang,Richard MuntzSTINGA Statistical Information Grid Approach to Spatial Data Mining(空间数据挖掘的统计信息栅格途径),Proceedings of the 23rdVLDBConference,Athens,Greece Aug 1997。Nasukawa,T.and Nagano,T.“Text analysis andknowledge mining system(文本分析和知识挖掘系统)”,IBM systemsJournal 40(4)967-984(2001)。然而,上述非专利文献1的方法需要并行/分布式的计算系统,并且花费大量的金钱和时间。即,例如,必须建立多个信息处理设备,并且这些信息处理设备必须以快速的通信网络连接。因此,需要开发有效的搜索技术,使得可能通过使用单个的信息处理设备进行搜索。例如可能会想到,通过应用传统的文本搜索技术,通过使用文本和关键词的标识符作为号码,以及通过基于该号码预先准备用于索引的数据和散列(hash)结构,有可能加速搜索。特别地,可以考虑以下两种索引。(1)KEY_TO_DOC索引该索引是从以出现频率的降序排列的关键词的标识符到包含关键词的文本的标识符列表的引用。(2)DOC_TO_KEY索引索引是从文本标识符到包含在文本中的关键词的列表的引用。在使用上述的索引(1)的过程中,例如,以出现频率的降序顺序选择关键词,并且确定包含关键词的文本的列表是否满足文本搜索条件。以满足文本搜索条件的文本数量的降序选择N个关键词,并且选择结果变为搜索结果。然而,在存在许多种类的关键词作为搜索目标的情况下,需要依赖于关键词种类数的搜索时间。在使用上述索引(2)的过程中,例如,选择满足文本搜索条件的文本,并且获取相应于文本标识符的关键词列表。然后,为各个关键词计数包含关键词的文本的数量。然而,在存在许多种类的文本作为搜索目标的情况下,需要依赖于文本种类数的搜索时间。尽管可想像通过采样一些文本加速搜索,但是在没有准备足够数量的文本的情况下,搜索精确度减小。
技术实现思路
因此,本专利技术的目的是提供一种系统、方法和程序,使得能够解决上述的问题。通过组合在权利要求范围内的独立权利要求中叙述的特征实现此目的。此外,从属权利要求定义本专利技术的更有利的特定实例。为了解决上述问题,在本专利技术的第一实施方案中,提供了一种用于搜索文本中关键词的系统,该系统包括第一索引存储单元,用于存储从各个文本的标识符指明包含在文本中的关键词的列表的第一索引;第二索引存储单元,用于存储以第二索引对应于包含各个关键词的文本的数量的方式、从各个关键词的标识符指明包含关键词的文本的列表的第二索引;输入单元,用于接收作为关键词的搜索目标的文本条件的文本搜索条件的输入;确定单元,基于在作为搜索目标的多个文本中满足文本搜索条件的文本数量,并且基于以该数量对应于第二索引的方式所存储的文本的数量,计算通过第一索引的搜索时间的估计和通过第二索引的搜索时间的估计,并确定第一和第二索引哪一个使得搜索更快;以及搜索单元,通过使用被确定为使得搜索更快的索引,搜索并输出以高于预定标准的频率出现在满足文本搜索条件的文本中的关键词。也提供了由该系统搜索关键词的方法,以及用于使信息处理设备作为该系统运行的程序。本专利技术的第二方面提供一种用于搜索文本中关键词的系统,该系统包括第二索引存储单元,用于存储从各个关键词的标识符指明包含关键词的文本的列表的第二索引;输入单元,用于接收作为关键词的搜索目标的文本条件的文本搜索条件的输入;以及搜索单元,通过以文本数量的降序来选择关键词的预定标准数量来搜索高频词,该文本包含多个关键词中的关键词并且满足文本搜索条件,该搜索单元进一步包括候选词存储单元,用于存储候选词出现的数量,以该数量对应于待候选为高频词的候选词的方式存储,该数量是包含候选词并且满足文本搜索条件的文本的数量;选择单元,用于以包含关键词的文本数量的降序顺序地选择多个关键词,多个关键词中的每个被选作目标词以作为被确定是否是高频词之一的目标;比较单元,用于从第二索引存储单元读取包含目标词的文本的数量,并且将所读取的文本数量与候选词出现的数量相比较;计算单元,倘若所读取的文本的数量大于任何一个候选词出现的数量,则从第二索引存储单元读取包含目标词的文本的列表,并且计算所读取的文本列表中满足文本搜索条件的文本的数量;以及更新单元,倘若所计算的文本的数量大于任何一个候选词出现的数量,则添加目标词作为候选词到候选词存储单元,并且从候选词存储单元中去除存储在候选词存储单元中的另一候选词,其中,倘若包含由选择单元顺序地选择的目标词的文本的数量小于任何一个候选词出现的数量,则搜索单元输出作为高频词存储在候选词存储单元中的关键词。也提供了一种由该系统搜索关键词的方法,以及使信息处理设备作为该系统运行的程序。附带地,本专利技术的上述概要不列举本专利技术的全部方面,并且这些方面的子组合也可以作为本专利技术。本专利技术使得比现有技术更有效地搜索在满足预定条件的文本中以高频率使用的关键词。附图说明图1是示出搜索系统10的整体结构的框图。图2是示出第一索引存储单元200的数据结构的实例的框图。图3是示出第二索引存储单元300的数据结构的实例的框图。图4是示出搜索单元400的功能结构的框图。图5是示出确定单元500的功能结构的框图。图6是使用搜索系统10搜索关键词的流程图。图7是示出S650中的过程细节的流程图。图8是示出S620中的过程细节的流程图。图9是示出S810中计算的函数的曲线图。图10是示出由本实施方案搜索关键词的搜索结果的表格。图11是示出传统技术搜索关键词所需的时间与提议的技术搜索关键词所需时间之间本文档来自技高网
...

【技术保护点】
一种用于搜索文本中的关键词的系统,该系统包括:第一索引存储单元,用于存储从各个文本的标识符指明包含在文本中的关键词的列表的第一索引;第二索引存储单元,用于以第二索引对应于包含各个关键词的文本的数量的方式,存储从各个关键词的标 识符指明包含关键词的文本的列表的第二索引;输入单元,用于接收作为关键词的搜索目标的文本条件的文本搜索条件的输入;确定单元,基于在作为搜索目标的多个文本中满足文本搜索条件的文本数量,并且基于以该数量对应于第二索引的方式存储的文 本的数量,计算通过第一索引的搜索时间的估计和通过第二索引的搜索时间的估计,并确定第一和第二索引哪一个使得搜索更快;和搜索单元,通过使用被确定为使得搜索更快的索引,搜索并输出以高于预定标准的频率出现在满足文本搜索条件的文本中的关键词。

【技术特征摘要】
JP 2005-12-2 2005-3497171.一种用于搜索文本中的关键词的系统,该系统包括第一索引存储单元,用于存储从各个文本的标识符指明包含在文本中的关键词的列表的第一索引;第二索引存储单元,用于以第二索引对应于包含各个关键词的文本的数量的方式,存储从各个关键词的标识符指明包含关键词的文本的列表的第二索引;输入单元,用于接收作为关键词的搜索目标的文本条件的文本搜索条件的输入;确定单元,基于在作为搜索目标的多个文本中满足文本搜索条件的文本数量,并且基于以该数量对应于第二索引的方式存储的文本的数量,计算通过第一索引的搜索时间的估计和通过第二索引的搜索时间的估计,并确定第一和第二索引哪一个使得搜索更快;和搜索单元,通过使用被确定为使得搜索更快的索引,搜索并输出以高于预定标准的频率出现在满足文本搜索条件的文本中的关键词。2.按照权利要求1的系统,其中系统通过以文本数量的降序选择关键词的预定标准数量搜索高频词,该文本包含多个关键词中的关键词并且满足文本搜索条件,其中在通过第二索引搜索的情况中,该搜索单元包括候选词存储单元,用于存储候选词出现的数量,以该数量对应于候选为高频词的候选词的方式存储,该数量是包含候选词并且满足文本搜索条件的文本的数量;选择单元,用于以包含关键词的文本数量的降序顺序地选择多个关键词,多个关键词中的每个被选作目标词以作为被确定是否是高频词之一的目标;比较单元,用于从第二索引存储单元读取包含目标词的文本的数量,并且将所读取的文本数量与候选词出现的数量相比较;计算单元,倘若所读取的文本的数量大于任何一个候选词出现的数量,则从第二索引存储单元读取包含目标词的文本的列表,并且计算所读取的文本列表中满足文本搜索条件的文本的数量;和更新单元,倘若所计算的文本的数量大于任何一个候选词出现的数量,则以新候选词的数量限制在标准数量以内的方式,从目标词和候选词中以包含各个关键词的文本数量的降序选择新的候选词,并且更新候选词存储单元,其中倘若包含由选择单元顺序地选择的目标词的文本的数量小于任何一个候选词出现的数量,则搜索单元输出存储在候选词存储单元中的关键词作为高频词。3.按照权利要求2的系统,其中确定单元包括比率计算单元,用于计算指示作为搜索目标的所有文本中满足文本搜索条件的文本的占有率的条件满足率;函数计算单元,用于基于该条件满足率近似地计算指示包含各个关键词并且满足文本搜索条件的文本的数量的随机变量的概率分布,并且基于所计算的概率分布,计算阈值的函数以获取各个关键词的随机变量不小于该阈值的概率和;阈值计算单元,用于计算算出的函数基本上等于标准数量处的阈值;第二搜索时间计算单元,基于存储在第二索引存储单元中的文本的数量,计算包含各个关键词的文本的数量,其中关键词包含在其数量大于所计算的阈值的文本中,并且计算算出的文本数量与预定访问时间的乘积,作为通过第二索引的搜索时间的估计;和第一搜索时间计算单元,用于计算作为搜索目标的多个文本中满足文本搜索条件的文本数量与预定访问时间的乘积,作为通过第一索引的搜索时间的估计,其中倘若由第二搜索时间计算单元计算的搜索时间的估计小于由第一搜索时间计算单元计算的搜索时间的估计,则预定单元确定由第二索引搜索更快。4.按照权利要求3的系统,其中函数计算单元通过使用条件满足率估计包含关键词的各个文本满足文本搜索条件的概率,计算作为二项式分布的随机变量的概率分布,并且基于算出的概率分布计算阈值的函数。5.按照权利要求1的系统,其中第一索引存储单元为关键词的每个种类存储从各个文本的标识符指明包含在文本中的种类的关键词的列表的第一索引;第二索引存储单元为关键词的每个种类存储包含在该种类中的关键词的第二索引、和包含该种类中包含的各个关键词的文本的数量;输入单元进一步接收作为搜索目标的关键词的种类的输入;和确定单元基于包含对应于该种类的各个关键词的文本的数量确定第一和第二索引的哪一个使得搜索更快,两个索引都对应于输入的种类。6.一种用于搜索文本中关键词的系统,该系统包括第二索引存储单元,用于存储从各个关键词的标识符指明包含关键词的文本的列表的第二索引;输入单元,用于接收是作为关键词的搜索目标的文本条件的文本搜索条件的输入;和搜索单元,通过以文本数量的降序选择关键词的预定标准数量来搜索高频词,该文本包含多个关键词中的关键词并且满足文本搜索条件,该搜索单元进一步包括候选词存储单元,用于存储候选词出现的数量,以该数量对应于候选为高频词的候选词的方式存储,该数量是包含候选词并且满足文本搜索条件的文本的数量;选择单元,用于以包含关键词的文本数量的降序顺序地选择多个关键词,多个关键词中的每个被选作目标词以作为被确定是否是高频词之一的目标;比较单元,用于从第二索引存储单元读取包含目标词的文本的数量,并且将所读取的文本数量与候选词出现的数量相比较;计算单元,倘若所读取的文本的数量大于任何一个候选词出现的数量,则从第二索引存储单元读取包含目标词的文本的列表,并且计算所读取的文本列表中满足文本搜索条件的文本的数量;和更新单元,倘若所计算的文本的数量大于任何一个候选词出现的数量,则以新候选词的数量限制在标准数量以内的方式,从目标词和候选词中以包含各个关键词的文本数量的降序选择新候选词,并且更新候选词存储单元,其中倘若包含由选择单元顺序地选择的目标词的文本的数量小于任何一个候选词出现的数量,则搜索单元输出存储在候选词存储单元中的关键词作为高频词。7.按照权利要求6的系统,其中第二索引存储单元以文本数量对...

【专利技术属性】
技术研发人员:宅间大介坪井裕太吉田一星
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1