【技术实现步骤摘要】
【国外来华专利技术】
本专利技术主要涉及一种用于搜索自然语言文本中的字符串的技术,并且具体地涉及一种用于显示搜索结果的技术。
技术介绍
在搜索文本中的字符串时,在命中周围的上下文字符串提供有用信息。例如,当搜索发现文档中的单词“button”时,可以基于字符串“is clicked”和“is pressed”中的哪个字符串跟随“button”来校验文档中的措词的一致性。也可以校验是否给予特定英文专有名词定冠词。与命中周围的上下文字符串有关的信息在其它搜索(比如搭配(collocation)和人名搜索)中也是重要的。已知一种对搜索项周围的字 符串排序和显示的常规技术KWIC(上下文中的关键字)。例如,在使用KWIC来搜索“ 夕> ” (button,按钮)时显示的所有上下文字符串可以如下
【技术保护点】
【技术特征摘要】
【国外来华专利技术】2010.08.06 JP 2010-1779961.一种字符串生成方法,用于通过在计算机上的处理来生成待显示的字符串,所述方法包括以下步骤 基于关键字搜索文档以检索包括n个元素c的上下文字符串C,所述n个元素c包括所述关键字,其中n是大于或者等于I的整数;以及 获得字符串s的集合,所述字符串s的集合在显示的字符串的最大数目少于或者等于K的条件下最大化面积之和,其中K是大于或者等于I的整数,其中所述面积中的每个面积是如下面积,在该面积中,字符串s覆盖所述上下文字符串C,所述面积由C的以s作为前缀的元素c的数目与s的长度的乘积来限定。2.根据权利要求1所述的方法,其中获得s的集合的所述步骤基于动态编程。3.根据权利要求2所述的方法,其中待搜索的文档集合被配置为频率有序后缀树数据,并且所述动态编程是对从所述频率有序后缀树的搜索结果获得的频率有序上下文树数据的动态编程。4.根据权利要求3所述的方法,其中所述动态编程包括修剪过程,在所述修剪过程中,在对所述频率有序上下文树数据的进行中的搜索中提供最大值,并且如果上限未达到所述最大值,则放弃所述进行中的搜索。5.一种字符串生成程序,用于通过在计算机上的处理来生成待显示的字符串,所述程序使所述计算机执行以下步骤 基于关键字搜索文档以检索包括n个元素c的上下文字符串C,所述n个元素c包括所述关键字,其中n是大于或者等于I的整数;以及 获得字符串s的集合,所述字符串s的集合在显示的字符串的最大数目少于或者等于K的条件下最大化面积之和,其中K是大于或者等于I的整数,其中所述面积中的每个面积是如下面积,在该面积中,字符串s覆盖所述上...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。