字符串生成方法、程序和系统技术方案

技术编号:8612889 阅读:155 留言:0更新日期:2013-04-20 02:23
提供了一种技术,通过该技术可以适当地概括并且在有限范围内显示用于搜索的结果的外围上下文。对于字符串C={c1,...,cn}的所有上下文,字符串s所覆盖的表面积由以s为前缀的c的数目和s的长度的乘积来限定。另外,对于所有上下文的集合,在具有最多K个字符且长度小于或等于L的字符串集合中,在未选择属于另一字符串的部分字符串的条件下获得使覆盖的总表面积最大的字符串集合。根据本发明专利技术,可通过对从所有上下文的单词查找树创建的频率有序上下文树的动态编程来有效解决这一问题。根据本发明专利技术的另一发现,当利用动态编程获得最大表面时,通过估计可通过搜索获得的表面面积的上限,可以从搜索中修剪大量项,由此可以加速处理。另外,通过创建频率有序后缀树,其中按照出现频率排列用于文本的后缀树的子节点,可以加速搜索并且获得最大表面积。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术主要涉及一种用于搜索自然语言文本中的字符串的技术,并且具体地涉及一种用于显示搜索结果的技术。
技术介绍
在搜索文本中的字符串时,在命中周围的上下文字符串提供有用信息。例如,当搜索发现文档中的单词“button”时,可以基于字符串“is clicked”和“is pressed”中的哪个字符串跟随“button”来校验文档中的措词的一致性。也可以校验是否给予特定英文专有名词定冠词。与命中周围的上下文字符串有关的信息在其它搜索(比如搭配(collocation)和人名搜索)中也是重要的。已知一种对搜索项周围的字 符串排序和显示的常规技术KWIC(上下文中的关键字)。例如,在使用KWIC来搜索“ 夕> ” (button,按钮)时显示的所有上下文字符串可以如下

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.08.06 JP 2010-1779961.一种字符串生成方法,用于通过在计算机上的处理来生成待显示的字符串,所述方法包括以下步骤 基于关键字搜索文档以检索包括n个元素c的上下文字符串C,所述n个元素c包括所述关键字,其中n是大于或者等于I的整数;以及 获得字符串s的集合,所述字符串s的集合在显示的字符串的最大数目少于或者等于K的条件下最大化面积之和,其中K是大于或者等于I的整数,其中所述面积中的每个面积是如下面积,在该面积中,字符串s覆盖所述上下文字符串C,所述面积由C的以s作为前缀的元素c的数目与s的长度的乘积来限定。2.根据权利要求1所述的方法,其中获得s的集合的所述步骤基于动态编程。3.根据权利要求2所述的方法,其中待搜索的文档集合被配置为频率有序后缀树数据,并且所述动态编程是对从所述频率有序后缀树的搜索结果获得的频率有序上下文树数据的动态编程。4.根据权利要求3所述的方法,其中所述动态编程包括修剪过程,在所述修剪过程中,在对所述频率有序上下文树数据的进行中的搜索中提供最大值,并且如果上限未达到所述最大值,则放弃所述进行中的搜索。5.一种字符串生成程序,用于通过在计算机上的处理来生成待显示的字符串,所述程序使所述计算机执行以下步骤 基于关键字搜索文档以检索包括n个元素c的上下文字符串C,所述n个元素c包括所述关键字,其中n是大于或者等于I的整数;以及 获得字符串s的集合,所述字符串s的集合在显示的字符串的最大数目少于或者等于K的条件下最大化面积之和,其中K是大于或者等于I的整数,其中所述面积中的每个面积是如下面积,在该面积中,字符串s覆盖所述上...

【专利技术属性】
技术研发人员:海野裕也坪井祐太
申请(专利权)人:国际商业机器公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1