文件检索方法及系统技术方案

技术编号:2889902 阅读:185 留言:0更新日期:2012-04-11 18:40
分解检索条件式,在检索项数计数表(以下,称表A)中存储包含在检索条件式中的检索项(以下,称项)数,生成用于核对全部项的有限自动机,生成存储了项是属于哪个用户的用户识别符表,用有限自动机扫描对象正文,核对项,参照用户识别符表,对每个用户分别算出在正文中出现了与项一致的部分字符串的项数,存储在表A算出的项数用存储区域内,比较表A内算出的项数和检测条件式中的项数,在比较结果一致时,对该用户发送该正文。即使在用户数增加时,也可以实现不受用户数影响的高速正文检索发送功能。(*该技术在2017年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及根据用户预先登记的检索条件式,检索用电子邮件和信息收集自动装置等从通讯社和报社等多种信息来源得到的电子化文件,对于条件成立的用户发送该电子化文件的文件检索发送系统,特别涉及即使用户数增加也可以用一次扫描电子化文件,就结束全部用户检索的具有即时性高的正文检索发送功能的文件检索发送系统。近年,通过电子邮件和电子新闻等,大量的电子化文件(以下,称正文(text))一刻不停地向用户端传送。另外,由于通过互连网络提供信息的信息源激增,因而使用信息收集自动装置等从这些信息源收集的正文量也增大。因此,对检索这些正文,立即向需要该正文的用户发送的文件发送系统的应用需求增加。作为用于实现该文件检索发送系统的核心,使用文件检索。有关该文件检索,具体地记载于A.V.Aho,etal,“Efficient StringMatchingAn Aid to Bibliographic,Communications of theACM”,June 1975,Vol.18 No.6,pp.333-340。这是从多个需要核对的检索字符串(以下,称检索项)中,生成被称为模式匹配器的一种有限自动机,由此,只用一次扫描正文,就可以同时核对多个检索项的方式。但是,在对于多个用户的检索条件式进行正文检索的情况下,会发生以下的问题。(1)用户识别问题通过用包含在多个用户检索条件式中的全部检索项,生成一台有限自动机,可以通过一次扫描下文而核对全部检索项。但是,因为不能判别和正文中的部分字符串一致的检索项包含在哪个用户的检索条件式中,所以分不清哪个用户的检索条件式成立。(2)处理时间的问题如果对每个用户检索条件中分别用包含在该检索条件式中的检索项生成有限自动机,则可以判别哪个用户的检索条件式成立。但是,由于必须按有限自动机的数(即,用户数)扫描正文,所以如果用户数增加,则检索需要的时间相应增加。本专利技术的目的在于提供根据用户预先登录的检索条件式,通过一次扫描来判别哪个用户的检索条件成立,对条件成立的用户发送从多种信息源得到的有关信息的文件检索发送系统。本专利技术的另一目的在于提供即使在用户增加的情况下,也可以进行不受用户数影响的高速实时的正文检索发送的文件检索发送系统。根据本专利技术的用于输入检索项和文件的文件检索系统的文件检索方法具有存储涉及具有多个用户分别指定的1个以上的检索项的多个项的多个检索条件式的步骤;对每个用户分别准备具有包含在该多个检索条件式中的检索条件的数量的、检索项数计数表的步骤;为了准备收集与多个项分别对应的用户的用户列表18,扫描输入到该文件检索系统中的文件的正文数据以包含与多个用户指定的重复的一个项对应的多个用户的步骤;根据上述用户列表,对每个用户分别准备收集在该文件的该正文数据中发现的项类型数的项类型数计数表16的步骤;比较该项数计数表的检索项数和该项类型数计数表的数,并查找两者一致的用户的步骤。该文件被发送给该检索项数和该项类型数一致的用户。在该发送步骤前进行的扫描正文数据的次数是1次。在登录多个用户指定的检索条件的检索条件式步骤和在得到正文时,判断与该正文对应的上述检索条件式是否成立,对检索条件成立的用户,发送该正文的正文检索发送步骤的文件检索发送方法中,上述正文检索发送步骤通过以更少的次数扫描上述正文,就可以判断上述多个检索条件式对该正文是否成立。进而,上述检索条件式登录步骤具有从上述检索条件式中抽出全部的检索项的检索条件式分解步骤;检索项数计数表制作步骤,用于制作检索项数计数表存储对每个用户包含用户从该用户的检索条件式中抽出的全部检索项的数的管理信息;多重字符串核对表生成步骤,用于生成在通过只扫描正文一次就能核对从上述检索条件中抽出的全部检索项时所参照的多重字符串核对表;以及用户列表生成步骤,用于将与从检索条件式中抽出的各检索项对应的检索条件式的用户的用户识别符作为列表生成链接的用户列表,上述正文检索发送步骤具有在判断与该正文相对的上述检索条件式是否成立时,通过参照上述多重字符串核对表扫描该正文,核对由上述检索条件式分解步骤抽出的全部的检索项的正文扫描步骤;以及通过核对已由上述正文扫描步骤核对的检索项和上述用户列表以及上述检索项数计数表,判断与该正文相对应的上述检索条件式是否成立的检索条件式是否成立判断步骤。进而,作为上述多重字符串核对表,要使用有限自动机。再有,上述检索条件式是否成立判断步骤具有参照上述用户列表,对每个用户算出由上述正文扫描步骤核对后的检索项的个数的检索项核对数计算步骤;以及比较在上述检索项核对数计算步骤中算出的检索项的个数和存储在上述检索项数计数表中的检索项的个数,在一致的的情况下,认为包含该检索项的检索条件式成立的检索项数比较步骤。另外,在将从一个以上的信息源得到的文件信息的正文数据作为对象、登录包含一个以上的检索项的一个以上的用户指定的检索条件式的检索条件式登录步骤,和在得到正文时,判断相对于该正文的检索条件式是否成立,对于检索条件式成立的用户,发送该正文的、正文检索发送步骤的文件检索发送方法中,具有登录包含记录由一个以上的用户或系统管理者指定的正文发送条件的发送条件设定式的发送条件设定式登录步骤,上述正文检索发送步骤具有通过只一次扫描上述正文,即可判断上述多个检索条件式对该正文是否成立的正文检索步骤;以及对于由上述正文检索步骤检索后上述检索条件式成立的用户,在由上述发送条件设定式登录步骤登录的上述发送条件成立时,发送上述正文的正文发送控制步骤。进而,上述发送条件设定式登录步骤具有从上述发送条件设定式中抽出要设定发送条件的用户的识别符和发送条件的发送条件设定式分解步骤;以及生成存储了在上述发送条件设定式分解步骤中从上述发送条件设定式中抽出的用户的识别符和发送条件的发送条件管理表的发送条件管理表制作步骤,上述正文发送控制步骤具有参照上述发送条件管理表,判断上述发送条件是否成立的发送条件是否成立判断步骤,以及在由上述发送条件是否成立判断步骤判断上述发送条件成立时,对用户发送上述正文的正文发送步骤。进而,作为上述发送条件,使用发送的时间、发送的件数或从正文检索到发送的延迟时间。另外,在将从一个以上的信息源得到的文件信息的正文数据作为对象,登录包含一个以上的检索项的一个以上的用户指定的检索条件式的检索条件式登录步骤,和在得到正文时,判断相对于该正文的检索条件式是否成立,对于检索条件式成立的用户,发送该正文的正文检索发送步骤的文件检索发送方法中,具有在已指定删除上述检索条件式的情况下,删除该检索条件式的检索条件式删除步骤。进而,上述检索条件式登录步骤具有从上述检索条件式抽出全部检索项的检索条件式分解步骤;对每个用户分别存储用户和从用户的检索条件式中抽出的包含全部检索项的数的管理信息的、检索项数计数表制作步骤;生成在仅用一次扫描正文,来核对从上述检索条件式中抽出的全部检索项时所参照的多重字符串核对表的多重字符串核对表生成步骤;以及将对应于从检索条件式抽出的各检索项指定该检索条件式的用户识别符作为列表,生成链接的用户列表的用户列表生成步骤。上述检索条件式删除步骤具有从上述检索项数计数表以及上述用户列表中,删除与指定删除的上述检索条件式有关的信息的检索条件式管理表删除步骤。进而,上述检本文档来自技高网...

【技术保护点】
输入检索项和文件的文件检索系统用的文件检索方法,具有以下步骤: 存储与多个用户分别指定的、具有一个以上的检索项的多个项相关的多个检索条件式; 对每个用户都准备具有包含在上述多个检索条件式中的检索项的数的、检索项数计数表; 为了准备收集与上述多个项各自对应的用户的、用户列表18,扫描输入到上述文件检索系统中的文件的正文数据,使得其包含与多个用户指定的重复的一个项对应的上述多个用户; 根据上述用户列表,准备项类型数计数表16,其中对上述每个用户分别收集在上述文件的上述正文数据中找到的项的类型数; 比较上述项数计数表的检索项数和上述项类型数计数表的数,查找两者一致的用户。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:菅古奈津子川口久光山崎纪之
申请(专利权)人:株式会社日立制作所
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1