设置元数据的方法、设置元数据的系统以及程序技术方案

技术编号:7570666 阅读:159 留言:0更新日期:2012-07-15 04:02
提出了用于在搜索文件的日常过程中自然和高效率地设置元数据的方法。在文件搜索屏幕上,提供了确定元数据未注册文件的候选元数据以及使用已经设置的候选元数据初始化元数据的录入的功能。候选元数据的确定使用以下三种方法中的任何一种来执行:指定以正则表达式描述的匹配搜索关键词的字符串作为候选者的方法,指定匹配关键词词典的文件路径或文件中的字符串作为候选者的方法,以及指定在元数据已注册文件中频繁出现的元数据作为候选者的方法。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及用于设置元数据的方法、用于设置元数据的系统、以及程序。例如,本专利技术涉及用于在搜索电子数据的过程期间提供元数据的方法。
技术介绍
在许多组织例如企业中,大量的数据,例如用办公软件创建的文件或通过扫描书面文件创建的文件,被每天创建并且存储在文件服务器或类似物中。当期望的文件将要位于这样大量的数据中时,普遍使用了在文件服务器中搜索文件夹的方法。然而,当文件夹结构复杂或当文件放在具有不是搜索期望的文件的人所意想的结构的文件夹中时,定位这样的文件将耗费相当长的时间。作为另一种搜索文件的方法,已知全文搜索方法。然而,这种方法至少存在两个问题。第一个问题是,某些文件不能够仅通过关键词搜索被定位(见附图说明图1)。例如,当想要定位在给定的时间段创建的所有文档时,检索这样的文档将是不可能的,因为全文搜索不能够将表示文档内的日期的字符串作为“与日期相关联的数据”对待。此外,作为其他的示例性的问题,可能有以下的情况,如果某些文档包含具有与搜索期望的文档的人使用的搜索关键词相同的含义的词语,那么所期望的文档不能够被定位,或如果客户名称在多行中描述,那么将不能找出包含客户名称的文件,即使通过客户名称(作为位于多行中的字符串)执行搜索。作为另一个问题,可能有大量无关的文件被找出的情况(见图幻。例如,如果执行搜索以定位其中将银行名称作为客户名称描述的文档,在另一个文件中,银行名称也可能作为过户账户名称描述,或如果通过ID例如报价数字执行搜索,那么与ID相同的数字可能被作为金额描述。这样的可归因于全文搜索的问题可能发生,因为在文档内的关键词不被作为具有含义的字符处理。在本文中,已知使用与文档相关联的元数据(属性信息)来管理文档的方法。例如,专利文献1提出了虚拟文件夹系统。虚拟文件夹系统通过设置每个文件上的元数据并且定义搜索条件以定位在每个虚拟文件夹中的每个元数据来实现。当查阅虚拟文件夹时, 相应于相关联的搜索条件的文件搜索结果被呈现,由此实现了基于搜索条件的文件分类。 例如,当管理商业文档时,“文档类型名称”(例如合同、订单或报价单)和“开具日期”被设置作为所有文件的元数据,并且虚拟文件夹被指定搜索条件“文档类型名称‘合同’”。然后,当查阅虚拟文件夹时,可以获取合同的列表。相似地,如果另一个虚拟文件夹被指定搜索条件“开具日期‘2009年1月至3月’”,那么可以收集在指定的时期发布的文档。如上文描述的,虚拟文件夹系统通过含义来分类文件。因此,文档的有效使用是可能的。当设置文档上的元数据时,用户参照原始文档进行设置。许多文档管理产品提供元数据注册屏幕,使得用户参照文件手工键入元数据。作为用于减少这样的手工录入操作的负担的方法,例如,已知在专利文献2中提出的方法,其中当新的文件存储在其中已经存储有另一个文件的文件夹中时,与已经存储的文件的元数据相同的元数据被自动设置在新注册的文件上。此外,专利文献3提出了当意图在(表示其元数据已经被注册的文件的) 小图像中注册的文件被拖放至小图像时,用于自动在新注册的文件上设置已经注册的元数据的方法。此外,专利文献4提出了用于通过参照文档内的句子的内容和布局之间的关系自动地从文档抽取元数据的技术。引用列表专利文献特许文献1日本专利公布(特开昭)Νο·2003--323326Α特许文献2日本专利公布(特开昭)Νο·2009--75667Α特许文献3日本专利公布(特开昭)Νο·2006--209516Α特许文献4日本专利公布(特开昭)Νο·2005--235099Α专利技术概述技术问题根据专利文献2至4,虽然元数据录入操作的负担减少了,但是不能消除在注册之前通过视觉检查待注册的目标文档的需要。例如,根据专利文献2和3,必需在选择合适的现有文件或用于文档的注册的小图像之前检查待注册的目标文档的内容。此外,根据专利文献4,不一定的是,正确的元数据可以始终被抽取。因此,在实践中,必需视觉地检查元数据是否是正确的,并且,如果发现元数据是不正确的,修改这样的元数据。即,在注册元数据时,人应当始终参照最初的文件并且检查与其相关联的元数据。然而,这样的检查操作对于用户来说是复杂的和繁琐的。由于该原因,某些用户可能会倾向于在文件服务器中注册文件而不设置其上的元数据,使得基于元数据的文件的有效使用将是不可能的。本专利技术鉴于以上问题而作出。本专利技术提供用于在搜索文件的日常过程中自然和高效率地设置元数据的技术。问题的解决方案为了解决上述的问题,根据本专利技术,基于搜索关键词执行搜索,并且从文件数据库获取匹配搜索关键词的文件,包括其元数据被注册的文件(下文还称为元数据已注册文件)以及其元数据未被注册的文件(下文还称为元数据未注册文件)。候选元数据确定处理单元将通过执行搜索获取的元数据已注册文件中的一个的元数据设置作为元数据未注册文件中的一个的候选元数据。然后,元数据设置处理单元根据来自用户的指令将候选元数据在元数据设置屏幕上授权并且注册作为待设置在元数据未注册文件上的元数据。更具体地,候选元数据确定处理单元从通过执行搜索获取的元数据已注册文件抽取匹配键入的筛选条件的元数据已注册文件,并且将所抽取的元数据已注册文件的元数据设置作为元数据未注册文件的候选元数据。如果候选元数据的数量是一个,那么元数据设置处理单元授权候选元数据作为不可改变的元数据,并且如果候选元数据的数量多于一个,那么元数据设置处理单元允许候选元数据中的一个被选择。当搜索关键词被设置用于确定候选元数据时,如果搜索关键词以预注册的表达形式描述的话,候选元数据确定处理单元将搜索关键词设置作为候选元数据。当其中存储有能够视为元数据的候选字符串的词典数据库被设置用于确定候选元数据时,如果词典数据库中的候选字符串包含在元数据未注册文件的文件路径中或元数据未注册文件中的字符串中的话,候选元数据确定处理单元将候选字符串设置作为候选元数据。本专利技术的进一步的特征将从以下用于实施本专利技术的实施方案以及附图变得明显。本专利技术的有利的效果根据本专利技术,可以在搜索文件的日常过程中自然和高效率地设置元数据。附图简述图1示出了不能够通过全文搜索(关键词搜索)定位文件的实施例。图2示出了通过全文搜索(关键词搜索)找到无关的文件的实施例。图3是示出了根据本专利技术的实施方案的用于设置元数据的系统的示意性配置的图。图4是示出了示例性的元数据的图。图5是示出了示例性的词典数据的图。图6是示出了示例性的元数据项目设置文件的图。图7是示出了示例性的筛选条件设置文件的图。图8是图示搜索和元数据设置过程的总览的流程图。图9是图示确定候选元数据的过程(细节)的流程图。图10是图示键入元数据的过程(细节)的流程图。图11是示出了示例性的搜索屏幕的图。图12是示出了示例性的(另一个实施方案)搜索屏幕的图。图13是示出了示例性的元数据设置屏幕的图。图14是示出了候选元数据的列表的示例性的显示屏幕的图。实施方案的描述本专利技术涉及用于高效率地和精确地设置其元数据尚未被设置的文件上的元数据的技术。如果元数据可以被高效率地和精确地设置,那么也成为可能的是使用元数据高效率地和精确地搜索文件。在下文,根据本专利技术的实施方案的用于设置元数据的方法将参照附图描述。应当注意,这些实施方案仅是例证性说明实施本专利技术的目的,并且因此不意图限制本本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:野崎康行松本俊子大峡光晴
申请(专利权)人:株式会社日立解决方案
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术