本发明专利技术提出了一种数据索引装置,包括:读取单元,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;标记单元,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;索引建立单元,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。相应地,本发明专利技术还提供了一种数据索引方法。通过本发明专利技术的技术方案,在读取半结构化数据时,将半结构化数据中与索引字段匹配的字段加上标签,在搜索引擎建立索引时,找到与需要索引的字段相匹配的标签即可,不必再对数据进行结构化,从而方便搜索引擎建立索引,使得搜索引擎的实时性有了更大的提升。
【技术实现步骤摘要】
本专利技术涉及数据处理领域,具体而言,涉及一种。
技术介绍
随着网络技术的发展,特别是互联网和企业内部网技术的飞快发展,使得半结构化数据的数量日趋增大。目前,对半结构化数据的处理主要是做结构化处理,进行结构化处理耗时较长,随着数据结构越来越来越复杂,结构化处理将越来越不适合产品应用。因此,需要一种新的技术方案,可以使得在处理半结构化数据时,避免对其进行结构化处理时产生的耗时长等问题,而可以采取更好的方法对半结构化数据进行处理
技术实现思路
·本专利技术正是基于上述问题,提出了一种新的技术方案,可以使得在处理半结构化数据时,避免对其进行结构化处理时产生的耗时长等问题,而可以采取更好的方法对半结构化数据进行处理。有鉴于此,本专利技术提出了一种数据索引装置,包括读取单元,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;标记单元,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;索引建立单元,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。在该技术方案中,在处理半结构化数据时,将半结构化数据中与索引字段匹配的字段加上标签,在搜索引擎建立索引时,找到与需要索引的字段相匹配的标签即可,而不必再对数据进行结构化处理,从而方便搜索引擎建立索引,使得搜索引擎的实时性有了更大的提升。在上述技术方案中,优选地,还包括转存单元,在所述读取单元读取完所述半结构化数据以后,将所有已加入标签的数据转存到索引目录中。在该技术方案中,在对半结构化数据进行遍历以后,将所有已加标签的数据都存到索引目录,这样搜索引擎在建立索引时,只从索引目录中查找与其搜索内容匹配的标签即可,而不必在所有半结构化数据中进行查找匹配,从而缩短了查找时间,能够更快速地为搜索引擎提供数据源。在上述技术方案中,优选地,所述标签包括标签标识、字段位置及字段信息。在该技术方案中,加入到符合字段的标签上除了包含标签标识外,还包括字段位置和字段信息,搜索引擎在建立索引时,根据标签位置及标签信息即可找到与其搜索内容匹配的标签。 在上述技术方案中,优选地,所述字段位置包括字段偏移量,所述字段信息包括字段名称。在该技术方案中,具体地,字段位置包括字段的偏移量,字段信息包括字段名称,搜索引擎在建立索引时,根据索引内容找到与其匹配的字段名称,再根据标签中字段名称对应的字段偏移量,找到字段,从而建立索引。在上述技术方案中,优选地,所述索引目录中包括多种数据源格式的数据。本专利技术的技术方案可以适用于多种数据源格式。根据本专利技术的又一方面,还提供了一种数据索引方法,包括步骤202,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;步骤204,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;步骤206,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。在该技术方案中,在处理半结构化数据时,将半结构化数据中与索引字段匹配的字段加上标签,在搜索引擎建立索引时,找到与需要索引的字段相匹配的标签即可,从而方便搜索引擎建立索引,使得搜索引擎的实时性有更大的提升。 在上述技术方案中,优选地,所述步骤206还包括在读取完所述半结构化数据以后,将所有已加入标签的数据转存到索引目录中。在该技术方案中,在对半结构化数据进行遍历以后,将所有已加标签的数据都存到索引目录,这样搜索引擎在建立索引时,只从索引目录中查找与其搜索内容匹配的标签即可,而不必在所有半结构化数据中进行查找匹配,从而缩短了查找时间,能够更快速的为搜索引擎提供数据源。在上述技术方案中,优选地,所述标签包括标签标识、字段位置及字段信息。在该技术方案中,加入到符合字段的标签上除了包含标签标识外,还包括字段位置和字段信息,搜索引擎在建立索引时,根据标签位置及标签信息即可找到与其搜索内容匹配的标签。在上述技术方案中,优选地,所述字段位置包括字段偏移量,所述字段信息包括字段名称。在该技术方案中,具体地,字段位置包括字段的偏移量,字段信息包括字段名称,搜索引擎在建立索引时,根据索引内容找到与其匹配的字段名称,再根据标签中字段名称对应的字段偏移量,找到字段,从而建立索引。在上述技术方案中,优选地,所述索引目录中包括多种数据源格式的数据。本专利技术的技术方案可以适用于多种数据源格式。通过以上技术方案,将半结构化数据中与索引字段符合的字段加入标签,搜索引擎根据标签建立索引,这样对半结构化数据做了预处理,不必再对数据进行结构化处理,从而提高了索引的速度。附图说明图I示出了根据本专利技术的实施例的数据索引装置的框图;图2示出了根据本专利技术的实施例的数据索引方法的流程图;图3示出了根据本专利技术的实施例的数据索引方法的具体流程图。具体实施例方式为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施方式对本专利技术进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是,本专利技术还可以采用其他不同于在此描述的其他方式来实施,因此,本专利技术的保护范围并不受下面公开的具体实施例的限制。图I示出了根据本专利技术的实施例的数据索引装置的框图。如图I所示,本专利技术的实施例的数据索引装置100包括读取单元102,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;标记单元104,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;索引建立单元106,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。 在该技术方案中,在处理半结构化数据时,将半结构化数据中与索引字段匹配的字段加上标签,在搜索引擎建立索引时,找到与需要索引的字段相匹配的标签即可,不必再对数据进行结构化,从而方便搜索引擎建立索引,使得搜索引擎的实时性有更大的提升。在上述技术方案中,优选地,还包括转存单元108,在所述读取单元102读取完所述半结构化数据以后,将所有已加入标签的数据转存到索引目录中。在该技术方案中,在对半结构化数据进行遍历以后,将所有已加标签的数据都存到索引目录,这样搜索引擎在建立索引时,只从索引目录中查找与其搜索内容匹配的标签即可,而不必在所有半结构化数据中进行查找匹配,从而缩短了查找时间,能够更快速的为搜索引擎提供数据源。在上述技术方案中,优选地,所述标签包括标签标识、字段位置及字段信息。在该技术方案中,加入到符合字段的标签上除了包含标签标识外,还包括字段位置和字段信息,搜索引擎在建立索引时,根据标签位置及标签信息即可找到与其搜索内容匹配的标签。在上述技术方案中,优选地,所述字段位置包括字段偏移量,所述字段信息包括字段名称。在该技术方案中,具体地,字段位置包括字段的偏移量,字段信息包括字段名称,搜索引擎在建立索引时,根据索引内容找到与其匹配的字段名称,再根据标签中字段名称对应的字段偏移量,找到字段,从而建立索引。在上述技术方案中,优选地,所述索引目录中包括多种数据源格式的数据。 本专利技术的技术方案可以适用于多种数据源格式。图2示出了根据本专利技术的实施例的数据索引方法的流程图。如图2所示,本专利技术的实施例的数据索引方法,包括步骤202,读取半结构化数据,判断所述半结构化数据中本文档来自技高网...
【技术保护点】
一种数据索引装置,其特征在于,包括:读取单元,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;标记单元,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;索引建立单元,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。
【技术特征摘要】
【专利技术属性】
技术研发人员:赵兴成,
申请(专利权)人:深圳中兴网信科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。