信息处理装置、信息处理方法以及信息处理设备制造方法及图纸

技术编号:17032807 阅读:26 留言:0更新日期:2018-01-13 19:20
本公开提供了信息处理装置、信息处理方法以及信息处理设备。信息处理装置包括:初始提取单元,其基于用户的第一输入,从作为关注对象的初始搜索结果的网页中提取与所述关注对象的特定属性有关的关注部分;初始模板生成单元,其基于所述用户的第二输入,对所述关注部分进行标注并从所述关注部分中提取所述关注对象的属性,并且利用标注的关注部分进行训练,以生成与所述关注对象的属性的上下文有关的初始属性环境模板;以及扩展模板生成单元,其利用所述初始属性环境模板,从网络中提取与所述关注对象的属性相关的网页信息,以获得扩展搜索结果,并且基于所述扩展搜索结果生成与所述关注对象的属性的上下文有关的扩展属性环境模板。

【技术实现步骤摘要】
信息处理装置、信息处理方法以及信息处理设备
本公开总体上涉及信息处理领域,具体而言,涉及能够提供定制化的信息获取工具的信息处理装置、信息处理方法以及信息处理设备。
技术介绍
随着全球信息化的深入,各行各业都慢慢的进入互联网模式。各种机构或者个人都需要从诸如互联网的信息源中获取信息和提取知识。一种常见的信息获取方式是利用搜索引擎进行搜索。然而,用户直接查看利用搜索引擎获得的大量搜索结果可能过于繁复和耗时。另外,即使利用现有的搜索引擎爬虫、聚焦爬虫、可视化爬虫等工具,也仅能实现抓取信息的效果,而不一定满足用户的实际需求。期望能够对现有的信息获取方式进行改进,以满足用户的实际需求。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。鉴于现有技术的缺陷,本专利技术的目的之一是提供一种能够提供定制化的信息获取工具的信息处理装置、方法以及设备,以至少解决现有的问题。根据本公开的一个方面,提供一种信息处理装置,包括:初始提取单元,其基于用户的第一输入,从作为关注对象的初始搜索结果的网页中提取与所述关注对象的特定属性有关的关注部分;初始模板生成单元,其基于所述用户的第二输入,对所述关注部分进行标注并从所述关注部分中提取所述关注对象的属性,并且利用标注的关注部分进行训练,以生成与所述关注对象的属性的上下文有关的初始属性环境模板;以及扩展模板生成单元,其利用所述初始属性环境模板,从网络中提取与所述关注对象的属性相关的网页信息,以获得扩展搜索结果,并且基于所述扩展搜索结果生成与所述关注对象的属性的上下文有关的扩展属性环境模板。根据本公开的另一方面,提供一种信息处理方法,包括:基于用户的第一输入,从作为关注对象的初始搜索结果的网页中提取与所述关注对象的特定属性有关的关注部分;基于所述用户的第二输入,对所述关注部分进行标注并从所述关注部分中提取所述关注对象的属性,并且利用标注的关注部分进行训练,以生成与所述关注对象的属性的上下文有关的初始属性环境模板;以及利用所述初始属性环境模板,从网络中提取与所述关注对象的属性相关的网页信息,以获得扩展搜索结果,并且基于所述扩展搜索结果生成与所述关注对象的属性的上下文有关的扩展属性环境模板。根据本公开的又一方面,提供一种信息处理设备,所述设备包括控制器,所述控制器被配置为:基于用户的第一输入,从作为关注对象的初始搜索结果的网页中提取与所述关注对象的特定属性有关的关注部分;基于所述用户的第二输入,对所述关注部分进行标注并从所述关注部分中提取所述关注对象的属性,并且利用标注的关注部分进行训练,以生成与所述关注对象的属性的上下文有关的初始属性环境模板;以及利用所述初始属性环境模板,从网络中提取与所述关注对象的属性相关的网页信息,以获得扩展搜索结果,并且基于所述扩展搜索结果生成与所述关注对象的属性的上下文有关的扩展属性环境模板。依据本公开的其它方面,还提供了一种使得计算机用作如上所述的信息处理装置的程序。依据本公开的又一方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,该计算机程序在执行时能够使计算设备执行上述信息处理方法。上述根据本公开实施例的各个方面,至少能够获得以下益处:针对不同的用户需求,提供定制化的信息获取工具。这对于小企业、个人等小规模用户而言,是特别有用的效果。通过以下结合附图对本公开的最佳实施例的详细说明,本公开的这些以及其他优点将更加明显。附图说明本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:图1是示意性地示出根据本公开实施例的信息处理装置的示例结构的框图。图2A至图2C是用于说明从网络中获取关注对象的初始搜索结果的示例的说明图。图3和图4是用于说明根据本公开实施例的信息处理装置中的初始提取单元所进行的示例处理的说明图。图5是用于说明根据本公开实施例的信息处理装置中的初始模板生成单元所进行的示例处理的说明图。图6是用于说明根据本公开实施例的信息处理装置中的扩展模板生成单元所进行的示例处理的说明图。图7是示意性地示出根据本公开实施例的信息处理装置的另一示例结构的框图。图8是示意性地示出根据本公开实施例的信息处理方法的示例流程的流程图。图9是示意性地示出根据本公开实施例的信息处理方法的另一示例流程的流程图。图10是示意性地示出根据本公开实施例的信息处理设备的示例结构的框图。图11是示出了可用来实现根据本公开实施例的信息处理装置、方法以及设备的一种可能的硬件配置的结构简图。具体实施方式在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。在信息处理领域,期望对现有的信息获取方式进行改进,以满足不同用户的不同需求。基于此,本公开提出了一种信息处理装置、方法以及设备,其能够针对不同的用户需求,提供定制化的信息获取工具。根据本公开的一个方面,提供了一种信息处理装置。图1是示意性地示出根据本公开实施例的信息处理装置的示例结构的框图。如图1所示,信息处理装置10包括:初始提取单元101,其基于用户的第一输入,从作为关注对象的初始搜索结果的网页中提取与所述关注对象的特定属性有关的关注部分;初始模板生成单元102,其基于所述用户的第二输入,对所述关注部分进行标注并从所述关注部分中提取所述关注对象的属性,并且利用标注的关注部分进行训练,以生成与所述关注对象的属性的上下文有关的初始属性环境模板;以及扩展模板生成单元103,其利用所述初始属性环境模板,从网络中提取与所述关注对象的属性相关的网页信息,以获得扩展搜索结果,并且基于所述扩展搜索结果生成与所述关注对象的属性的上下文有关的扩展属性环境模板。可以利用各种现有技术方式,从诸如互联网的网络中获取与关注对象(下文中也可将“关注对象”称为“实体”)有关的初始搜索结果。图2A至图2C是用于说明从网络中获取关注对象的初始搜索结果的示例的说明图,其示出了以不同方式获取关注对象的初始搜索结果。图2A示出了从用户指定的特定网页的特定区域中获取关注对象的信息的示例。这种方式适合DeepWeb类型的网页,即,网页链接不发本文档来自技高网...
信息处理装置、信息处理方法以及信息处理设备

【技术保护点】
一种信息处理装置,包括:初始提取单元,其基于用户的第一输入,从作为关注对象的初始搜索结果的网页中提取与所述关注对象的特定属性有关的关注部分;初始模板生成单元,其基于所述用户的第二输入,对所述关注部分进行标注并从所述关注部分中提取所述关注对象的属性,并且利用标注的关注部分进行训练,以生成与所述关注对象的属性的上下文有关的初始属性环境模板;以及扩展模板生成单元,其利用所述初始属性环境模板,从网络中提取与所述关注对象的属性相关的网页信息,以获得扩展搜索结果,并且基于所述扩展搜索结果生成与所述关注对象的属性的上下文有关的扩展属性环境模板。

【技术特征摘要】
1.一种信息处理装置,包括:初始提取单元,其基于用户的第一输入,从作为关注对象的初始搜索结果的网页中提取与所述关注对象的特定属性有关的关注部分;初始模板生成单元,其基于所述用户的第二输入,对所述关注部分进行标注并从所述关注部分中提取所述关注对象的属性,并且利用标注的关注部分进行训练,以生成与所述关注对象的属性的上下文有关的初始属性环境模板;以及扩展模板生成单元,其利用所述初始属性环境模板,从网络中提取与所述关注对象的属性相关的网页信息,以获得扩展搜索结果,并且基于所述扩展搜索结果生成与所述关注对象的属性的上下文有关的扩展属性环境模板。2.如权利要求1所述的信息处理装置,其中,所述第一输入和/或所述第二输入是所述用户通过可视化方式进行的输入。3.如权利要求1所述的信息处理装置,其中,所述扩展模板生成单元从网络的网页中提取所述初始属性环境模板的关键词所在的文本节点以及所述文本节点的兄弟节点,作为所提取的网页信息。4.如权利要求1至3中任一项所述的信息处理装置,其中,在所提取的网页信息中,所述扩展模板生成单元将与所述初始提取单元提取的关注部分的相似度大于预定阈值的网页信息作为所述扩展搜索结果。5.如权利要求4所述的信息处理装置,其中,所述相似度包括内容相似度和结构相似度。6.如权利要求5所述的信息处理装置,其中,所述结构相似度包括下述中的至少一个:CSS修饰类名相似度、元素名相似度、字段长度相似度。7.如权利要求1所述的信息处理装置,还...

【专利技术属性】
技术研发人员:张波孟遥孙俊
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1