【技术实现步骤摘要】
信息处理装置、信息处理方法以及信息处理设备
本公开总体上涉及信息处理领域,具体而言,涉及能够提供定制化的信息获取工具的信息处理装置、信息处理方法以及信息处理设备。
技术介绍
随着全球信息化的深入,各行各业都慢慢的进入互联网模式。各种机构或者个人都需要从诸如互联网的信息源中获取信息和提取知识。一种常见的信息获取方式是利用搜索引擎进行搜索。然而,用户直接查看利用搜索引擎获得的大量搜索结果可能过于繁复和耗时。另外,即使利用现有的搜索引擎爬虫、聚焦爬虫、可视化爬虫等工具,也仅能实现抓取信息的效果,而不一定满足用户的实际需求。期望能够对现有的信息获取方式进行改进,以满足用户的实际需求。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。鉴于现有技术的缺陷,本专利技术的目的之一是提供一种能够提供定制化的信息获取工具的信息处理装置、方法 ...
【技术保护点】
一种信息处理装置,包括:初始提取单元,其基于用户的第一输入,从作为关注对象的初始搜索结果的网页中提取与所述关注对象的特定属性有关的关注部分;初始模板生成单元,其基于所述用户的第二输入,对所述关注部分进行标注并从所述关注部分中提取所述关注对象的属性,并且利用标注的关注部分进行训练,以生成与所述关注对象的属性的上下文有关的初始属性环境模板;以及扩展模板生成单元,其利用所述初始属性环境模板,从网络中提取与所述关注对象的属性相关的网页信息,以获得扩展搜索结果,并且基于所述扩展搜索结果生成与所述关注对象的属性的上下文有关的扩展属性环境模板。
【技术特征摘要】
1.一种信息处理装置,包括:初始提取单元,其基于用户的第一输入,从作为关注对象的初始搜索结果的网页中提取与所述关注对象的特定属性有关的关注部分;初始模板生成单元,其基于所述用户的第二输入,对所述关注部分进行标注并从所述关注部分中提取所述关注对象的属性,并且利用标注的关注部分进行训练,以生成与所述关注对象的属性的上下文有关的初始属性环境模板;以及扩展模板生成单元,其利用所述初始属性环境模板,从网络中提取与所述关注对象的属性相关的网页信息,以获得扩展搜索结果,并且基于所述扩展搜索结果生成与所述关注对象的属性的上下文有关的扩展属性环境模板。2.如权利要求1所述的信息处理装置,其中,所述第一输入和/或所述第二输入是所述用户通过可视化方式进行的输入。3.如权利要求1所述的信息处理装置,其中,所述扩展模板生成单元从网络的网页中提取所述初始属性环境模板的关键词所在的文本节点以及所述文本节点的兄弟节点,作为所提取的网页信息。4.如权利要求1至3中任一项所述的信息处理装置,其中,在所提取的网页信息中,所述扩展模板生成单元将与所述初始提取单元提取的关注部分的相似度大于预定阈值的网页信息作为所述扩展搜索结果。5.如权利要求4所述的信息处理装置,其中,所述相似度包括内容相似度和结构相似度。6.如权利要求5所述的信息处理装置,其中,所述结构相似度包括下述中的至少一个:CSS修饰类名相似度、元素名相似度、字段长度相似度。7.如权利要求1所述的信息处理装置,还...
【专利技术属性】
技术研发人员:张波,孟遥,孙俊,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:日本,JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。