经由挖掘的超链接文本的片段来浏览图像制造技术

技术编号:14563411 阅读:78 留言:0更新日期:2017-02-05 20:18
对存储在信息存储库中的图像进行准备以用于浏览。针对存储库中的每个图像,对存储库中的文本进行挖掘以提取与图像有关的文本的片段,该文本的片段语义上与图像相关,并且针对这些文本的片段中的每个,检测文本的片段中的关键项,该关键项表示与图像有关的概念或与图像有关的实体,并且该文本的片段和关键项与图像相关联。与存储库中的每个图像相关联的每个关键项被超链接到存储库中的与该关键项相关联的每个其他图像。图形化用户界面允许用户通过使用其相关联的文本的片段和超链接的关键项来浏览存储库中的图像。

【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
互联网是服务全世界数十亿用户的全球数据通信系统。互联网为用户提供对广泛在线信息资源和服务(包括由万维网、基于内联网的企业、及其类似提供的那些资源和服务)的访问。万维网被组织为网站的集合,网站中的每个被组织为网页的集合。给定的网页可以包括广泛的各种类型的在线信息,例如,文本、图像、图形、音频和视频。万维网当前承载数十亿的网页,这些网页当前共同承载约一万亿的图像并且这些数量继续快速地增长。现今存在许多不同的搜索引擎,这些搜索引擎给用户提供了搜索特定计算设备上的或者诸如互联网或专用网络等网络上的期望的在线信息的能力。由于现今存在的各种类型的个人计算设备(例如,个人计算机、膝上/笔记本计算机、智能电话和平板计算机)的普遍性以及互联网的普遍性,用户通常使用一个或多个搜索引擎来定位他们感兴趣的特定图像。
技术实现思路
提供本概述以便以简要的形式引入一系列概念,这些概念在下文的具体实施方式中被进一步描述。本概述既不是要标识要求保护的主题的关键特征或必要特征,也不是要用于帮助确定要求保护的主题的范围。本文描述的图像浏览框架实施例一般适用于允许用户浏览存储在包括多个图像和文本的信息存储库(repository)中的图像。在一个示例性实施例中,按照如下来准备图像以用于浏览。对存储库中的图像中的每个,对存储库中的文本进行挖掘以提取与该图像有关的文本的一个或多个片段,这些一个或多个文本的片段中的每个在语义上与该图像相关。然后,对提取的与图像有关的文本的片段中的每一个,检测该片段中的一个或多个关键项(keyterm),其中,关键项中的每个表示与图像有关的概念或与图像有关的实体,并且该片段和这些一个或多个关键项与图像相关联。与存储库中的图像中的每个相关联的关键项中的每个随后被超链接到存储库中的与该关键项相关联的每个其他图像。在另一个示例性实施例中,其中,信息存储库中的图像和文本以网页的形式存储,网页中的每个使用超文本标记语言(HTML)被结构化,对该存储库进行挖掘以提取与存储库中的特定图像有关的文本的片段。识别出存储库中的包括该特定图像的所有网页。随后生成三元组的列表,在该列表中,每个三元组与被识别的网页中的不同的一个相对应,并且包括该特定图像的统一资源定位符(URL)、被识别的网页的URL、以及针对被识别的网页的HTML代码。随后,从该三元组的列表中随机选择规定数量的三元组,这样的随机选择生成三元组的随机子集。随后,针对该三元组的随机子集中的被识别的网页中的每个,进行下文的动作。对针对被识别的网页的HTML代码进行解析,产生解析树。随后,找到解析树中的图像节点和文本节点。随后确定这些节点在被识别的网页中的线性排序。随后,识别包括特定图像的URL的图像节点中的一个,其中,这样的识别包括每当没有图像节点包括该特定图像的URL或者一个以上的图像节点包括该特定图像的URL时,从三元组的随机子集中删除识别的网页。随后将文本节点中的每个划分成一个或多个句子,对这些句子进行过滤以去除不以大写字母开始和不以合适的标点符号结束的任何句子。随后计算从过滤后的句子中的每个句子到被识别的图像节点的字符中的距离。随后生成过滤后的句子中的每个句子的句子字向量。随后,对与三元组的随机子集中的被识别的网页中的每个中的被识别的图像节点相关联的文本进行聚合,并且针对该聚合的文本来生成图像词向量。随后,针对三元组的随机子集中的被识别的网页中每个网页的过滤后的句子的每个,进行以下动作。生成过滤后的句子的相关性分数,该相关性分数表示该过滤后的句子与特定图像如何相关的估计,并且生成过滤后的句子的兴趣度分数,该兴趣分数度表示该过滤后的句子如何令用户感兴趣的估计。随后根据这些相关性分数和兴趣度分数,生成过滤后的句子的总分数,其中,该总分数指示该过滤后的句子如何相关和令人感兴趣。选择组合的相关分数和兴趣分数大于规定分数阈值的任一个过滤后的句子,并且这些被选择的过滤后的句子被分配成与特定图像有关的文本的片段。在又一个示例性实施例中,在显示设备上显示图像浏览图形化用户界面(GUI),其中,该GUI包括当前图像部分。随后,接收来自用户的查看信息存储库中的期望图像的请求。随后,在当前图像部分中显示该期望图像,并且在该期望图像上显示一个或多个热点,其中,热点中的每个被超链接到与该期望图像有关的文本的不同片段,所述文本的片段在语义上与期望图像相关并且包括一个或多个关键项,关键项中的每个表示与期望图像有关的概念或与期望图像有关的实体,并且关键项中的每个被超链接到存储库中的与该关键项相关联的每个其他图像。附图说明参照以下的描述、所附的权利要求、以及附图,将更好地理解本文描述的图像浏览框架实施例的特定特征、方面和优点,在附图中:图1是以简化的形式示出了用于对存储在信息存储库中的图像进行准备以用于浏览的过程的示例性实施例的流程图。图2是以简化的形式示出了用于对信息存储库中的文本进行挖掘以提取与存储库中的给定图像有关的文本的一个或多个片段的过程的示例性实施例的流程图。图3A和图3B是以简化的形式示出了用于从信息存储库中的被识别为包括图像的网页提取完整句子,并且针对被提取的完整句子中的每个来计算组合的相关性和兴趣度分数的过程的示例性实施例的流程图。图4是以简化的形式示出了用于选择组合的相关性和兴趣度分数大于规定的分数阈值的被提取的完整句子中的任何一个的过程的示例性实施例的流程图。图5是以简化的形式示出了用于对分数最高的被提取的完整句子的排序列表进行过滤的过程的示例性实施例的流程图。图6是以简化的形式示出了用于允许用户浏览准备的图像的过程的示例性实施例的流程图。图7-图15是以简化形式示出了用于允许用户语义地浏览存储在信息存储库中的图像的图形化用户界面(GUI)的一般化布局的示例性实施例的图。图16是示出了可以在其上实现本文描述的图像浏览框架的各种实施例和元素的通用计算机系统的简化示例的图。图17是以简化形式示出了用于允许用户语义地浏览存储在信息存储库中的图像的GUI的一般化布局的可替换的实施例的图。具体实施方式在图像浏览框架实施例的下文描述中,参照形成该描述一部分的附图,并且在下文描述中,以说明方式示出了其中可以实现图像浏览框架的特定实施例。应该理解的是,可以利用其他实施例并且可以进行结构改变,而不偏离图像浏览框架实施例的范围。还应注意到,出于清楚的原本文档来自技高网...

【技术保护点】
一种用于对存储在信息存储库中的图像进行准备以用于浏览的计算机实现的过程,所述存储库包括多个图像和文本,所述过程包括:使用计算机来执行以下过程动作:针对所述存储库中的所述图像中的每个图像,对所述存储库中的所述文本进行挖掘以提取与所述图像有关的文本的一个或多个片段,所述一个或多个片段中的每个片段在语义上与所述图像相关,以及针对与所述图像有关的文本的提取的片段中的每个片段,检测所述片段中的一个或多个关键项,所述关键项中的每个关键项表示与所述图像相关的概念或与所述图像相关的实体,以及将所述片段和所述一个或多个关键项与所述图像相关联;以及将与所述存储库中的所述图像中的每个图像相关联的关键项中的每个关键项超链接到所述存储库中的与所述关键项相关联的每个其他图像。

【技术特征摘要】
【国外来华专利技术】2013.08.12 US 13/964,5161.一种用于对存储在信息存储库中的图像进行准备以用于浏览的计算
机实现的过程,所述存储库包括多个图像和文本,所述过程包括:
使用计算机来执行以下过程动作:
针对所述存储库中的所述图像中的每个图像,
对所述存储库中的所述文本进行挖掘以提取与所述图像有关的文
本的一个或多个片段,所述一个或多个片段中的每个片段在语义上与所述
图像相关,以及
针对与所述图像有关的文本的提取的片段中的每个片段,
检测所述片段中的一个或多个关键项,所述关键项中的每个
关键项表示与所述图像相关的概念或与所述图像相关的实体,以及
将所述片段和所述一个或多个关键项与所述图像相关联;以

将与所述存储库中的所述图像中的每个图像相关联的关键项中的每个
关键项超链接到所述存储库中的与所述关键项相关联的每个其他图像。
2.根据权利要求1所述的过程,其中,所述存储库中的所述图像和所
述文本以网页形式存储,并且对所述存储库中的所述文本进行挖掘以提取
与所述图像有关的文本的一个或多个片段的过程动作包括以下动作:
识别所述存储库中的包括所述图像的所有网页;
从识别的网页提取完整句子并且针对提取的完整句子中的每个,计算
组合的相关性和兴趣度分数;
选择其组合的相关性和兴趣度分数大于规定的分数阈值的所述提取的
完整句子中的任一个;以及
将选择的句子分配为与所述图像有关的文本的提取的片段。
3.在包括包含了显示设备的用户界面的计算机系统中,一种用于允许
用户浏览存储在信息存储库中的图像的计算机实现的过程,包括:
使用所述计算机来执行以下过程动作:
在所述显示设备上显示图像浏览图形化用户界面(GUI),所述GUI包
括当前图像部分;
接收来自所述用户的查看所述存储库中的期望图像的请求;
在所述当前图像部分内显示所述期望图像;以及
在所述期望图像上显示一个或多个热点,所述热点中的每个热点被超
链接到与所述期望图像有关的文本的不同片段,所述文本的不同片段在语
义上与所述期望图像相关并且包括一个或多个关键项,所述关键项中的每
个关键项表示与所述期望图像相关的概念或与所述期望图像相关的实体,
所述关键项中的每个关键项被超链接到所述存储库中的与所述关键项相关
联的每个其他图像。
4.根据权利要求3所述的过程,还包括以下动作:
检测对所述热点中的一个热点的用户选择;
在所述GUI中显示被超链接到选择的热点的所述文本的片段;以及
以允许所述用户在文本的显示的片段中将所述关键项与所述文本的其
余部分区分出的方式来突出显示所...

【专利技术属性】
技术研发人员:S·J·贝克A·卡纳安K·拉姆纳特
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1