用于通过相似性关联对电子信息排名的方法和装置制造方法及图纸

技术编号:21407067 阅读:51 留言:0更新日期:2019-06-19 09:29
提供了用于基于所确定的相似性来对电子信息排名的系统和方法。在一方面,从电子对象群组确定独特特征集合。图被构建,其中电子对象被表示为对象节点,并且所确定的特征被表示为特征节点。对象节点通过加权边被互连到至少一个特征节点。使用所确定的锚节点集合和所确定的加权邻接矩阵来计算对象节点和特征节点的评分。基于所计算的评分来对图的对象节点和特征节点排名和显示。在一方面,基于用户偏好,动态地更新和显示对对象节点和特征节点的评分和排名。

Method and device for ranking electronic information by similarity association

A system and method for ranking electronic information based on determined similarities are provided. On the one hand, the unique feature set is determined from the group of electronic objects. Graphs are constructed in which electronic objects are represented as object nodes and the identified features are represented as feature nodes. Object nodes are interconnected to at least one feature node by weighted edges. The set of anchor nodes and the weighted adjacency matrix are used to calculate the score of object nodes and feature nodes. The ranking and displaying of the object nodes and feature nodes of the graph are based on the calculated scores. On the one hand, based on user preferences, the scoring and ranking of object nodes and feature nodes are dynamically updated and displayed.

【技术实现步骤摘要】
【国外来华专利技术】用于通过相似性关联对电子信息排名的方法和装置
本公开涉及处理系统,更具体地涉及用于对以电子格式存储的文本和非文本信息进行处理、查找和排名的计算机实现的系统和方法。
技术介绍
网络技术已经使得能够访问大量在线信息。随着诸如智能电话、平板等联网消费者设备的激增,用户现在能够在几乎任何时间从任何位置访问信息。搜索引擎使得用户能够在诸如互联网等网络上搜索信息。用户将一个或多个关键词或搜索项输入充当到搜索引擎的界面的网络浏览器的网页。搜索引擎标识被认为匹配关键词的资源,并在网页中向用户显示结果。用户通常选择话题关键词并将其输入到搜索引擎的网络浏览器界面。搜索引擎基于从用户接收的关键词在一个或多个数据存储库上执行查询。由于这样的搜索经常会导致数千或数百万的命中或匹配,所以大多数搜索引擎通常对结果进行排名,并且最佳结果的短列表在网页上被显示给用户。显示给用户的结果网页通常包括去往一个或多个网页中的匹配结果的超链接并连同包括简要文本描述。
技术实现思路
在各种方面,提供了用于通过相似性对电子信息进行处理、排名以及显示的系统和方法。本系统和方法适用于被配置为搜索结果并向用户显示结果的搜索引擎。一方面,从电子对象群组确定独特特征集合。图被构造,在该图中,每个电子对象被表示为对象节点,并且每个独特特征被表示为特征节点。每个对象节点通过加权边互连到图中的至少一个特征节点。使用图来构建加权邻接矩阵,并确定用于表示图中的锚节点集合的锚向量。使用表示锚节点集合的向量和加权邻接矩阵,来计算图的所有对象节点和特征节点的评分。一方面,基于所计算的评分,对图的对象节点和特征节点排名,并且将图的经排名的对象节点和特征节点显示在显示设备上。一方面,基于指示用户对所显示的节点中的一个或多个节点的选择的用户输入来更新表示图中的锚节点集合的向量。然后,使用经更新的向量和加权邻接矩阵,来更新(重新计算)图的对象节点和特征节点的评分,并且基于经更新的评分来更新对象节点和特征节点的排名。基于经更新的排名,更新经排名的对象节点和特征节点在显示设备上的显示。一方面,通过对个性化页面排名算法迭代地应用表示锚节点集合的向量和加权邻接矩阵,来计算图的对象节点和特征节点的评分。一方面,通过聚合从个性化页面排名算法的每次迭代产生的评分,来计算图的对象节点和特征节点的评分。一方面,基于用户输入,确定图中的锚节点集合。另一方面,通过选择图的每个对象节点和每个特征节点作为锚节点集合中的锚节点,来确定图中的锚节点集合。一方面,独特特征集合中的至少一个所确定的独特特征表示电子对象群组中的文本信息。另一方面,独特特征集合中的至少一个所确定的独特特征表示电子对象群组中的非文本信息。一方面,向电子对象群组应用机器学习算法,以使用机器学习算法来确定独特特征集合中的至少一个独特特征。附图说明图1示出了根据本公开的各种方面的用于对电子信息进行处理、搜索、排名以及显示的计算机实现的过程的示例实施例。图2示出了根据本公开的各种方面构建的图的简化示例。图3示出了根据本公开的一方面的任意图的一般示例。图4示出了基于图3中所示的图构建的邻接矩阵的示例。图5示出了基于图3中所示的图构建的行归一化加权邻接矩阵的示例。图6示出了根据本公开的各种方面的图形用户界面。图7示出了用于实现本公开的各种方面的示例装置的框图。具体实施方式下面参考附图来描述本公开的各种方面,其中贯穿附图的描述,相似的标号指代相似的元素。说明书和附图仅示出了本公开的原理。将理解的是,本领域技术人员将能够想出各种布置,尽管在本文中并未明确描述或示出这些布置,但是这些布置体现了这些原理并且被包括在本公开的精神和范围中。除非另有指示(例如,“否则”或“在替代方案中”),如本文中所使用的,术语“或”指代非排他性的或。另外,如本文中所使用的,用来描述元件之间的关系的词语应当被宽泛地解释为包括直接关系或存在中间元件(除非另有指示)。例如,当元件被描述为“连接”或“耦合”到另一元件时,该元件可以被直接连接或耦合到另一元件或者可以存在中间元件。相反,当元件被称为“直接连接”或“直接耦合”到另一元件时,不存在中间元件。类似地,诸如“之间”、“相邻”等词语应当按照相似的方式被解读。由搜索引擎执行的典型搜索经常产生成千上万的匹配结果。为了使这些结果易于管理,搜索引擎通常对匹配结果进行排名,并且按照排名的降序在一个或多个网页中显示排名结果的子集。用于对网页进行排名的一种众所周知的技术是页面排名算法,其表示网页的重要性,网页的重要性作为访问该网页的确定的平稳概率。页面排名基于如下原理,相比去往不太重要的网页存在去往较为重要的页面的更大数目的超链接。因此,网页的重要性基于链接到该网页的其他网页的数目和所确定的重要性而被确定。使用图论将页面排名算法实现为访问网页的随机游走模型,其中图的顶点(或节点)表示网页,并且互连图的节点的边或链接表示从一个网页到另一个网页的超链接。由于它们的计算成本,诸如页面排名等常规搜索引擎是在任意实际的搜索或查询之前执行的一次计算。首先对数据项进行普遍排名,然后对这些数据项编入索引以与搜索词查询匹配。只要基础图基本没变,就不执行重新计算,特别是在用户向搜索引擎提供关键词用于搜索时。尽管常规的搜索引擎和算法是有效并且有用的,但是在标识和显示与用户相关的结果方面存在很大的改进空间。例如,不管搜索引擎的复杂度和优化如何,典型的搜索可以频繁导致与用户不那么相关的很多信息被显示。有时搜索结果根本就没有产生有用结果或者不包括实际上可能与用户相关的结果。在典型的场景中,用户可能必须进行多次搜索以猜测产生一组有意义的结果的一组正确关键词,即使该结果也包括用户不感兴趣的项目。搜索引擎对于将特定搜索关键词与数据的预定集合匹配的关注会抑制或排除在概念上用户更感兴趣的信息。这可能花费用户相当的时间来找出提供有意义的结果的关键词,与此同时不会用对用户没用的或者用户不感兴趣的大量信息压倒用户。本文描述了用于对电子信息进行处理、排名和显示的系统和方法。该系统和方法适用于从可以计算机可读格式访问的任何电子信息对象以计算的方式搜索和查找相关信息,并且在一些实施例中特别地适用于在诸如互联网等网络上进行搜索的上下文中。从下面的描述将显而易见的是,本文中所公开的系统和方法的特征可以在于具有预处理阶段和交互式阶段两个阶段。预处理阶段包括处理电子对象集合,确定常用类别集合,以及确定包括在对象中的信息中或者从对象中的信息导出独特特征集合。预处理阶段还包括构建包括表示由加权边互连的对象和它们的特征的节点的图,以及(可选地)计算图的互连节点的默认评分和排名,以供向用户显示。交互式阶段包括(例如,在网络上从用户设备)接收指示用户对于某些对象或特征的特定偏好的用户输入,以及使用用户输入动态地计算或(重新计算)表示对象和特征的节点的评分和排名,以供在例如,用户设备上向用户显示。如从本公开将显而易见的是,交互式阶段包括在用户感兴趣的话题的上下文中的通用排名(即,对语料库中的所有对象进行排名和评分)。因此,与常规查询系统不同,每次查询生成针对语料库中的所有对象的、用于对结果进行排名和排序的自定义评分。如本文中所使用的,术语“对象”指代信息(文本的或非文本的)以计算机可读格式被存储在其中的电本文档来自技高网...

【技术保护点】
1.一种用于处理电子信息的系统,所述系统包括:处理器,被配置为:从电子对象群组确定独特特征集合;构建图,在所述图中,每个电子对象被表示为对象节点,并且每个独特特征被表示为特征节点,并且其中每个对象节点通过加权边被互连到至少一个特征节点;使用所述图来构建加权邻接矩阵;确定用于表示所述图中的锚节点集合的向量;以及使用表示所述锚节点集合的所述向量和所述加权邻接矩阵,来计算所述图的所述对象节点和所述特征节点的评分。

【技术特征摘要】
【国外来华专利技术】2016.09.16 US 15/267,4051.一种用于处理电子信息的系统,所述系统包括:处理器,被配置为:从电子对象群组确定独特特征集合;构建图,在所述图中,每个电子对象被表示为对象节点,并且每个独特特征被表示为特征节点,并且其中每个对象节点通过加权边被互连到至少一个特征节点;使用所述图来构建加权邻接矩阵;确定用于表示所述图中的锚节点集合的向量;以及使用表示所述锚节点集合的所述向量和所述加权邻接矩阵,来计算所述图的所述对象节点和所述特征节点的评分。2.根据权利要求1所述的系统,其中所述处理器还被配置为:基于所计算的所述评分,对所述图的所述对象节点和所述特征节点排名。3.根据权利要求1所述的系统,其中所述处理器还被配置为:在显示设备上显示所述图的经排名的所述对象节点和所述特征节点。4.根据权利要求3所述的系统,其中所述处理器还被配置为:接收用户输入,所述用户输入表示对所显示的所述节点中的一个或多个节点的选择;基于对所显示的所述节点中的所述一个或多个节点的所述选择,更新表示所述图中的所述锚节点集合的所述向量;以及使用经更新的所述向量和所述加权邻接矩阵,来计算所述图的所述对象节点和所述特征节点的经更新的评分。5.根据权利要求4所述的系统,其中所述处理器还被配置为:基于经更新的所述评分,更新所述图的所...

【专利技术属性】
技术研发人员:W·肯内迪I·萨尼C·A·怀特Y·L·张G·T·威尔方CN·于N·K·尼蒂
申请(专利权)人:阿尔卡特朗讯阿尔卡特朗讯美国公司
类型:发明
国别省市:法国,FR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1