当前位置: 首页 > 专利查询>谢晚霞专利>正文

事件驱动架构下对Web活动索引、排序和分析的系统和方法技术方案

技术编号:11210095 阅读:75 留言:0更新日期:2015-03-26 19:29
公开了一种用于组织Web活动的系统,包括:解析模块,用于接收和解析所述Web活动;概念索引模块,用于根据概念索引中的多个概念来索引所述Web活动;Web事件创建模块,用于从所述Web活动中生成多个Web事件;Web活动索引模块,用于根据Web事件索引中的所述多个Web事件来索引所述Web活动;概念代码管理模块,用于生成多个概念代码,每个概念代码分别与所述多个概念中的至少一个相关联;以及数据库,用于存储所述概念索引、所述Web事件索引和所述多个概念代码。

【技术实现步骤摘要】
【国外来华专利技术】优先权/临时申请的交叉引用本申请要求享有在2012年7月11日提交的美国临时申请号61/670,481的优先权,该申请的全部内容被参考合并于此。
本专利技术的实施方案涉及一种用于分析互联网上的信息内容的系统和方法。更具体地来说,是关于一种用于对互联网内容进行索引和排序的系统和方法。虽然本专利技术的实施方案的应用很广泛,但尤其适用于将传统的互联网内容与诸如移动应用、社交媒体、众包媒体(crowd sourced media)、以及博客之类的新媒体内容融合的应用。
技术介绍
总的来说,自从Web浏览器诞生以来,让用户在互联网上有效地浏览、发现、过滤以及参与一直是一个挑战。以高效的方式找到及时并且相关的信息是所有互联网用户的目标。考虑到内容构成的动态性,以及内容来源定义的多样性,实现这个目标尤其具有挑战性。过去,在线的内容主要由网站发布者在网站上发布,而现在,这个格局已经发生变化,许多在线内容是通过博客、微博、视频、图像、评论、用户评价以及社交网络发布。在移动设备上产生的内容和活动变得越来越多。举例来说,社交网络的内容包括状态更新、推文(tweet),转发(re-tweet)、微博以及用户行为,例如赞(like)、签到、书签、钉选(pin)和收藏。 在过去的十来年中,Web用户在Web上导航的主要模型为搜索引擎模型。当前的各种技术实施方式依赖于很多方法以便将相关内容提供给用户,但决定相关性的最重要因素仍然是外部链接(参见例如美国专利号6,285,999)和关键字索引。这些技术手段之所以有效,是因其捕捉到了那个时候的主要的用户行为活动,即添加链接指向其他网站和点击链接的行为。这种倚重于外部链接和关键字索引的技术解决方式的结果是一种利用众包方式来决定信息相关性的模型,其实质上是人气竞赛。然而,这种模型的优势同时也是其最大的弱点,该弱点是过于关注网页和基于文本的内容。随着各种新内容形式的出现,和线上影响力评估的日益流行,这种方法已经不再适用,因其不能捕捉这种新的信息。随着在线用户行为和活动的巨幅增长,如上所述,外部链接和点击次数这两个维度过于简单化,无法体现新的Web活动的复杂性。其结果是大量有价值的、及时的信息丢失,导致在线用户的信息访问行为受挫和效率低下。 例如,当今的搜索引擎没有支持捕捉用户行为、参与的用户、用户间的信息流通以及其他类型的Web活动(不同于点击次数和链接)的框架。此外,由于在对影响力的判定上,此类搜索引擎倚赖基于外部链接的人气竞赛,所以其带有历史偏见性。在这种模型中,一个内容相关性较强的网站如想获得很多外部链接,特别是在涉及到热门的搜索关键字的情况时,需要等待大量时间。正因如此,当前的搜索引擎工作模式是一种向后看的滞后模式,最适宜于确定内容的过去相关性,但却不适宜于判定那些较新的,尚未流行的内容的相关性。 当相同的内容出现在多个数据来源中时也会发生问题,这是很常见的情况。一些数据来源可能频繁地更新,而有些数据来源可能根本不会更新。因此,当信息在一个数据来源首先被更新时,最新的且准确的信息占少数。而众包方法却会给那些陈旧的信息更高的排名,因为它们被大多数其他数据来源所认可。在这些数据来源上的信息更新状况反映了那些藏在背后的隐含的行为。监视在不同数据来源上的信息更新情况可以用于对新的且准确的信息进行分析和排序。然而,搜索引擎和分析工具的当前实现方式忽略了这些隐含的行为,从而错过了可以用来对结果进行排序和分析的重要信号。 此外,静态和动态网页的内容会随着时间的推移而被更新。但是目前的搜索系统是不考虑这点的,因其仅使用这些网页在某个时间点的内容快照。再者,线上内容不再整齐有序地存在于网页中,或者以纯文本的方式存在。因此,以网页链接和基于文本的关键字索引为重心的搜索引擎技术不再能够以最优的方式帮助用户寻找到相关内容。 最近的一些技术发展(例如社交网络、博客、微博以及基于用户的行为系统)已经将互联网和移动互联网从一个基于文本文档的Web转变为一个行为和活动的Web。创建这种新类型内容的基于行为的系统的例子包括内容积酿(curat1n)应用(如Digg)、社交书签网站(如Delic1us和Pinterest)、转发应用(如Tweetmeme)、共享平台(如Twitter (推特)、微博和Tumblr)、评论系统(如Disqus和Echo)、基于位置应用的签到系统(如Foursquare)等等。在Web上(以及在移动设备中)的用户行为和活动的数量由于这些新近出现的技术而大幅增加。与上述技术中的显式用户行为相比,网页(或应用等)随时间推移而产生的内容变化反映了后台的隐式用户行为。通过监视内容变化,可以在系统中捕捉这些隐式行为来进行智能分析。 近几年来用户身份也收到更大的重视。Twitter(—个微博平台)已经围绕公开的用户资料和微消息建立了一个社区。评论系统如Disqus和Echo能够使用户以单一的身份(这个身份包括用户名和/或照片)对数以千计的博客进行评论。很多Web应用已经开始基于用户在Twitter、LinkedIn以及其它社交网络中所发布内容的访问流量和粉丝的数量来对其线上影响力进行衡量和评分。因此,虽然仅在几年以前,对线上影响力这一“货币”的衡量还只取决于网站的独立访客数和外部网站链接数量,现在,线上影响力的衡量还需要考虑用户自身的线上影响力。 在实时搜索领域,一些新兴技术开始出现,试图来突破当前搜索引擎方法的局限性。通常,这些技术试图聚焦于那些正在流行的链接,链接的流行程度取决于它们在社交网络中被分享及转发的频率。这些方法有助解决直接相关性的问题,但是在分析和衡量主题相关性、主题内参与者、主题所涉人物之间的关系、人物和主题的关系、这些关系的变化、主题内所发生的活动类型等方面,仍然不足以提供一套全面的方法体系。对人气的聚焦注定了这些方法带有滞后性。此外,由于这些系统主要聚焦于那些能够便捷提供这些线上活动数据的平台(如Twitter),它们仅仅捕捉了互联网上线上活动数据的一小部分。实质上,这些系统只不过是在老的方法体系中引入了一些小的改进而已,并未能真正捕捉到互联网上那些围绕线上内容(包括文档和基于行为的内容)、线上参与者、以及Web活动方面所出现的错综复杂的发展变化。 其结果是,传统的基于Web的搜索和新兴的实时搜索都不能给用户提供足够的Web能见度,因其实施方式太过简单化,无法反映Web上新增的用户行为和活动的类型,以及相关的复杂性。两种实施方式都无法帮助用户获得关于那些在特定主题领域具有影响力的线上参与者的数据和信息。相反地,这两种实施方式都仅关注指向Web内容的链接,而不是突出那些新的内容,即在这种新形态Web中创建了这些线上内容的用户。两种方式都不能有效地帮助用户及时发现Web上围绕用户所感兴趣的话题展开的那些,正在发生的而且大家积极参与的讨论,尽管这些讨论代表着一个非常丰富的线上内容来源。相反地,这两种实施方式都是基于外人不清楚的算法,输出一个黑盒式的网页链接列表(搜索结果列表)。总而言之,当前的这些实现方法都不能够由点及面地链接和分析信息,因此不能为用户提供一个在互联网上高效地探索、发现和积极参与的导航仪。其结果是Web用户沦为了网页快照本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201380037182.html" title="事件驱动架构下对Web活动索引、排序和分析的系统和方法原文来自X技术">事件驱动架构下对Web活动索引、排序和分析的系统和方法</a>

【技术保护点】
一种用于组织Web活动的系统,包括:解析模块,用于接收所述Web活动;概念索引模块,用于根据概念索引中的多个概念来索引所述Web活动;Web事件创建模块,用于从所述Web活动中生成多个Web事件;Web活动索引模块,用于根据Web事件索引中的所述多个Web事件来索引所述Web活动;概念代码管理模块,用于生成多个概念代码,每个概念代码分别与所述多个概念中的至少一个相关联;以及数据库,用于存储所述概念索引、所述Web事件索引和所述多个概念代码。

【技术特征摘要】
【国外来华专利技术】2012.07.11 US 61/670,4811.一种用于组织Web活动的系统,包括: 解析模块,用于接收所述Web活动; 概念索引模块,用于根据概念索引中的多个概念来索引所述Web活动; Web事件创建模块,用于从所述Web活动中生成多个Web事件; Web活动索引模块,用于根据Web事件索引中的所述多个Web事件来索引所述Web活动; 概念代码管理模块,用于生成多个概念代码,每个概念代码分别与所述多个概念中的至少一个相关联;以及 数据库,用于存储所述概念索引、所述Web事件索引和所述多个概念代码。2.根据权利要求1所述的系统,还包括概念创建模块,用于从所述Web活动中生成所述多个概念。3.根据权利要求2所述的系统,其中所述概念创建模块包括: 语义模块; 情绪t旲块;以及 分类模块。4.根据权利要求1所述的系统,还包括社交图谱分析模块,用于分析社交网络。5.根据权利要求1所述的系统,还包括影响者排序模块,用于确定所述Web活动的创建者的影响力。6.根据权利要求1所述的系统,还包括概念代码的信息补充和丰富的模块。7.根据权利要求1所述的系统,还包括: Web事件捆绑关联模块;以及 Web活动和Web事件的描述生成模块。8.根据权利要求1所述的系统,还包括API,用于与外部应用交互。9.一种用于组织Web活动的方法,包括: 接收所述Web活动; 解析所述Web活动; 根据概念索引中的多个概念索引所述Web活动; 从所述Web活动中生成多个Web事件; 根据Web事件索引中的所述多个Web事件索引所述Web活动; 生成多个概念代码,其中每个概念代码分别与所述多个概念中的至少一个相关联;以及 将所述概念索引、所述Web事件索引和所述多个概念代码存储在数据库中。10.根据权利要求9所述的方法,还包括从所述Web活动中生成所述多个概念。11.根据权利要求10所述的方法,其中所述从所述Web活动中生成所述多个概念包括: 对所述Web活动...

【专利技术属性】
技术研发人员:谢晚霞
申请(专利权)人:谢晚霞
类型:发明
国别省市:江苏;32

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1