从上下文数据跟踪主题排名的演变制造技术

技术编号:22784119 阅读:17 留言:0更新日期:2019-12-11 04:22
本发明专利技术涉及一种从上下文数据跟踪主题排名的演变。公开了系统、方法和计算机程序产品,其通过分析每个时间片与网络的节点相关联的媒体语料库来跟踪网络随时间的演变。可以分析媒体语料库以生成每个时间片的字簇,然后跨时间片对字簇进行比较以确定网络如何演变。可以通过确定特定时间片的每个字簇与另一时间片的每个字簇的相似性来跟踪演变。可以通过每个比较的相似性得分来测量相似性,可以组合相似性得分以确定两个时间片之间的网络的整体相似性。

Tracking the evolution of topic ranking from context data

The invention relates to an evolution of tracking subject ranking from context data. Systems, methods, and computer program products are disclosed that track network evolution over time by analyzing the media corpus associated with each time slice and network node. Media corpus can be analyzed to generate word clusters for each time slice, and then word clusters can be compared across time slices to determine how the network evolves. The evolution can be tracked by determining the similarity between each word cluster of a particular time slice and each word cluster of another time slice. The similarity can be measured by the similarity score of each comparison, and the similarity score can be combined to determine the overall similarity of the network between two time slices.

【技术实现步骤摘要】
从上下文数据跟踪主题排名的演变
技术介绍
本公开涉及用于基于主题与网络中的重要节点的连接来跟踪网络中的主题随时间的演变的系统和方法。在网络上发现的各种主题的流行度可能随时间而改变。例如,诸如新闻报道、政府声明、国内或国际事件、电影、新技术或其他类似主题等主题可以随着时间的推移在网络中经历增加或减少的曝光。
技术实现思路
本文中描述的系统、方法和计算机程序产品提供对网络中的主题随时间的演变的跟踪。在本公开的一个方面,公开了一种方法,其包括接收与网络相关联的时间序列数据,该时间序列数据包括在多个时间片的关于网络的数据。网络在每个时间片包括多个节点,其中在每个时间片的每个节点包括与至少一个媒体语料库相关联的属性。该方法还包括分析时间序列数据以针对每个时间片在网络中标识至少一个最重要节点,基于在每个时间片的所标识的至少一个最重要节点确定在每个时间片的网络的子网,其中子网包括网络的节点中的至少一些节点和所标识的至少一个最重要节点,分析与在每个时间片的子网中的每个节点的属性相关联的至少一个媒体语料库以确定针对该时间片的至少一个关键字簇,其中每个关键字簇包括多个关键字,将多个时间片中的第一时间片的至少一个关键字簇与多个时间片中的第二时间片的至少一个关键字簇进行比较,并且基于该比较确定第一时间片与第二时间片之间的相似性。在本公开的各方面,还可以提供根据以上方面的装置、系统和计算机程序产品。在不脱离本公开的范围的情况下,可以组合任何上述方面。附图说明通过参考附图可以理解关于本公开的结构和操作的细节,附图中的相同的附图标记和名称指代相同的元素。图1是示出根据本公开的一些方面的用于跟踪网络中的主题演变的系统的系统图。图2是根据本公开的一些方面的网络的时间序列的图。图3A是示出根据本公开的一些方面的网络随时间的演变的图。图3B是示出根据本公开的一些方面的最重要子网随时间的演变的图。图3C是示出根据本公开的一些方面的网络中的字簇随时间的演变的图。图4是根据本公开的一些方面的时间片之间的关键字簇的演变的图。图5是根据本公开的一些方面的示例网络的图。图6是图5的示例网络的图,其示出了根据本公开的一些方面的最重要节点的标识。图7是根据本公开的一些方面的两个字簇的图。图8是根据本公开的一些方面的包括字簇到节点的链接的图5的示例网络的图。图9是图8的示例网络的图,其示出了根据本公开的一些方面的网络中的字簇随时间的演变。图10是根据本公开的一些方面的包括所预测的错误发生的网络的时间序列的图。图11是本文中描述的系统、方法和计算机程序产品中涉及的过程可以在其中实现的计算机系统的示例框图。具体实施方式跟踪网络中的流行主题的演变可以提供对驱动这些主题的流行的潜在因素的见解。例如,针对网络上的特定主题的主题排名可以基于多种因素,包括主题中涉及的各方、谁正在共享主题、网络中呈现主题的位置、或其他类似因素。可能特别重要的一个因素是主题排名与特定节点之间的联系。例如,主题的演变可以在动态节点网络之上建模,其可以用于通过它们与网络中的节点的固有连接来通知主题的标识和聚类。在一些方面,例如,可以根据时间和在对应的时间片的最重要子网跟踪主题字簇。例如,可以通过使用诸如中心性、中间性、亲密度、谣言中心性、信息中心性、特征值度量、页面等级或其他类似技术等公知技术来分析网络的节点的属性来确定最重要子网。现在参考图1,示出了用于跟踪关系网络中的主题随时间的演变的系统100。在一些方面,系统100包括计算设备110、节点A-N的网络150和媒体语料库170。节点A-N可以包括任何数目的节点。媒体语料库170可以包括任何数目的媒体语料库。计算设备110包括至少一个处理器112、存储器114、至少一个网络接口116、显示器118、输入设备120,并且可以包括计算设备中常见的任何其他特征。在一些方面,计算设备110可以例如是与用户相关联的计算设备,其被配置为分析节点网络以跟踪网络中的主题随时间的演变。在一些方面,计算设备110可以包括例如个人计算机、膝上型计算机、平板计算机、智能设备、智能电话、智能手表或可以由用户使用的任何其他类似计算设备。在一些方面,计算设备110可以包括服务器、web服务器、服务器阵列或可以用于分析和跟踪节点网络中的主题的演变的任何其他系统。处理器112可以包括例如微控制器、现场可编程门阵列(FPGA)或被配置为执行各种操作的任何其他处理器。处理器112可以被配置为执行如下所述的指令。这些指令可以存储在例如存储器114中。如本文中使用的,术语“处理器”可以包括单核处理器、多核处理器、位于单个设备中的多个处理器、或者彼此有线或无线通信并且分布在设备网络、因特网或云上的多个处理器。因此,如本文中使用的,由“处理器”执行或被配置为由“处理器”执行的功能、特征或指令可以包括由单核处理器对功能、特征或指令的执行,可以包括由多核处理器的多个核共同或协作地对功能、特征或指令的执行,或者可以包括由多个处理器共同或协作地对功能、特征或指令的执行,其中每个处理器或核不需要单独地执行每个功能、特征或指令。存储器114可以包括例如易失性存储器形式的计算机可读介质或计算机可读存储介质,诸如随机存取存储器(RAM)和/或高速缓冲存储器等。存储器114可以包括例如其他可移动/不可移动、易失性/非易失性存储介质。仅作为非限制性示例,存储器114可以包括便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、便携式光盘只读存储器(CD-ROM)、光学存储设备、磁存储设备或前述各项的任何合适的组合。在一些方面,存储器114可以存储用于根据如下所述的主题演变来跟踪网络中的节点之间的链接和演变的专用数据结构。网络接口116被配置为经由有线或无线连接向网络150或任何其他计算设备传输数据或信息以及从其接收数据或信息。例如,网络接口116可以利用无线技术和通信协议,诸如WIFI(例如,802.11a/b/g/n)、蜂窝网络(例如,CDMA、GSM、M2M和3G/4G/4GLTE)、近场通信系统、卫星通信、经由局域网(LAN)、经由广域网(WAN)、或允许计算设备110向网络150或节点A-N传输信息或从其接收信息的任何其他形式的通信。显示器118可以包括被配置为向计算设备110的用户显示信息的任何显示设备。例如,在一些方面,显示器118可以包括计算机显示器、电视、智能电视或其他类似的显示器。在一些方面,显示器118可以集成到计算设备110中或与计算设备110相关联,例如,作为膝上型计算机、智能电话、智能手表或其他智能可穿戴设备的显示器,作为与计算设备110相关联的虚拟现实耳机,或者用于向用户显示信息的任何其他机构。在一些方面,显示器118可以包括例如液晶显示器(LCD)、电子纸/电子墨水显示器、有机LED(OLED)显示器或其他类似的显示技术。在一些方面,显本文档来自技高网...

【技术保护点】
1.一种由至少一个硬件处理器实现的方法,包括:/n接收与网络相关联的时间序列数据,所述时间序列数据包括在多个时间片的关于所述网络的数据,所述网络在每个时间片包括多个节点,在每个时间片的每个节点包括与至少一个媒体语料库相关联的属性;/n分析所述时间序列数据以针对每个时间片在所述网络中标识至少一个最重要节点;/n基于在每个时间片的所标识的所述至少一个最重要节点确定在每个时间片的所述网络的子网,所述子网包括所述网络的所述节点中的至少一些节点和所标识的所述至少一个最重要节点;/n分析与在每个时间片的所述子网中的每个节点的所述属性相关联的所述至少一个媒体语料库以确定针对所述时间片的至少一个关键字簇,每个关键字簇包括多个关键字;/n将所述多个时间片中的第一时间片的所述至少一个关键字簇与所述多个时间片中的第二时间片的所述至少一个关键字簇进行比较;以及/n基于所述比较确定所述第一时间片与所述第二时间片之间的相似性。/n

【技术特征摘要】
20180601 US 15/995,6531.一种由至少一个硬件处理器实现的方法,包括:
接收与网络相关联的时间序列数据,所述时间序列数据包括在多个时间片的关于所述网络的数据,所述网络在每个时间片包括多个节点,在每个时间片的每个节点包括与至少一个媒体语料库相关联的属性;
分析所述时间序列数据以针对每个时间片在所述网络中标识至少一个最重要节点;
基于在每个时间片的所标识的所述至少一个最重要节点确定在每个时间片的所述网络的子网,所述子网包括所述网络的所述节点中的至少一些节点和所标识的所述至少一个最重要节点;
分析与在每个时间片的所述子网中的每个节点的所述属性相关联的所述至少一个媒体语料库以确定针对所述时间片的至少一个关键字簇,每个关键字簇包括多个关键字;
将所述多个时间片中的第一时间片的所述至少一个关键字簇与所述多个时间片中的第二时间片的所述至少一个关键字簇进行比较;以及
基于所述比较确定所述第一时间片与所述第二时间片之间的相似性。


2.根据权利要求1所述的方法,还包括将针对所述多个时间片中的时间片的所述至少一个关键字簇链接到在所述时间片的所述子网中被包括的所述节点中的至少一个节点,所述链接基于针对所述时间片的所述至少一个关键字簇中的所述多个关键字被包括在所述媒体语料库中,所述媒体语料库与在所述时间片的所述子网中被包括的所述节点中的所述至少一个节点的所述属性相关联。


3.根据权利要求1所述的方法,其中确定所述第一时间片与所述第二时间片之间的所述相似性包括确定所述第一时间片的每个字簇与所述第二时间片的每个字簇之间的相似性得分。


...

【专利技术属性】
技术研发人员:M·E·赫兰德E·A·雷N·莱蒂夫J·S·B·T·玛丽亚K·R·瓦什奈伊L·莱巴
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1