信息处理方法和装置制造方法及图纸

技术编号:18444816 阅读:28 留言:0更新日期:2018-07-14 10:20
本发明专利技术公开了一种信息处理方法和装置。其中,该方法应用于服务器集群,该方法包括:接收信息处理请求,其中,所述信息处理请求用于请求确定所述服务器集群存储的存量对象中是否存在与目标对象对应的存量对象;将所述信息处理请求发送至所述服务器集群中的多个处理终端,其中,每个所述处理终端上存储有多个存量对象的第一属性信息;通过各个所述处理终端,分别基于所述第一属性信息检测是否存在与所述目标对象相对应的存量对象,得到检测结果;汇总所述多个处理终端的检测结果,以确定所述服务器集群存储的存量对象中是否存在与目标对象对应的存量对象。本发明专利技术解决了在海量数据服务平台中,确定新文章是否与存量文章雷同操作的耗时长的技术问题。

Information processing methods and devices

The invention discloses an information processing method and device. The method is applied to the server cluster, which includes receiving information processing requests, in which the information processing request is used to request to determine whether there is a stock object corresponding to the target object in the storage object stored in the server cluster, and the information processing request is sent to the server cluster. There are a plurality of processing terminals in which each of the processing terminals store the first attribute information with a plurality of stock objects; through each of the processing terminals, the detection results are obtained by detecting the existence of a stock object corresponding to the target object based on the first attribute information, and the multiple processing terminals are summarized. The result of the test is to determine whether there is a stock object corresponding to the target object in the storage object stored by the server cluster. The invention solves the technical problem of determining whether the new article is identical with the stock articles in the massive data service platform.

【技术实现步骤摘要】
信息处理方法和装置
本专利技术涉及信息处理领域,具体而言,涉及一种信息处理方法和装置。
技术介绍
现有技术中提供了一种海量数据服务平台,利用该海量数据服务平台可以提供海量的资讯信息。服务器可以预存海量的数据,在接收到客户端发送的展示请求之后,将其请求展示的信息发送给客户端,以供客户端展示。在海量数据服务平台中,服务器可以从多个源站获取海量的文章,但是在多个源站中获取的文章中可能会有重复的文章,服务器需要确定该重复的文章,现有技术中提供了一种确定重复文章的方式,如图1所示,服务器将所有的存量文章(系统内已经处理过的文章),按照文章主题建立索引,如图1中示出的娱乐、科技以及时事等,每个主题均对应多个存量文章,当服务器从源站获取到的新文章时,服务器根据该新文章的主题检索出若干篇存量文章,并将该检索出的存量文章传输至一台主机,在该主机上,将检索出的存量文章与新文章一一对比,以确定该新文章是否属于重复的文章。采用上述方案,在基于新文章检索出海量的存量文章时,需要通过网络传输该海量的文章到一台主机上,传输速度慢;另外,在该主机上一一比较海量文章和检索出的百万篇存量文章,会消耗大量的资源,并且处理速度也很慢,耗时长。针对上述在海量数据服务平台中,确定新文章是否与存量文章雷同操作的耗时长的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种信息处理方法和装置,以至少解决在海量数据服务平台中,确定新文章是否与存量文章雷同操作的耗时长的技术问题。根据本专利技术实施例的一个方面,提供了一种信息处理方法,应用于服务器集群,包括:接收信息处理请求,其中,所述信息处理请求用于请求确定所述服务器集群存储的存量对象中是否存在与目标对象对应的存量对象;将所述信息处理请求发送至所述服务器集群中的多个处理终端,其中,每个所述处理终端上存储有多个存量对象的第一属性信息;通过各个所述处理终端,分别基于所述第一属性信息检测是否存在与所述目标对象相对应的存量对象,得到检测结果;汇总所述多个处理终端的检测结果,以确定所述服务器集群存储的存量对象中是否存在与目标对象对应的存量对象。根据本专利技术实施例的另一方面,还提供了一种信息处理装置,应用于服务器集群,包括:接收单元,用于接收信息处理请求,其中,所述信息处理请求用于请求确定所述服务器集群存储的存量对象中是否存在与目标对象对应的存量对象;发送单元,用于将所述信息处理请求发送至所述服务器集群中的多个处理终端,其中,每个所述处理终端上存储有多个存量对象的第一属性信息;检测单元,用于通过各个所述处理终端,分别基于所述第一属性信息检测是否存在与所述目标对象相对应的存量对象,得到检测结果;确定单元,用于汇总所述多个处理终端的检测结果,以确定所述服务器集群存储的存量对象中是否存在与目标对象对应的存量对象。在本专利技术实施例中,在服务器集群中的控制终端接收信息处理请求之后,将信息处理请求发送至服务器集群中的多个处理终端,每个处理终端分别通过其本地存储的第一属性信息,检测是否存在与目标对象相对应的存量对象,得到检测结果,控制终端接收到多个处理终端的检测结果之后,进行汇总,以确定服务器集群存储的存量对象中是否存在与目标对象对应的存量对象,在该方案中,无需执行检索操作,无需传输大量的存量对象,减少了网络传输的开支和处理器的开支;并且,将检测操作分发到多个处理终端上执行,而不是集中在一台机器上进行,大大提高了处理速度,即便是处理海量数据,也可以快速确定服务器集群存储的存量对象中是否存在与目标对象对应的存量对象,解决了现有技术中在海量数据服务平台中,确定新文章是否与存量文章雷同操作的耗时长的问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据现有技术中的信息处理系统的架构示意图;图2是根据本专利技术实施例的信息处理方法的硬件环境的示意图;图3是根据本专利技术实施例的一种可选的信息处理方法的流程图;图4是根据本专利技术实施例的一种可选的应用信息处理方法的系统架构图;图5是根据本专利技术实施例的一种可选的存储区域划分的示意图;图6是根据本专利技术实施例的一种可选的逆向缓冲器的示意图;图7是根据本专利技术实施例的一种可选的无锁编程的逆向缓冲器的示意图;图8是根据本专利技术实施例的一种可选的无锁编程的示意图;图9是根据本专利技术实施例的一种可选的信息处理装置的示意图;以及图10是根据本专利技术实施例的一种终端的结构框图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。首先,在对本专利技术实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:文章:在本申请实施例中,专指资讯类文章,有标题、发布时间、发布者、正文等内容。存量文章:系统内已经处理过的文章。新文章:系统正在处理的文章。比较:在此为专有名词。指比较两篇文章是否雷同。元信息:指用于比较的文章信息,有标题、正文hash,图片hash等。主题:指一篇文章所属的类型,例如,有娱乐、科技、以及时事等,可选地,在本申请实施例中可以设置30个主题。序列化:将内存中的数据结构转化成字节流。反序列化:将字节流转化成内存数据结构。平坦字节块:一块用来存储复杂对象的连续内存,里面的对象不依靠指针组织。就地比较:表示对象的字节块不做反序列化,直接用于比较。无锁编程:一种多线程高性能编程方式,线程不会被阻塞。根据本专利技术实施例,提供了一种信息处理的方法实施例。可选地,在本实施例中,上述信息处理方法可以应用于如图2所示的由服务器集群102和客户端104所构成的硬件环境中。如图2所示,服务器集群102通过网络与客户端104进行连接,上述网络包括但不限于:广域网、城域网或局域网,客户端104并不限定于PC、手机、平板电脑等。本专利技术实施例的信息处理方法可以由服务器集群102来执行,也可以由客户端104来执行,还可以是由服务器集群102和客户端104共同执行。其中,客户端104执行本专利技术实施例的信息处理方法也可以是由安装在其上的客户端来执行。该服务器集群可以提供海量数据服务,通过该服务器集群可以提供海量的资讯信息,其中,在服务器集群中可以预存海量的数据,在接收到客户端发送的展示请求之后,将其请求展示的信息发送给客户端,以供客户端展示。优选地,该方案应本文档来自技高网
...

【技术保护点】
1.一种信息处理方法,其特征在于,应用于服务器集群,包括:接收信息处理请求,其中,所述信息处理请求用于请求确定所述服务器集群存储的存量对象中是否存在与目标对象对应的存量对象;将所述信息处理请求发送至所述服务器集群中的多个处理终端,其中,每个所述处理终端上存储有多个存量对象的第一属性信息;通过各个所述处理终端,分别基于所述第一属性信息检测是否存在与所述目标对象相对应的存量对象,得到检测结果;汇总所述多个处理终端的检测结果,以确定所述服务器集群存储的存量对象中是否存在与目标对象对应的存量对象。

【技术特征摘要】
1.一种信息处理方法,其特征在于,应用于服务器集群,包括:接收信息处理请求,其中,所述信息处理请求用于请求确定所述服务器集群存储的存量对象中是否存在与目标对象对应的存量对象;将所述信息处理请求发送至所述服务器集群中的多个处理终端,其中,每个所述处理终端上存储有多个存量对象的第一属性信息;通过各个所述处理终端,分别基于所述第一属性信息检测是否存在与所述目标对象相对应的存量对象,得到检测结果;汇总所述多个处理终端的检测结果,以确定所述服务器集群存储的存量对象中是否存在与目标对象对应的存量对象。2.根据权利要求1所述的方法,其特征在于,汇总所述多个处理终端的检测结果,以确定所述服务器集群存储的存量对象中是否存在与目标对象对应的存量对象包括:若所述多个处理终端的检测结果中至少一个检测结果指示存在与所述目标对象对应的存量对象,则确定所述服务器集群存储的存量对象中存在与所述目标对象对应的存量对象;若所述多个处理终端的检测结果中任意一个检测结果均指示不存在与所述目标对象对应的存量对象,则确定所述服务器集群存储的存量对象中不存在与所述目标对象对应的存量对象。3.根据权利要求1或2所述的方法,其特征在于,在确定所述服务器集群存储的存量对象中是否存在与目标对象对应的存量对象之后,所述方法还包括:若确定所述服务器集群存储的存量对象中不存在与所述目标对象对应的存量对象,则将所述目标对象的第二属性信息添加入所述多个处理终端中的一个处理终端中。4.根据权利要求3所述的方法,其特征在于,将所述目标对象的第二属性信息添加入所述多个处理终端中的一个处理终端中包括:基于所述目标对象的网络资源地址生成哈希值;对所述哈希值进行预处理,得到处理后的哈希值;按照所述多个处理终端的数量对所述哈希值进行取模,得到取模结果M;将所述目标对象的第二属性信息添加入与N个处理终端中的第M个处理终端,其中,N为自然数,M为小于等于N的自然数。5.根据权利要求1所述的方法,其特征在于,分别基于所述第一属性信息检测是否存在与所述目标对象相对应的存量对象包括:所述处理终端获取所述目标对象的主题,其中,所述主题携带在所述信息处理请求中;所述处理终端确定与所述主题对应的存储空间,其中,所述存储空间中存储的第一属性信息对应的存量对象均属于所述主题;所述处理终端检测所述存储空间中是否存储有与所述目标对象的第二属性信息相匹配的第一属性信息;其中,在检测出所述存储空间中存储有与所述目标对象的第二属性信息相匹配的第一属性信息的情况下,确定存在与所述目标对象相对应的存量对象;在检测出所述存储空间中未存储与所述目标对象的第二属性信息相匹配的第一属性信息的情况下,确定不存在与所述目标对象相对应的存量对象。6.根据权利要求5所述的方法,其特征在于,检测所述存储空间中是否存储有与所述目标对象的第二属性信息相匹配的第一属性信息包括:按照预定顺序逐一检测所述存储空间中存储的第一属性信息是否与所述第二属性信息相匹配,其中,所述预定顺序基于所述第一属性信息存入所述存储空间的时间而确定。7.根据权利要求5所述的方法,其特征在于,检测所述存储空间中是否存储有与所述目标对象的第二属性信息相匹配的第一属性信息包括:将所述存储空间中存储的序列化后的第一属性信息,按照序列化规则进行转换,得到转换后的第三属性信息;检测转换后的第三属性信息是否与所述第二属性信息匹配。8.根据权利要求1所述的方法,其特征在于,在所述信息处理请求为多个的情况下,分别基于所述第一属性信息检测是否存在与所述目标对象相对应的存量对象包括:所述处理终端并行检测所述第一属性信息是否与各个目标对象的第二属性信息相匹配。9.根据权利要求1所述的方法,其特征在于,所述信息处理请求中携带有所述目标对象的第二属性信息,所述第二属性信息包括下述至少之一:对象来源、所述目标对象的网络资源地址、所述目标对象的标题、所述目标对象的发布时间、所述目标对象的正文哈希值、以及所述目标对象所包含图片的图片哈希值。10.根据权利要求1所述的方法...

【专利技术属性】
技术研发人员:张万凯陈伟伟
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1