The invention discloses an information processing method and device. The method is applied to the server cluster, which includes receiving information processing requests, in which the information processing request is used to request to determine whether there is a stock object corresponding to the target object in the storage object stored in the server cluster, and the information processing request is sent to the server cluster. There are a plurality of processing terminals in which each of the processing terminals store the first attribute information with a plurality of stock objects; through each of the processing terminals, the detection results are obtained by detecting the existence of a stock object corresponding to the target object based on the first attribute information, and the multiple processing terminals are summarized. The result of the test is to determine whether there is a stock object corresponding to the target object in the storage object stored by the server cluster. The invention solves the technical problem of determining whether the new article is identical with the stock articles in the massive data service platform.
【技术实现步骤摘要】
信息处理方法和装置
本专利技术涉及信息处理领域,具体而言,涉及一种信息处理方法和装置。
技术介绍
现有技术中提供了一种海量数据服务平台,利用该海量数据服务平台可以提供海量的资讯信息。服务器可以预存海量的数据,在接收到客户端发送的展示请求之后,将其请求展示的信息发送给客户端,以供客户端展示。在海量数据服务平台中,服务器可以从多个源站获取海量的文章,但是在多个源站中获取的文章中可能会有重复的文章,服务器需要确定该重复的文章,现有技术中提供了一种确定重复文章的方式,如图1所示,服务器将所有的存量文章(系统内已经处理过的文章),按照文章主题建立索引,如图1中示出的娱乐、科技以及时事等,每个主题均对应多个存量文章,当服务器从源站获取到的新文章时,服务器根据该新文章的主题检索出若干篇存量文章,并将该检索出的存量文章传输至一台主机,在该主机上,将检索出的存量文章与新文章一一对比,以确定该新文章是否属于重复的文章。采用上述方案,在基于新文章检索出海量的存量文章时,需要通过网络传输该海量的文章到一台主机上,传输速度慢;另外,在该主机上一一比较海量文章和检索出的百万篇存量文章,会消耗大量的资源,并且处理速度也很慢,耗时长。针对上述在海量数据服务平台中,确定新文章是否与存量文章雷同操作的耗时长的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种信息处理方法和装置,以至少解决在海量数据服务平台中,确定新文章是否与存量文章雷同操作的耗时长的技术问题。根据本专利技术实施例的一个方面,提供了一种信息处理方法,应用于服务器集群,包括:接收信息处理请求,其中,所述信息 ...
【技术保护点】
1.一种信息处理方法,其特征在于,应用于服务器集群,包括:接收信息处理请求,其中,所述信息处理请求用于请求确定所述服务器集群存储的存量对象中是否存在与目标对象对应的存量对象;将所述信息处理请求发送至所述服务器集群中的多个处理终端,其中,每个所述处理终端上存储有多个存量对象的第一属性信息;通过各个所述处理终端,分别基于所述第一属性信息检测是否存在与所述目标对象相对应的存量对象,得到检测结果;汇总所述多个处理终端的检测结果,以确定所述服务器集群存储的存量对象中是否存在与目标对象对应的存量对象。
【技术特征摘要】
1.一种信息处理方法,其特征在于,应用于服务器集群,包括:接收信息处理请求,其中,所述信息处理请求用于请求确定所述服务器集群存储的存量对象中是否存在与目标对象对应的存量对象;将所述信息处理请求发送至所述服务器集群中的多个处理终端,其中,每个所述处理终端上存储有多个存量对象的第一属性信息;通过各个所述处理终端,分别基于所述第一属性信息检测是否存在与所述目标对象相对应的存量对象,得到检测结果;汇总所述多个处理终端的检测结果,以确定所述服务器集群存储的存量对象中是否存在与目标对象对应的存量对象。2.根据权利要求1所述的方法,其特征在于,汇总所述多个处理终端的检测结果,以确定所述服务器集群存储的存量对象中是否存在与目标对象对应的存量对象包括:若所述多个处理终端的检测结果中至少一个检测结果指示存在与所述目标对象对应的存量对象,则确定所述服务器集群存储的存量对象中存在与所述目标对象对应的存量对象;若所述多个处理终端的检测结果中任意一个检测结果均指示不存在与所述目标对象对应的存量对象,则确定所述服务器集群存储的存量对象中不存在与所述目标对象对应的存量对象。3.根据权利要求1或2所述的方法,其特征在于,在确定所述服务器集群存储的存量对象中是否存在与目标对象对应的存量对象之后,所述方法还包括:若确定所述服务器集群存储的存量对象中不存在与所述目标对象对应的存量对象,则将所述目标对象的第二属性信息添加入所述多个处理终端中的一个处理终端中。4.根据权利要求3所述的方法,其特征在于,将所述目标对象的第二属性信息添加入所述多个处理终端中的一个处理终端中包括:基于所述目标对象的网络资源地址生成哈希值;对所述哈希值进行预处理,得到处理后的哈希值;按照所述多个处理终端的数量对所述哈希值进行取模,得到取模结果M;将所述目标对象的第二属性信息添加入与N个处理终端中的第M个处理终端,其中,N为自然数,M为小于等于N的自然数。5.根据权利要求1所述的方法,其特征在于,分别基于所述第一属性信息检测是否存在与所述目标对象相对应的存量对象包括:所述处理终端获取所述目标对象的主题,其中,所述主题携带在所述信息处理请求中;所述处理终端确定与所述主题对应的存储空间,其中,所述存储空间中存储的第一属性信息对应的存量对象均属于所述主题;所述处理终端检测所述存储空间中是否存储有与所述目标对象的第二属性信息相匹配的第一属性信息;其中,在检测出所述存储空间中存储有与所述目标对象的第二属性信息相匹配的第一属性信息的情况下,确定存在与所述目标对象相对应的存量对象;在检测出所述存储空间中未存储与所述目标对象的第二属性信息相匹配的第一属性信息的情况下,确定不存在与所述目标对象相对应的存量对象。6.根据权利要求5所述的方法,其特征在于,检测所述存储空间中是否存储有与所述目标对象的第二属性信息相匹配的第一属性信息包括:按照预定顺序逐一检测所述存储空间中存储的第一属性信息是否与所述第二属性信息相匹配,其中,所述预定顺序基于所述第一属性信息存入所述存储空间的时间而确定。7.根据权利要求5所述的方法,其特征在于,检测所述存储空间中是否存储有与所述目标对象的第二属性信息相匹配的第一属性信息包括:将所述存储空间中存储的序列化后的第一属性信息,按照序列化规则进行转换,得到转换后的第三属性信息;检测转换后的第三属性信息是否与所述第二属性信息匹配。8.根据权利要求1所述的方法,其特征在于,在所述信息处理请求为多个的情况下,分别基于所述第一属性信息检测是否存在与所述目标对象相对应的存量对象包括:所述处理终端并行检测所述第一属性信息是否与各个目标对象的第二属性信息相匹配。9.根据权利要求1所述的方法,其特征在于,所述信息处理请求中携带有所述目标对象的第二属性信息,所述第二属性信息包括下述至少之一:对象来源、所述目标对象的网络资源地址、所述目标对象的标题、所述目标对象的发布时间、所述目标对象的正文哈希值、以及所述目标对象所包含图片的图片哈希值。10.根据权利要求1所述的方法...
【专利技术属性】
技术研发人员:张万凯,陈伟伟,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。