数据处理方法和设备技术

技术编号:9568991 阅读:56 留言:0更新日期:2014-01-16 02:34
一种数据处理方法和设备,该方法包括:信息搜索步骤,用于根据定制的类别,在预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相关的多条信息;属性设定步骤,用于基于预定标准,为所获得的多条信息设定属性;第一分类器调整步骤,用于根据所设定的属性,动态地调整用于对从预定信息源获得的信息进行分类的预设第一分类器;及分类步骤,用于利用调整后的第一分类器对所获得的多条信息进行分类,其中重复执行属性设定步骤、第一分类器调整步骤及分类步骤,直至第一分类器的分类结果满足预定条件为止。根据本发明专利技术,可以通过自适应方式调整分类模型,提高了数据处理效率和信息获取的准确度。

【技术实现步骤摘要】
数据处理方法和设备
本专利技术涉及一种数据处理方法和设备,更具体地,涉及一种能够通过自适应方式调整分类模型从而更准确地从微博网站获取相关信息的数据处理方法和设备。
技术介绍
微博(micro-blog)是近年来新兴的实时媒体。由于微博信息具有内容短、传播速度快、信息量大的特点,因此如何提高数据处理效率以在庞杂的网络数据中快速准确地挖掘所需的信息已对互联网技术提出了新的挑战。在现有技术中,存在基于用户资料自适应的新闻分类技术,在该技术中,根据用户资料使用贝叶斯分类器选择用户感兴趣的新闻文本,并同时根据用户的阅读习惯等自适应地更新用户资料,从而更准确高效地向用户提供其所感兴趣的新闻资料(例如,参见RicardoCarreira等人的论文“EvaluatingAdaptiveUserProfileforNewsClassification”)。然而,现有技术中的自适应是人工进行的,从而增加了用户的负担。此外,由于微博文本具有与新闻文本显著不同的特点,因此,需要一种能够提高数据处理效率,从而帮助用户在大量的微博信息中找到感兴趣的信息并且提高返回信息的准确度的技术。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。但是,应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图用来确定本专利技术的关键性部分或重要部分,也不是意图用来限定本专利技术的范围。其目的仅仅是以简化的形式给出关于本专利技术的某些概念,以此作为稍后给出的更详细描述的前序。因此,鉴于上述情形,本专利技术的目的是提供一种能够通过自适应方式提高数据处理效率从而提高信息获取准确度的数据处理方法和设备,其能够帮助用户快速且准确地在微博网站中获得感兴趣的信息。为了实现上述目的,根据本专利技术的实施例的一方面,提供了一种数据处理方法,其可以包括:信息搜索步骤,用于根据定制的类别,在预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相关的多条信息;属性设定步骤,用于基于预定标准,为所获得的多条信息设定属性;第一分类器调整步骤,用于根据所设定的属性,动态地调整用于对从预定信息源获得的信息进行分类的预设第一分类器;以及分类步骤,用于利用调整后的第一分类器对所获得的多条信息进行分类,其中,重复地执行属性设定步骤、第一分类器调整步骤以及分类步骤,直至第一分类器的分类结果满足预定条件为止。根据本专利技术的优选实施例,在该数据处理方法中,预定信息源可以是微博网站,多条信息可以是多个微博文本,以及第一分类器调整步骤可以包括对第一分类器中的、与以下因素中的至少一个因素相关的参数进行调整:微博文本中的特征词在所定制的类别中的特定类别中的出现概率、微博文本中的特定标点符号在特定类别中的出现概率、与微博文本的内容长度相关的概率、与微博文本的转发评论数量相关的概率以及与微博文本的作者的影响力相关的概率。根据本专利技术的另一优选实施例,可以基于以下表达式对多个微博文本进行分类:Score(item)=argMax(category(λ1(L1)+λ2(L2))),其中,item表示所获得的各个微博文本,L1是采用第一分类器获得的该微博文本属于各个类别的概率,L2是采用预设的第二分类器获得的该微博文本属于各个类别的概率,λ1、λ2为预定的权重系数,且λ1+λ2=1,category()表示计算各个微博文本属于各个类别的概率,argMax()表示取算出的概率中的最大值。根据本专利技术的又一优选实施例,预定标准可以包括以下因素中的一个或多个:特定信息是否被收藏,特定信息是否被进一步查看,以及特定信息被阅读的时间。根据本专利技术的再一优选实施例,关键词可以包括预设的种子关键词和定制关键词,以及信息搜索步骤可以进一步包括:检索子步骤,用于利用种子关键词在预定信息源中进行检索,以获取与种子关键词相关的多条信息;关键词列表提取子步骤,用于从所获取的多条信息提取关键词列表;以及定制关键词确定子步骤,用于利用预定算法计算所提取的关键词列表中的各个关键词的重要性,并将重要性大于预定阈值的预定数量的关键词确定为定制关键词。根据本专利技术的实施例的另一方面,还提供了一种数据处理设备,其可以包括:信息搜索单元,被配置成根据定制的类别,在预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相关的多条信息;属性设定单元,被配置成基于预定标准,为所获得的多条信息设定属性;第一分类器调整单元,被配置成根据所设定的属性,动态地调整用于对从预定信息源获得的信息进行分类的预设第一分类器;以及分类单元,被配置成利用调整后的第一分类器对所获得的多条信息进行分类,其中,属性设定单元、第一分类器调整单元以及分类单元被配置成重复执行处理,直至第一分类器的分类结果满足预定条件为止。另外,根据本专利技术的实施例的另一方面,还提供了一种终端设备,该终端设备包括上述数据处理设备。这种终端设备例如包括移动电话、掌上电脑、平板电脑、PC机,等等。另外,根据本专利技术的实施例的又一方面,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行根据本专利技术的数据处理方法。此外,根据本专利技术的实施例的再一方面,还提供了一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行指令时,该指令使得信息处理设备执行根据本专利技术的数据处理方法。因此,根据本专利技术的实施例,能够提高数据处理效率,帮助用户快速找到感兴趣的信息,并且能够自适应地提高返回信息的准确度。在下面的说明书部分中给出本专利技术实施例的其他方面,其中,详细说明用于充分地公开本专利技术实施例的优选实施例,而不对其施加限定。附图说明本专利技术可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本专利技术的优选实施例和解释本专利技术的原理和优点。其中:图1是示出根据本专利技术的实施例的数据处理方法的流程图;图2是详细示出图1所示的信息搜索步骤中的处理的流程图;图3是示出根据本专利技术的实施例的同现关系图的示例的示意图;图4是示出根据本专利技术的实施例的数据处理设备的配置示例的框图;图5是示出图4所示的数据处理设备中的信息搜索单元的详细配置的框图;以及图6是示出作为本专利技术的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。具体实施方式在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的设备结构和/或处理步骤,而省略了与本专利技术关系不大的其它细节。以下将参照本文档来自技高网...
数据处理方法和设备

【技术保护点】
一种数据处理方法,包括:信息搜索步骤,用于根据定制的类别,在预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相关的多条信息;属性设定步骤,用于基于预定标准,为所获得的多条信息设定属性;第一分类器调整步骤,用于根据所设定的属性,动态地调整用于对从所述预定信息源获得的信息进行分类的预设第一分类器;以及分类步骤,用于利用调整后的第一分类器对所获得的多条信息进行分类,其中,重复地执行所述属性设定步骤、所述第一分类器调整步骤以及所述分类步骤,直至所述第一分类器的分类结果满足预定条件为止。

【技术特征摘要】
1.一种数据处理方法,包括:信息搜索步骤,用于根据定制的类别,在预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相关的多条信息;属性设定步骤,用于基于预定标准,为所获得的多条信息设定属性;第一分类器调整步骤,用于根据所设定的属性,动态地调整用于对从所述预定信息源获得的信息进行分类的预设第一分类器;以及分类步骤,用于利用调整后的第一分类器对所获得的多条信息进行分类,其中,重复地执行所述属性设定步骤、所述第一分类器调整步骤以及所述分类步骤,直至所述第一分类器的分类结果满足预定条件为止。2.根据权利要求1所述的数据处理方法,其中,所述预定信息源是微博网站,所述多条信息是多个微博文本,以及所述第一分类器调整步骤包括对所述第一分类器中的、与以下因素中的至少一个因素相关的参数进行调整:微博文本中的特征词在所定制的类别中的特定类别中的出现概率、微博文本中的特定标点符号在所述特定类别中的出现概率、与微博文本的内容长度相关的概率、与微博文本的转发评论数量相关的概率以及与微博文本的作者的影响力相关的概率。3.根据权利要求2所述的数据处理方法,其中,基于以下表达式对所述多个微博文本进行分类:Score(item)=argMax(category(λ1(L1)+λ2(L2)))其中,item表示所获得的各个微博文本,L1是采用所述第一分类器获得的该微博文本属于所定制的类别中的各个类别的概率,L2是采用预设的第二分类器获得的该微博文本属于所述各个类别的概率,λ1、λ2为预定的权重系数,且λ1+λ2=1,category()表示计算各个微博文本属于所述各个类别的概率,argMax()表示取算出的概率中的最大值。4.根据权利要求1所述的数据处理方法,其中,所述关键词包括预设的种子关键词和定制关键词,以及所述信息搜索步骤进一步包括:检索子步骤,用于利用所述种子关键词在所述预定信息源中进行检索,以获取与所述种子关键词相关的多条信息;关键词列表提取子步骤,用于从所获取的多条信息提取关键词列表;以及定制关键词确定子步骤,用于利用预定算法计算所提取的关键词列表中的各个关键词的重要性,并将重要性大于预定阈值的预定数量的关键词确定为所述定制关键词。5.一种数据处理设备,包括:信息搜索单元,被配置成根据定制的类别,在预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相...

【专利技术属性】
技术研发人员:张波孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1