数据处理方法和数据处理设备技术

技术编号:9569015 阅读:105 留言:0更新日期:2014-01-16 02:35
公开了一种数据处理方法和设备,该方法包括:微博搜索步骤,在搜索引擎中输入给定实体的名称,以获取与该名称相关的多条微博作为目标集合;预处理步骤,对所获取的多条微博中的每条微博进行预处理,以获取与多条微博中的每条微博相关的正文信息;关系特征获取步骤,基于所获取的正文信息,获取多条微博中的各条微博的第一关系特征和第二关系特征,第一关系特征表示微博与给定实体的直接相关网页信息之间的关系,且第二关系特征表示微博与给定实体的间接相关网页信息之间的关系;以及相关性确定步骤,利用第一分类器和第二分类器,分别根据第一关系特征和第二关系特征,基于共同训练方式来确定多条微博中的各条微博与给定实体之间的相关性。

【技术实现步骤摘要】
数据处理方法和数据处理设备
本专利技术涉及一种数据处理方法和数据处理设备,更具体地,涉及一种用于确定微博与给定实体的相关性的数据处理方法和数据处理设备。
技术介绍
微博(例如,推特、搜狐微博、腾讯微博和新浪微博等)作为一种社交媒体,迅速地赢得了世界范围的欢迎。如何管理与微博有关的信息以掌握人们对相关实体的反馈和评论等已受到广泛关注,而关键的问题之一即是获得与所关注实体(例如,产品、企业以及特定事件等)相关的微博信息。获得与所关注实体有关的微博信息将面临以下问题:微博和实体都包含很少信息。微博不同于传统的由用户所生成的媒体,它仅允许用户生成不超过140个字符的消息。因此,监控和分析这些消息具有一定难度。此外,实体名称可能是模糊的,例如,苹果公司的名称Apple也可以表示水果苹果。亚马逊公司的名称Amazon也可以表示亚马逊河。因此,这使得微博信息与实体之间的匹配变得困难,因而希望能够通过挖掘上网络上与该实体相关的信息来丰富实体的相关信息。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。但是,应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图用来确定本专利技术的关键性部分或重要部分,也不是意图用来限定本专利技术的范围。其目的仅仅是以简化的形式给出关于本专利技术的某些概念,以此作为稍后给出的更详细描述的前序。因此,鉴于上述情形,本专利技术的目的是提供一种数据处理方法和数据处理设备,其能够通过挖掘网络上与实体相关的信息来扩展实体方面的信息,从而有助于微博信息与实体之间的匹配,并且还能够通过半监督方式,分别从两个视角建立两个分类器,增强对微博信息的整体分类性能,从而更准确地确定微博与给定实体之间的相关性。根据本专利技术的实施例的第一方面,提供了一种数据处理方法,其可以包括:微博搜索步骤,用于在搜索引擎中输入给定实体的名称,以获取与该名称相关的多条微博作为目标集合;预处理步骤,用于对所获取的多条微博中的每条微博进行预处理,以获取与多条微博中的每条微博相关的正文信息;关系特征获取步骤,用于基于所获取的正文信息,获取多条微博中的各条微博的第一关系特征和第二关系特征,其中,第一关系特征表示微博与给定实体的直接相关网页信息之间的关系,并且第二关系特征表示微博与给定实体的间接相关网页信息之间的关系;以及相关性确定步骤,用于利用第一分类器和第二分类器,分别根据第一关系特征和第二关系特征,基于共同训练方式来确定多条微博中的各条微博与给定实体之间的相关性。根据本专利技术的优选实施例,相关性确定步骤可以进一步包括:标注子步骤,用于分别利用第一分类器和第二分类器对目标集合中的每条微博进行标注;种子添加子步骤,用于根据预定规则,将多条微博中的、第一分类器和/或所述第二分类器以高于预定阈值的置信度标注的微博作为新种子添加到预设的种子集合中,并相应地从目标集合移除该微博,其中预设的种子集合是预先标注好的多条微博的集合;训练子步骤,用于利用添加了新种子的种子集合,分别根据种子集合中的各条微博的第一关系特征和第二关系特征对第一分类器和所述第二分类器进行训练;迭代子步骤,用于利用添加了新种子的种子集合迭代执行标注子步骤、种子添加子步骤以及训练子步骤中的处理,直到达到预定指标为止;以及输出子步骤,用于基于最终的标注结果,输出表示多条微博中的各条微博与实体之间的相关性的结果。根据本专利技术的另一优选实施例,在种子添加子步骤中,可以通过以下方式中的一种或多种而将微博添加到种子集合中:将第一分类器和第二分类器具有相同的标注结果的、并且第一分类器和第二分类器均以高于预定阈值的置信度标注的微博添加到种子集合中;以及将第一预定数量的、第一分类器以高于预定阈值的置信度标注的微博以及第二预定数量的、第二分类器以高于预定值的置信度标注的微博添加到种子集合中。根据本专利技术的又一优选实施例,预定指标可以包括以下中的一种或多种:达到预定的迭代次数;目标集合中不存在分类置信度高于预定置信度阈值的微博;以及完成了对目标集合中的所有微博的标注。根据本专利技术的再一优选实施例,当达到预定指标时,如果目标集合中还存在尚未被标注的微博,则在相关性确定步骤中可以以下述方式之一来确定未被标注的微博与给定实体之间的相关性:基于第一分类器和第二分类器之一的分类结果;以及基于第一分类器以及第二分类器对未被标注的微博的分类结果的分类置信度。根据本专利技术的实施例的另一方面,还提供了一种数据处理设备,其可以包括:微博搜索单元,被配置成在搜索引擎中输入给定实体的名称,以获取与该名称相关的多条微博作为目标集合;预处理单元,被配置成对所获取的多条微博中的每条微博进行预处理,以获取与多条微博中的每条微博相关的正文信息;关系特征获取单元,被配置成基于所获取的正文信息,获取多条微博中的各条微博的第一关系特征和第二关系特征,其中,第一关系特征表示微博与给定实体的直接相关网页信息之间的关系,并且第二关系特征表示微博与给定实体的间接相关网页信息之间的关系;以及相关性确定单元,被配置成利用第一分类器和第二分类器,分别根据第一关系特征和第二关系特征,基于共同训练方式来确定多条微博中的各条微博与给定实体之间的相关性。另外,根据本专利技术的实施例的另一方面,还提供了一种终端设备,该终端设备包括上述数据处理设备。这种终端设备例如包括移动电话、掌上电脑、平板电脑、个人计算机,等等。另外,根据本专利技术的实施例的又一方面,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行根据本专利技术的数据处理方法。此外,根据本专利技术的实施例的再一方面,还提供了一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行指令时,该指令使得信息处理设备执行根据本专利技术的数据处理方法。因此,根据本专利技术的实施例,能够提高数据处理效率,有利于快速准确地找到与给定实体相关的微博信息。在下面的说明书部分中给出本专利技术实施例的其他方面,其中,详细说明用于充分地公开本专利技术实施例的优选实施例,而不对其施加限定。附图说明本专利技术可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本专利技术的优选实施例和解释本专利技术的原理和优点。其中:图1是示出根据本专利技术的实施例的数据处理方法的流程图;图2是详细示出图1所示的关系特征获取步骤中的处理的流程图;图3是示出具有百科全书属性的网页的示意图,该网页用于消除词汇的歧义;图4是详细示出图1所示的相关性确定步骤中的处理的流程图;图5是示出根据本专利技术的实施例的数据处理设备的示例性功能配置的框图;图6是详细示出图5所示的关系特征获取单元的示例性功能配置的框图;图7是详细示出图5所示的相关性确定单元的示例性功能配置的框图;以及图8是示出作为本专利技术的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。具体实施方式在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式本文档来自技高网...
数据处理方法和数据处理设备

【技术保护点】
一种数据处理方法,包括:微博搜索步骤,用于在搜索引擎中输入给定实体的名称,以获取与所述名称相关的多条微博作为目标集合;预处理步骤,用于对所获取的多条微博中的每条微博进行预处理,以获取与所述多条微博中的每条微博相关的正文信息;关系特征获取步骤,用于基于所获取的正文信息,获取所述多条微博中的各条微博的第一关系特征和第二关系特征,其中,所述第一关系特征表示微博与所述给定实体的直接相关网页信息之间的关系,并且所述第二关系特征表示微博与所述给定实体的间接相关网页信息之间的关系;以及相关性确定步骤,用于利用第一分类器和第二分类器,分别根据所述第一关系特征和所述第二关系特征,基于共同训练方式来确定所述多条微博中的各条微博与所述给定实体之间的相关性。

【技术特征摘要】
1.一种数据处理方法,包括:微博搜索步骤,用于在搜索引擎中输入给定实体的名称,以获取与所述名称相关的多条微博作为目标集合;预处理步骤,用于对所获取的多条微博中的每条微博进行预处理,以获取与所述多条微博中的每条微博相关的正文信息;关系特征获取步骤,用于基于所获取的正文信息,获取所述多条微博中的各条微博的第一关系特征和第二关系特征,其中,所述第一关系特征表示微博与所述给定实体的直接相关网页信息之间的关系,并且所述第二关系特征表示微博与所述给定实体的间接相关网页信息之间的关系;以及相关性确定步骤,用于利用第一分类器和第二分类器,分别根据所述第一关系特征和所述第二关系特征,基于共同训练方式来确定所述多条微博中的各条微博与所述给定实体之间的相关性,其中,所述相关性确定步骤进一步包括:标注子步骤,用于分别利用所述第一分类器和所述第二分类器对所述目标集合中的每条微博进行标注;种子添加子步骤,用于根据预定规则,将所述多条微博中的、所述第一分类器和/或所述第二分类器以高于预定阈值的置信度标注的微博作为新种子添加到预设的种子集合中,并相应地从所述目标集合移除该微博,其中所述预设的种子集合是预先标注好的多条微博的集合;训练子步骤,用于利用添加了所述新种子的种子集合,分别根据所述种子集合中的各条微博的第一关系特征和第二关系特征对所述第一分类器和所述第二分类器进行训练;迭代子步骤,用于利用添加了所述新种子的种子集合迭代执行所述标注子步骤、所述种子添加子步骤以及所述训练子步骤中的处理,直到达到预定指标为止;以及输出子步骤,用于基于最终的标注结果,输出表示所述多条微博中的各条微博与所述实体之间的相关性的结果。2.根据权利要求1所述的数据处理方法,其中,在所述种子添加子步骤中,通过以下方式中的一种或多种而将微博添加到所述种子集合中:将所述第一分类器和所述第二分类器具有相同的标注结果的、并且所述第一分类器和所述第二分类器均以高于预定阈值的置信度标注的微博添加到所述种子集合中;以及将第一预定数量的、所述第一分类器以高于预定阈值的置信度标注的微博以及第二预定数量的、所述第二分类器以高于预定值的置信度标注的微博添加到所述种子集合中。3.根据权利要求1所述的数据处理方法,其中,当达到所述预定指标时,如果所述目标集合中还存在尚未被标注的微博,则在所述相关性确定步骤中以下述方式之一来确定所述未被标注的微博与所述给定实体之间的相关性:基于所述第一分类器和所述第二分类器之一的分类结果;以及基于所述第一分类器以及所述第二分类器对所述未被标注的微博的分类结果的分类置信度。4.一种数据处理设备,包括:微博搜索单元,被配置成在搜索引擎中输入给定实体的名称,以获取与所述名称相关的多条微博作为目标集合;预处理单元,被配置成对所获取的多...

【专利技术属性】
技术研发人员:张姝孟遥夏迎炬于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1