数据处理方法和数据处理设备技术

技术编号：9569015 阅读：105 留言：0更新日期：2014-01-16 02:35

公开了一种数据处理方法和设备，该方法包括：微博搜索步骤，在搜索引擎中输入给定实体的名称，以获取与该名称相关的多条微博作为目标集合；预处理步骤，对所获取的多条微博中的每条微博进行预处理，以获取与多条微博中的每条微博相关的正文信息；关系特征获取步骤，基于所获取的正文信息，获取多条微博中的各条微博的第一关系特征和第二关系特征，第一关系特征表示微博与给定实体的直接相关网页信息之间的关系，且第二关系特征表示微博与给定实体的间接相关网页信息之间的关系；以及相关性确定步骤，利用第一分类器和第二分类器，分别根据第一关系特征和第二关系特征，基于共同训练方式来确定多条微博中的各条微博与给定实体之间的相关性。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法和数据处理设备
本专利技术涉及一种数据处理方法和数据处理设备，更具体地，涉及一种用于确定微博与给定实体的相关性的数据处理方法和数据处理设备。
技术介绍
微博（例如，推特、搜狐微博、腾讯微博和新浪微博等）作为一种社交媒体，迅速地赢得了世界范围的欢迎。如何管理与微博有关的信息以掌握人们对相关实体的反馈和评论等已受到广泛关注，而关键的问题之一即是获得与所关注实体（例如，产品、企业以及特定事件等）相关的微博信息。获得与所关注实体有关的微博信息将面临以下问题：微博和实体都包含很少信息。微博不同于传统的由用户所生成的媒体，它仅允许用户生成不超过140个字符的消息。因此，监控和分析这些消息具有一定难度。此外，实体名称可能是模糊的，例如，苹果公司的名称Apple也可以表示水果苹果。亚马逊公司的名称Amazon也可以表示亚马逊河。因此，这使得微博信息与实体之间的匹配变得困难，因而希望能够通过挖掘上网络上与该实体相关的信息来丰富实体的相关信息。
技术实现思路
在下文中给出了关于本专利技术的简要概述，以便提供关于本专利技术的某些方面的基本理解。但是，应当理解，这个概述并不是关于本专利技术的穷举性概述。它并不是意图用来确定本专利技术的关键性部分或重要部分，也不是意图用来限定本专利技术的范围。其目的仅仅是以简化的形式给出关于本专利技术的某些概念，以此作为稍后给出的更详细描述的前序。因此，鉴于上述情形，本专利技术的目的是提供一种数据处理方法和数据处理设备，其能够通过挖掘网络上与实体相关的信息来扩展实体方面的信息，从而有助于微博信息与实体之间的匹配，并且还能够通过半监督方式，分...

【技术保护点】
一种数据处理方法，包括：微博搜索步骤，用于在搜索引擎中输入给定实体的名称，以获取与所述名称相关的多条微博作为目标集合；预处理步骤，用于对所获取的多条微博中的每条微博进行预处理，以获取与所述多条微博中的每条微博相关的正文信息；关系特征获取步骤，用于基于所获取的正文信息，获取所述多条微博中的各条微博的第一关系特征和第二关系特征，其中，所述第一关系特征表示微博与所述给定实体的直接相关网页信息之间的关系，并且所述第二关系特征表示微博与所述给定实体的间接相关网页信息之间的关系；以及相关性确定步骤，用于利用第一分类器和第二分类器，分别根据所述第一关系特征和所述第二关系特征，基于共同训练方式来确定所述多条微博中的各条微博与所述给定实体之间的相关性。

【技术特征摘要】
1.一种数据处理方法，包括：微博搜索步骤，用于在搜索引擎中输入给定实体的名称，以获取与所述名称相关的多条微博作为目标集合；预处理步骤，用于对所获取的多条微博中的每条微博进行预处理，以获取与所述多条微博中的每条微博相关的正文信息；关系特征获取步骤，用于基于所获取的正文信息，获取所述多条微博中的各条微博的第一关系特征和第二关系特征，其中，所述第一关系特征表示微博与所述给定实体的直接相关网页信息之间的关系，并且所述第二关系特征表示微博与所述给定实体的间接相关网页信息之间的关系；以及相关性确定步骤，用于利用第一分类器和第二分类器，分别根据所述第一关系特征和所述第二关系特征，基于共同训练方式来确定所述多条微博中的各条微博与所述给定实体之间的相关性，其中，所述相关性确定步骤进一步包括：标注子步骤，用于分别利用所述第一分类器和所述第二分类器对所述目标集合中的每条微博进行标注；种子添加子步骤，用于根据预定规则，将所述多条微博中的、所述第一分类器和/或所述第二分类器以高于预定阈值的置信度标注的微博作为新种子添加到预设的种子集合中，并相应地从所述目标集合移除该微博，其中所述预设的种子集合是预先标注好的多条微博的集合；训练子步骤，用于利用添加了所述新种子的种子集合，分别根据所述种子集合中的各条微博的第一关系特征和第二关系特征对所述第一分类器和所述第二分类器进行训练；迭代子步骤，用于利用添加了所述新种子的种子集合迭代执行所述标注子步骤、所述种子添加子步骤以及所述训练子步骤中的处理，直到达到预定指标为止；以及输出子步骤，用于基于最终的标注结果，输出表示所述多条微博中的各条微博与所述实体之间的相关性的结果。2.根据权利要求1所述的数据处理方法，其中，在所述种子添加子步骤中，通过以下方式中的一种或多种而将微博添加到所述种子集合中：将所述第一分类器和所述第二分类器具有相同的标注结果的、并且所述第一分类器和所述第二分类器均以高于预定阈值的置信度标注的微博添加到所述种子集合中；以及将第一预定数量的、所述第一分类器以高于预定阈值的置信度标注的微博以及第二预定数量的、所述第二分类器以高于预定值的置信度标注的微博添加到所述种子集合中。3.根据权利要求1所述的数据处理方法，其中，当达到所述预定指标时，如果所述目标集合中还存在尚未被标注的微博，则在所述相关性确定步骤中以下述方式之一来确定所述未被标注的微博与所述给定实体之间的相关性：基于所述第一分类器和所述第二分类器之一的分类结果；以及基于所述第一分类器以及所述第二分类器对所述未被标注的微博的分类结果的分类置信度。4.一种数据处理设备，包括：微博搜索单元，被配置成在搜索引擎中输入给定实体的名称，以获取与所述名称相关的多条微博作为目标集合；预处理单元，被配置成对所获取的多...

【专利技术属性】
技术研发人员：张姝，孟遥，夏迎炬，于浩，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人