数据处理方法和设备技术

技术编号：9568991 阅读：56 留言：0更新日期：2014-01-16 02:34

一种数据处理方法和设备，该方法包括：信息搜索步骤，用于根据定制的类别，在预定信息源中输入关于所定制的类别的关键词以进行搜索，从而获得与所输入的关键词相关的多条信息；属性设定步骤，用于基于预定标准，为所获得的多条信息设定属性；第一分类器调整步骤，用于根据所设定的属性，动态地调整用于对从预定信息源获得的信息进行分类的预设第一分类器；及分类步骤，用于利用调整后的第一分类器对所获得的多条信息进行分类，其中重复执行属性设定步骤、第一分类器调整步骤及分类步骤，直至第一分类器的分类结果满足预定条件为止。根据本发明专利技术，可以通过自适应方式调整分类模型，提高了数据处理效率和信息获取的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法和设备
本专利技术涉及一种数据处理方法和设备，更具体地，涉及一种能够通过自适应方式调整分类模型从而更准确地从微博网站获取相关信息的数据处理方法和设备。
技术介绍
微博（micro-blog）是近年来新兴的实时媒体。由于微博信息具有内容短、传播速度快、信息量大的特点，因此如何提高数据处理效率以在庞杂的网络数据中快速准确地挖掘所需的信息已对互联网技术提出了新的挑战。在现有技术中，存在基于用户资料自适应的新闻分类技术，在该技术中，根据用户资料使用贝叶斯分类器选择用户感兴趣的新闻文本，并同时根据用户的阅读习惯等自适应地更新用户资料，从而更准确高效地向用户提供其所感兴趣的新闻资料（例如，参见RicardoCarreira等人的论文“EvaluatingAdaptiveUserProfileforNewsClassification”）。然而，现有技术中的自适应是人工进行的，从而增加了用户的负担。此外，由于微博文本具有与新闻文本显著不同的特点，因此，需要一种能够提高数据处理效率，从而帮助用户在大量的微博信息中找到感兴趣的信息并且提高返回信息的准确度的技术。
技术实现思路
在下文中给出了关于本专利技术的简要概述，以便提供关于本专利技术的某些方面的基本理解。但是，应当理解，这个概述并不是关于本专利技术的穷举性概述。它并不是意图用来确定本专利技术的关键性部分或重要部分，也不是意图用来限定本专利技术的范围。其目的仅仅是以简化的形式给出关于本专利技术的某些概念，以此作为稍后给出的更详细描述的前序。因此，鉴于上述情形，本专利技术的目的是提供一种能够通过自适应方式提高数据处...
数据处理方法和设备

【技术保护点】
一种数据处理方法，包括：信息搜索步骤，用于根据定制的类别，在预定信息源中输入关于所定制的类别的关键词以进行搜索，从而获得与所输入的关键词相关的多条信息；属性设定步骤，用于基于预定标准，为所获得的多条信息设定属性；第一分类器调整步骤，用于根据所设定的属性，动态地调整用于对从所述预定信息源获得的信息进行分类的预设第一分类器；以及分类步骤，用于利用调整后的第一分类器对所获得的多条信息进行分类，其中，重复地执行所述属性设定步骤、所述第一分类器调整步骤以及所述分类步骤，直至所述第一分类器的分类结果满足预定条件为止。

【技术特征摘要】
1.一种数据处理方法，包括：信息搜索步骤，用于根据定制的类别，在预定信息源中输入关于所定制的类别的关键词以进行搜索，从而获得与所输入的关键词相关的多条信息；属性设定步骤，用于基于预定标准，为所获得的多条信息设定属性；第一分类器调整步骤，用于根据所设定的属性，动态地调整用于对从所述预定信息源获得的信息进行分类的预设第一分类器；以及分类步骤，用于利用调整后的第一分类器对所获得的多条信息进行分类，其中，重复地执行所述属性设定步骤、所述第一分类器调整步骤以及所述分类步骤，直至所述第一分类器的分类结果满足预定条件为止。2.根据权利要求1所述的数据处理方法，其中，所述预定信息源是微博网站，所述多条信息是多个微博文本，以及所述第一分类器调整步骤包括对所述第一分类器中的、与以下因素中的至少一个因素相关的参数进行调整：微博文本中的特征词在所定制的类别中的特定类别中的出现概率、微博文本中的特定标点符号在所述特定类别中的出现概率、与微博文本的内容长度相关的概率、与微博文本的转发评论数量相关的概率以及与微博文本的作者的影响力相关的概率。3.根据权利要求2所述的数据处理方法，其中，基于以下表达式对所述多个微博文本进行分类：Score(item)=argMax(category(λ1(L1)+λ2(L2)))其中，item表示所获得的各个微博文本，L1是采用所述第一分类器获得的该微博文本属于所定制的类别中的各个类别的概率，L2是采用预设的第二分类器获得的该微博文本属于所述各个类别的概率，λ1、λ2为预定的权重系数，且λ1+λ2=1，category()表示计算各个微博文本属于所述各个类别的概率，argMax()表示取算出的概率中的最大值。4.根据权利要求1所述的数据处理方法，其中，所述关键词包括预设的种子关键词和定制关键词，以及所述信息搜索步骤进一步包括：检索子步骤，用于利用所述种子关键词在所述预定信息源中进行检索，以获取与所述种子关键词相关的多条信息；关键词列表提取子步骤，用于从所获取的多条信息提取关键词列表；以及定制关键词确定子步骤，用于利用预定算法计算所提取的关键词列表中的各个关键词的重要性，并将重要性大于预定阈值的预定数量的关键词确定为所述定制关键词。5.一种数据处理设备，包括：信息搜索单元，被配置成根据定制的类别，在预定信息源中输入关于所定制的类别的关键词以进行搜索，从而获得与所输入的关键词相...

【专利技术属性】
技术研发人员：张波，孟遥，于浩，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人