数据分析方法和系统技术方案

技术编号：11415202 阅读：102 留言：0更新日期：2015-05-06 15:05

本发明专利技术涉及数据分析方法和系统，特别是对互联网上的内容进行处理的方法和系统。该方法包括接收用户输入，根据所述用户输入获取互联网上的内容和关于该内容的属性信息，对所述内容进行词频统计和属性信息分析；接收用户关于分析方法的选择，根据用户所选择的分析方法处理所述内容。根据本发明专利技术，由用户确定研究变量以及变量间的关系，并根据变量和变量间的关系选择相应分析方法。

全部详细技术资料下载

【技术实现步骤摘要】
数据分析方法和系统
本公开的实施例涉及数据分析方法和系统，尤其涉及对互联网上的内容进行处理的方法和系统。
技术介绍
社会科学领域课题研究过程中材料的收集、整理和分析是至关重要的一环。如何有效收集和积累与课题研究相关的材料是做好课题研究的前提和保障。没有资料，就无从研究，更谈不上观点和创新。收集与课题相关联的资料的途径很多，例如问卷调查，课题访谈，课题研讨会等。然而，收集资料通常需要花费大量的时间，通常研究课题一半以上的时间都用在资料的收集上。因此，如何缩短收集资料所需的时间，降低收集资料的成本是人们期望的。另一方面，随着科技的发展，网络资源越来越丰富。例如，当今快速发展的社交网络为人们提供了在线交流和传播信息，形成新的媒介生态环境，为人们构建了一张巨大的社会网络且不断演化，关键是这些信息都被记录下来，可以让我们能够更好的观察到人类社会的复杂行为模式。可是，在海量的网络数据中查找有用的信息需要花费大量时间外，还需要大量复杂重复的劳动，例如，需要不断的筛选和重复查找。而且，如何组织和整理查找到的资料也是让人头疼的工作。因此，高效地利用各种网络数据是人们期望的。
技术实现思路
本专利技术目的是解决上述问题中的一个或多个。本专利技术在一个方面提供一种对互联网上的内容进行处理的方法，包括：接收用户输入；根据所述用户输入获取互联网上的内容和关于该内容的属性信息；对所述内容进行词频统计和属性信息分析；接收用户关于分析方法的选择；根据用户所选择的分析方法处理所述内容。本专利技术在另一方面提供一种对互联网上的内容进行处理的系统，包括：一个或多个数据存储服务器；一个或多个爬虫服务...

【技术保护点】
一种对互联网上的内容进行处理的方法，包括：接收用户输入；根据所述用户输入获取互联网上的内容和关于该内容的属性信息；对所述内容进行词频统计和属性信息分析；接收用户关于分析方法的选择；根据用户所选择的分析方法处理所述内容。

【技术特征摘要】
1.一种对互联网上的内容进行处理的方法，包括：接收用户输入；根据所述用户输入获取互联网上的内容和关于该内容的属性信息；对所述内容进行词频统计和属性信息分析，所述词频统计用于评估一字词对于一个文件集或一个语料库中的一份文件的重要程度；接收用户关于分析方法的选择；根据用户所选择的分析方法处理所述内容。2.如权利要求1所述的方法，还包括接收用户确定的变量。3.如权利要求2所述的方法，其中由用户根据所述变量和所述变量间的关系选择所述分析方法。4.如权利要求2所述的方法，其中由用户根据所述词频统计和属性信息分析确定所述变量。5.如权利要求2所述的方法，其中，根据用户所选择的分析方法处理所述内容包括采用所述分析方法对所述变量进行分析。6.如权利要求1所述的方法，其中所述接收用户输入包括接收用户输入的检索主题和限制条件。7.如权利要求6所述的方法，其中所述检索主题以关键词的形式输入。8.如权利要求6所述的方法，其中所述限制条件限定要获取的互联网上的内容的发布时间、发布地点和/或来源。9.如权利要求8所述的方法，其中所述来源指所述互联网上的内容所发布的网站。10.如权利要求1所述的方法，其中对所述内容进行词频统计包括对所述内容进行情感色彩分析或观点倾向分析。11.如权利要求1所述的方法，其中所述属性信息包括所述内容的发布时间、发布地点、来源、发布者的性别、发布者年龄、发布者的身份中的一个或多个。12.如权利要求1所述的方法，其中对所述内容进行词频统计和属性信息分析包括分析所述内容的发布者的特征。13.如权利要求1所述的方法，其中所述分析方法包括相关分析、方差分析、回归分析、因子分析和聚类分析中的一个或多个。14.如权利要求1所述的方法，还包括存储所述内容和所述属性信息。15.如权利要求1所述的方法，其中所述获取采用网络爬虫进行。16.一种对互联网上的内容进行处理的系...

【专利技术属性】
技术研发人员：钟惠波，王富，杜文滔，王长梅，
申请(专利权)人：北京畅游天下网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人