数据分析方法和系统技术方案

技术编号:11415202 阅读:102 留言:0更新日期:2015-05-06 15:05
本发明专利技术涉及数据分析方法和系统,特别是对互联网上的内容进行处理的方法和系统。该方法包括接收用户输入,根据所述用户输入获取互联网上的内容和关于该内容的属性信息,对所述内容进行词频统计和属性信息分析;接收用户关于分析方法的选择,根据用户所选择的分析方法处理所述内容。根据本发明专利技术,由用户确定研究变量以及变量间的关系,并根据变量和变量间的关系选择相应分析方法。

【技术实现步骤摘要】
数据分析方法和系统
本公开的实施例涉及数据分析方法和系统,尤其涉及对互联网上的内容进行处理的方法和系统。
技术介绍
社会科学领域课题研究过程中材料的收集、整理和分析是至关重要的一环。如何有效收集和积累与课题研究相关的材料是做好课题研究的前提和保障。没有资料,就无从研究,更谈不上观点和创新。收集与课题相关联的资料的途径很多,例如问卷调查,课题访谈,课题研讨会等。然而,收集资料通常需要花费大量的时间,通常研究课题一半以上的时间都用在资料的收集上。因此,如何缩短收集资料所需的时间,降低收集资料的成本是人们期望的。另一方面,随着科技的发展,网络资源越来越丰富。例如,当今快速发展的社交网络为人们提供了在线交流和传播信息,形成新的媒介生态环境,为人们构建了一张巨大的社会网络且不断演化,关键是这些信息都被记录下来,可以让我们能够更好的观察到人类社会的复杂行为模式。可是,在海量的网络数据中查找有用的信息需要花费大量时间外,还需要大量复杂重复的劳动,例如,需要不断的筛选和重复查找。而且,如何组织和整理查找到的资料也是让人头疼的工作。因此,高效地利用各种网络数据是人们期望的。
技术实现思路
本专利技术目的是解决上述问题中的一个或多个。本专利技术在一个方面提供一种对互联网上的内容进行处理的方法,包括:接收用户输入;根据所述用户输入获取互联网上的内容和关于该内容的属性信息;对所述内容进行词频统计和属性信息分析;接收用户关于分析方法的选择;根据用户所选择的分析方法处理所述内容。本专利技术在另一方面提供一种对互联网上的内容进行处理的系统,包括:一个或多个数据存储服务器;一个或多个爬虫服务器;以及一个或多个算法服务器,所述爬虫服务器根据用户输入获取互联网上的内容和关于该内容的属性信息,所述数据存储服务器存储所述内容和所述属性信息,所述算法服务器对所述内容进行词频统计和属性信息分析,并根据用户所选择的分析方法处理所述内容。本专利技术在又一方面提供一种对互联网上的内容进行处理的系统,包括:用于接收用户输入的装置;用于根据所述用户输入获取互联网上的内容和关于该内容的属性信息的装置;用于对所述内容进行词频统计和属性信息分析的装置;用于接收用户关于分析方法的选择的装置;用于根据用户所选择的分析方法处理所述内容的装置。本专利技术在另一方面提供一种计算机可读存储介质,其中存储有用于执行根据本专利技术的方法的指令。附图说明从下面结合附图对本专利技术的具体实施方式的描述中可以更好地理解本专利技术,其中:图1示出了根据本专利技术示例实施例的对互联网上的内容进行处理的方法的流程图;图2示出了根据本专利技术示例实施例的对互联网上的内容进行处理的系统;图3示出了根据本专利技术的示例实施例的计算装置的框图。具体实施方式下面将详细描述本专利技术各个方面的特征和示例性实施例。下面的描述涵盖了许多具体细节,以便提供对本专利技术的全面理解。但是,对于本领域技术人员来说显而易见的是,本专利技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本专利技术的示例来提供对本专利技术更清楚的理解。本专利技术绝不限于下面所提出的任何具体配置,而是在不脱离本专利技术的精神的前提下覆盖了相关元素或部件的任何修改、替换和改进。社会科学人员在做课题研究时,需查询大量资料和数据,而目前缺少对此类资料信息归类和总结,搜索内容存在大量重复和质量问题,给用户造成重复筛选和不断查找。本专利技术,基于网络爬虫和数据挖掘技术很好解决了这一难题。网络爬虫和数据挖掘是指互联网上提供检索服务的系统工具。服务器通过网络搜索,将互联网上大量网站的页面信息收集到本地,提供用户所需的信息或相关指引。同时,社交网络(例如脸书、微博等)产生了海量用户以及实时和完整的数据,同时社交网络也记录了用户群体的情绪,根据本专利技术可以通过深入挖掘这些数据来了解用户,挖掘用户的行为习惯和喜好。图1示出了根据本专利技术的示例实施例对互联网上的内容进行处理的方法的流程图。当用户通过客户端的用户界面进行登录操作时,本专利技术的方法开始(步骤210)。例如,用户可以通过在客户端的用户界面处输入用户名或者密码,来进行登录。当然,本领域的技术人员可以理解,用户还可以通过其它方式登录,例如匿名登录。用户成功登录后,例如可以在用户界面呈现搜索栏,以接收用户输入。在步骤212,用户在搜索栏输入想要从互联网上查询的内容,即检索主题。例如,用户正在进行的研究课题是“90后上网游戏行为”,用户可以在搜索栏输入“90后上网游戏行为”。可选地,检索主题例如可以通过关键词的形式输入。根据本专利技术的可选实施例,用户可以对搜索范围进行限制。例如,用户可以选择所要获取的互联网内容具体的发布(或创建)时间,从而选择只搜索在特定的一段时间内发布的互联网内容。用户还可以选择要获取的互联网内容发布的地点,例如将搜索内容限定为是从哪个国家或具体地是哪个城市发布的,当然用户还可以更进一步限定为是从哪个小区或具体哪个建筑发布的。此外,用户还可以选择要获取的互联网内容的来源。例如,用户可以限定只在脸书或者某个具体的微博中进行搜索。通过限定互联网内容的来源(例如互联网上的内容所发布的网站),以提高查询效率和针对性。在步骤214,根据用户输入获取互联网内容和/或相关的属性信息,并存储搜索结果。根据本专利技术的可选实施例,采用网络爬虫获取互联网内容和属性信息。获取的互联网内容可以包括例如社交网络上发布的消息、用户评论等,获取的互联网内容也可以包括网络上发布的各种新闻等。网络爬虫是一个自动提取网页的程序,它为搜索引擎从互联网上下载网页,是搜索引擎的重要组成。爬虫从一个或若干个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。根据本专利技术实施例,除了获取互联网内容外,还获取互联网内容的属性信息。其中属性信息包括互联网内容的发布时间、发布地点、来源等。属性信息还可以包括关于互联网内容的发布者的信息,例如发布者的性别、年龄、身份、出生、家庭背景、收入、职业、教育背景等。在步骤216,对所获取的互联网内容进行词频统计和/或属性信息分析。根据本专利技术的示例实施例,词频统计之前可以选择对获取的互联网内容进行切词。本领域的技术人员可以理解切词并不是必须的。通常对于某些语言的互联网内容,例如中文,切词特别是有益的。通过切词可以删除没有实质意义或专指程度很低的词。根据本专利技术的示例实施例,词频统计例如采用TF-IDF方法。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的一份文件的重要程度。字词的重要性随它在文件中出现的次数成正比增加,但同时会随著它在语料库中出现的频率成反比下降。在一份给定的文件里,词频(termfrequency,TF)因子指的是某一个给定的词语在文档中出现的次数。一般来说,词频越高越显得文档和该词相关,就应该给予这个单词更高的权重。这个数字通常会被正规化,以防止它偏向长的文件。逆文档频率因子(IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。IDF代表的是文档集合范围的一种全局因子,它只和给定的文档集合有关,与具体文档无关。所以IDF考虑的不是文档本身的特征本文档来自技高网...

【技术保护点】
一种对互联网上的内容进行处理的方法,包括:接收用户输入;根据所述用户输入获取互联网上的内容和关于该内容的属性信息;对所述内容进行词频统计和属性信息分析;接收用户关于分析方法的选择;根据用户所选择的分析方法处理所述内容。

【技术特征摘要】
1.一种对互联网上的内容进行处理的方法,包括:接收用户输入;根据所述用户输入获取互联网上的内容和关于该内容的属性信息;对所述内容进行词频统计和属性信息分析,所述词频统计用于评估一字词对于一个文件集或一个语料库中的一份文件的重要程度;接收用户关于分析方法的选择;根据用户所选择的分析方法处理所述内容。2.如权利要求1所述的方法,还包括接收用户确定的变量。3.如权利要求2所述的方法,其中由用户根据所述变量和所述变量间的关系选择所述分析方法。4.如权利要求2所述的方法,其中由用户根据所述词频统计和属性信息分析确定所述变量。5.如权利要求2所述的方法,其中,根据用户所选择的分析方法处理所述内容包括采用所述分析方法对所述变量进行分析。6.如权利要求1所述的方法,其中所述接收用户输入包括接收用户输入的检索主题和限制条件。7.如权利要求6所述的方法,其中所述检索主题以关键词的形式输入。8.如权利要求6所述的方法,其中所述限制条件限定要获取的互联网上的内容的发布时间、发布地点和/或来源。9.如权利要求8所述的方法,其中所述来源指所述互联网上的内容所发布的网站。10.如权利要求1所述的方法,其中对所述内容进行词频统计包括对所述内容进行情感色彩分析或观点倾向分析。11.如权利要求1所述的方法,其中所述属性信息包括所述内容的发布时间、发布地点、来源、发布者的性别、发布者年龄、发布者的身份中的一个或多个。12.如权利要求1所述的方法,其中对所述内容进行词频统计和属性信息分析包括分析所述内容的发布者的特征。13.如权利要求1所述的方法,其中所述分析方法包括相关分析、方差分析、回归分析、因子分析和聚类分析中的一个或多个。14.如权利要求1所述的方法,还包括存储所述内容和所述属性信息。15.如权利要求1所述的方法,其中所述获取采用网络爬虫进行。16.一种对互联网上的内容进行处理的系...

【专利技术属性】
技术研发人员:钟惠波王富杜文滔王长梅
申请(专利权)人:北京畅游天下网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1