当前位置: 首页 > 专利查询>赵颖泽专利>正文

基于Web的自动化商业调研方法技术

技术编号:7241805 阅读:157 留言:0更新日期:2012-04-11 18:40
基于Web的自动化商业调研方法可以通过采集来自互联网上的公开数据,利用程序的自动挖掘处理功能生成供网络商家、小企业进行决策的商业报告。该方法可以有效克服传统调研方法人力成本高,速度慢的缺点。利用程序自动抓取与分析的能力,可以自动获取得到大量公开的调研数据,为网络商家、小企业提供低成本、及时而又准确的商业调研报告,帮助进行合理的商业决策。

【技术实现步骤摘要】

本专利技术通过自动挖掘Web上公开的数据信息,可以自动整理、分析出商业词汇的商业价值与产业趋势,可以为网络商家、企业提供及时、准确的商业调研报告,帮助网络商家、企业及时作出合理的商业决策。
技术介绍
商业调研是企业、商家作出商业决策的重要依据。传统的商业调研方法,依靠人工发放问卷、访谈的方法获取所需的商业数据,例如用户满意度、消费金额等。然后,再通过统计分析方法,对数据进行过滤、筛选,留存优质数据,进行统计分析,作出调研报告。目前有大量的公司基于传统的商业调研方法,为企业提供商业调研报告,例如知名的艾瑞(iResearch)公司。但基于传统的商业调研方法存在诸多下述弊端(1)人工获取数据的成本高,数据规模小。无论是问卷发放还是电话访谈,都要消耗大量的人力成本,由于成本限制,调研采样数据往往规模较小,统计分析不够准确的问题。如果扩大数据规模,必然导致调研报告成本急剧上升,使得小企业难以负担。(2)数据处理周期长,时效性差,难以用来做及时的商业决策。传统的商业调研方法,在人工搜集数据之后,还需要对数据的准确性、可靠性做人工的判断与处理,滤除掉不合理的采样数据,才能使得统计结论准确可靠。但各种严谨的人工过滤处理,会耗费大量的时间,待报告得出结论的时候,往往可能已经错失了最好的商机。目前也有一些公司,具备自动化的商业调研能力,这类公司往往是握有大量用户信息的互联网公司,例如百度、谷歌这样的公司,他们可以利用用户访问网站产生的大量请求数据,自动计算出用户关注的热点查询关键词,发布趋势报告。由于涉及到用户隐私或核心商业机密,这类公司是不愿意公开内部数据供大众分析的,因而对于特定需求的商家来说,也无法获取或比较难获取到可订制的商业调研报告。本专利技术中所采用的自动化调研分析方法,采用来自web的公开数据,不存在任何法律与道德风险,同时成本很低,可以为众多的小商家、小企业提供轻量级的商业调研报告。同时,该方法也避免了人工调研方法成本高,速度慢的劣势,通过发挥程序自动处理大规模数据的优势,可以获得更为准确、及时的商业调研报告。
技术实现思路
本专利技术所提出的自动化商业调研方法,由下述三大处理流程组成(l)web公开数据源的选取与抓取页面的分析与结构化数据抽取(3)结构化数据的挖掘与分析。涉及到的技术包括Web页面的自动抓取,html页面的解析与标签定位,轻量级的数据存储服务,自动化的数据挖掘与分析。三大处理流程详述如下一、Wfeb公开数据源的选取与抓取(1) taobao.com是国内最大的C2C交易网站,年交易额超过2000亿,taobao上的商品数据丰富,每个商品页面上都包含有公开的交易数据信息,是进行商业调研的良好数据源。因此,本方法选择taobao公开交易数据作为商业调研的数据来源。(2) taobao的搜索功能是重要的用户入口,可以利用该入口,以关键词搜索的方式,获取商品相关信息。设待调研的关键词为Kw,使用sqlite创建Kw数据库保存抓取到的数据结果,程序模拟用户在淘宝搜索框中输入Kw,模拟点击搜索按钮,则可以得到第一页搜索结果。(3)每页搜索结果由若干商品页的简要描述及链接构成,程序模拟用户点击每条链接访问商品页面,逐条抓取得到商品的详细信息页。每个搜索结果页上都有“下一页”链接,程序通过模拟点击该链接,获取下一页搜索结果,逐条遍历所有的商品页信息。每条商品页面的链接被保存到search数据表中,留待下一步处理。二、商品信息页的分析与结构化数据抽取(1)使用BeautifulSoup开源python模块将抓取得到的商品信息页解析为dom树结构,使用XPath确定页面中包含有交易信息的标签块。(2) taobao商品页面上的交易信息采用异步ajax读取,所以程序需要模拟页面Js 行为发送读取交易信息的请求,并解析返回的Json格式结果,将结果表示为结构化数据, 包括交易ID,单价,数量,交易时间等。抽取得到的每条交易数据,保存至trade数据表中。三、数据的自动化挖掘与分析(1)经过上述处理步骤后,我们得到了与关键词Kw相关的所有交易记录。可以得到最多最近3个月的交易数据。遍历trade数据库,累加每条交易记录的单价字段,统计得到最近3月的交易量数据。(2)累加trade数据表中每条记录的价格*数量(交易额),即可获得Kw的交易总额。进而可以得到Kw的成交均价等信息,生成商业调研报告。上述处理流程所花费的时间,与Kw的结果数量多少有关,一个完整的抓取、处理流程约花费几小时的时间。用户还可根据不同的需求,改进数据挖掘与分析流程,生成满足自己要求的商业调研报告。具体实施例方式自动调研程序以Web服务的形式提供,用户在网页上提交需要调研的关键词,被系统接收后,自动在后台执行抓取与分析流程,最后输出自动生成的调研报告,供用户下载。权利要求1.,其特征是利用程序自动抓取Web的公开数据方法,生成低成本、及时、准确的商业调研报告。2.根据权利要求1所述的,其特征是调研原始数据来自taobao公开的页面数据,不需要人工参与,程序能够自动抓取页面并解析其中的结构化数据,进而生成商业调研报告。全文摘要可以通过采集来自互联网上的公开数据,利用程序的自动挖掘处理功能生成供网络商家、小企业进行决策的商业报告。该方法可以有效克服传统调研方法人力成本高,速度慢的缺点。利用程序自动抓取与分析的能力,可以自动获取得到大量公开的调研数据,为网络商家、小企业提供低成本、及时而又准确的商业调研报告,帮助进行合理的商业决策。文档编号G06Q30/02GK102376058SQ20101026387公开日2012年3月14日 申请日期2010年8月27日 优先权日2010年8月27日专利技术者赵颖泽 申请人:赵颖泽本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:赵颖泽
申请(专利权)人:赵颖泽
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术