一种基于数据挖掘的互联网产品调研系统技术方案

技术编号：9865907 阅读：191 留言：0更新日期：2014-04-03 01:22

一种基于数据挖掘的互联网产品调研系统，由6个模块组成：信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块、用户行为分析模块和数据展示模块。系统通过自动采集互联网上各类关于产品的信息，经过预处理之后，采用数据挖掘和自然语言处理技术进行综合分析，从而快速形成关于产品的概貌分析、产品各不同功能的市场口碑分析、不同产品对比分析、用户群体分析等不同侧面的分析结果，为产品分析、市场决策提供快速、坚实的支撑。本发明专利技术充分利用互联网信息资源优势，能够根据用户需求对产品进行调研，不但可以节约调研所需的人力物力，还能够及时反映跟踪市场动态。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据挖掘的互联网产品调研系统
本专利技术涉及一种基于数据挖掘的互联网产品调研系统及方法，属于数据挖掘、文本信息处理和互联网领域。
技术介绍
随着电子商务市场的不断发展，网络上针对产品的评论信息和权威门户网站的测评越来越多。这些信息对于企业提升产品质量、制定营销策略和企业市场产略都有极大的参考意义。然而，传统的产品调研往往采用的诸如专家访谈，调查问卷等手段往往局限于企业人力和财力的限制，受制于调研样本的大小，常常不能完整全面准确的反映市场全貌，因而对企业和商家的决策造成错误引导。更为严重的是，无论多么准确的产品调研，都需长时间的收集数据和整理数据的过程，严重滞后于市场变化，使企业不能及时地根据市场变化做出正确的调整决策。针对以上问题，基于互联网资源，自动获取网络上和待调研产品的相关信息和评论信息，采用数据挖掘和自然语言处理技术，对这些产品相关信息资源进行分析和挖掘，快速形成关于产品的概貌分析、产品各不同功能的市场口碑分析、不同产品对比分析、用户群体分析等不同侧面的分析调研结果。从而为产品分析、市场决策提供快速、坚实的支撑，实现对市场快速响应和降低调研成本的目标。
技术实现思路
本专利技术技术解决问题：克服现有技术的不足，提供一种基于数据挖掘的互联网产品调研系统，能够充分利用互联网资源，为用户提供关于产品的概貌分析、产品各不同功能的市场口碑分析、不同产品对比分析、用户群体分析等不同侧面的分析调研结果，从而能够实现市场快速响应和降低调研成本的目标。本专利技术技术解决方案：一种基于数据挖掘的互联网产品调研系统，其特征在于包括：信息采集模块、信息预处理模块、产品...

【技术保护点】
一种基于数据挖掘的互联网产品调研系统，其特征在于包括：信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块、用户行为分析模块和数据展示模块；其中：信息采集模块：根据调研需求从互联网收集与产品相关的信息，包括产品属性参数、产品相关新闻，以及产品的用户评论信息，这些信息将作为原始数据送至信息预处理模块；根据采集数据类型的不同，信息采集模块又分为产品属性信息采集器、新闻采集器和用户评论采集器三个子模块；产品属性信息采集器采集产品属性参数；新闻采集器爬取产品相关新闻；用户评论采集器采集产品相关的用户评论，产品评论中包含用户对产品的情感信息；信息预处理模块：对信息采集模块收集的原始数据进行清理和预处理，分别针对三类不同的数据进行预处理：对于产品属性信息主要是半自动地识别产品特征模板，然后通过产品特征模板将产品属性参数采集后入库；对于产品相关新闻，主要采集新闻内容、来源数据，抽取新闻网页的正文后入库；对于用户评论信息，主要采集评论的产品对象、评论用户、评论内容、时间信息；对于产品相关新闻和评论内容，还需进行各种预处理，包括：中文分词，词性标注，依存句法分析；经过预处理后的数据送至产品概貌分...

【技术特征摘要】
1.一种基于数据挖掘的互联网产品调研系统，其特征在于包括：信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块、用户行为分析模块和数据展示模块；其中：信息采集模块：根据调研需求从互联网收集与产品相关的信息，包括产品属性参数、产品相关新闻，以及产品的用户评论信息，这些信息将作为原始数据送至信息预处理模块；根据采集数据类型的不同，信息采集模块又分为产品属性信息采集器、新闻采集器和用户评论采集器三个子模块；产品属性信息采集器采集产品属性参数；新闻采集器爬取产品相关新闻；用户评论采集器采集产品相关的用户评论，产品评论中包含用户对产品的情感信息；信息预处理模块：对信息采集模块收集的原始数据进行清理和预处理，分别针对三类不同的数据进行预处理：对于产品属性信息是半自动地识别产品特征模板，然后通过产品特征模板将产品属性参数采集后入库；对于产品相关新闻，采集新闻内容、来源数据，抽取新闻网页的正文后入库；对于用户评论信息采集评论的产品对象、评论用户、评论内容、时间信息；对于产品相关新闻和评论内容，还需进行各种预处理，包括：中文分词，词性标注，依存句法分析；经过预处理后的数据送至产品概貌分析模块、情感分析模块、用户行为分析模块中；产品概貌分析模块：利用已经收集的产品属性参数和产品相关新闻采用自动文摘技术对其进行分析，产生产品的概括性描述；其中分为产品属性参数分析模块和产品摘要模块两个子模块；产品属性参数分析模块根据采集到的产品属性参数，列出产品的各特征参数，同时对产品中重要的属性词进行标识；产品摘要模块，根据采集到的产品相关新闻集合及属性参数计算属性词的词权；基于词权计算句子权重，并综合句子长度、是否陈述句、句子位置、与标题相似性、与中心句相似性以及是否包含指示性短语，训练文摘句识别分类器，从产品相关新闻集合中寻找出文摘句，生成产品的摘要描述，其中，中心句为权重最高的句子，指示性短语为具有概括意义的短语；情感分析模块：基于已经采集和预处理的产品属性参数和产品的用户评论信息，自动收集和属性相关的情感词，计算情感词与属性之间是否存在稳定的修饰关系，得到属性和情感词对模型，实现面向产品的情感分析自适应；采用情感分析技术识别出用户评论中的包含观点的句子，抽取出用户对产品以及产品各不同属性的评价和情感倾向，从而分析出用户对产品的整体口碑，以及各属性的口碑，从而得出对产品各不同侧面的分析结果；同时，通过比较用户对不同产品及其不同属性的口碑，不同产品进行对比分析，得出对比分析结果；用户行为分析模块：基于收集的用户评论信息中包含的产品、用户、评论内容、评论时间信息，同时基于情感分析模块产生的用户评论情感分析结果，形成四元组<U,P,A,S>，其中U表示用户，P表示产品，A表示产品属性，S表示情感极值；基于四元组集合，对每个用户进行描述；然后对用户的行为进行聚类分析，得到相似用户簇，从而实现产品用户的细分；同时，对这些不同的相似用户簇进行摘要分析，得出各个不同用户群体关注的内容，及其对产品各不同属性的情感倾向；数据展示模块：对产品概貌分析模块、情感分析模块以及用户行为分析模块的内容进行可视化展示，...

【专利技术属性】
技术研发人员：刘春阳，程工，庞琳，张旭，巢文涵，周庆，李舟军，
申请(专利权)人：国家计算机网络与信息安全管理中心，北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人