一种基于数据挖掘的互联网产品调研系统技术方案

技术编号:9865907 阅读:191 留言:0更新日期:2014-04-03 01:22
一种基于数据挖掘的互联网产品调研系统,由6个模块组成:信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块、用户行为分析模块和数据展示模块。系统通过自动采集互联网上各类关于产品的信息,经过预处理之后,采用数据挖掘和自然语言处理技术进行综合分析,从而快速形成关于产品的概貌分析、产品各不同功能的市场口碑分析、不同产品对比分析、用户群体分析等不同侧面的分析结果,为产品分析、市场决策提供快速、坚实的支撑。本发明专利技术充分利用互联网信息资源优势,能够根据用户需求对产品进行调研,不但可以节约调研所需的人力物力,还能够及时反映跟踪市场动态。

【技术实现步骤摘要】
一种基于数据挖掘的互联网产品调研系统
本专利技术涉及一种基于数据挖掘的互联网产品调研系统及方法,属于数据挖掘、文本信息处理和互联网领域。
技术介绍
随着电子商务市场的不断发展,网络上针对产品的评论信息和权威门户网站的测评越来越多。这些信息对于企业提升产品质量、制定营销策略和企业市场产略都有极大的参考意义。然而,传统的产品调研往往采用的诸如专家访谈,调查问卷等手段往往局限于企业人力和财力的限制,受制于调研样本的大小,常常不能完整全面准确的反映市场全貌,因而对企业和商家的决策造成错误引导。更为严重的是,无论多么准确的产品调研,都需长时间的收集数据和整理数据的过程,严重滞后于市场变化,使企业不能及时地根据市场变化做出正确的调整决策。针对以上问题,基于互联网资源,自动获取网络上和待调研产品的相关信息和评论信息,采用数据挖掘和自然语言处理技术,对这些产品相关信息资源进行分析和挖掘,快速形成关于产品的概貌分析、产品各不同功能的市场口碑分析、不同产品对比分析、用户群体分析等不同侧面的分析调研结果。从而为产品分析、市场决策提供快速、坚实的支撑,实现对市场快速响应和降低调研成本的目标。
技术实现思路
本专利技术技术解决问题:克服现有技术的不足,提供一种基于数据挖掘的互联网产品调研系统,能够充分利用互联网资源,为用户提供关于产品的概貌分析、产品各不同功能的市场口碑分析、不同产品对比分析、用户群体分析等不同侧面的分析调研结果,从而能够实现市场快速响应和降低调研成本的目标。本专利技术技术解决方案:一种基于数据挖掘的互联网产品调研系统,其特征在于包括:信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块、用户行为分析模块和数据展示模块;其中:信息采集模块:根据调研需求从互联网收集与产品相关的信息,包括产品属性参数、产品相关新闻,以及产品的用户评论信息,这些信息将作为原始数据送至信息预处理模块;根据采集数据类型的不同,信息采集模块又分为产品属性信息采集器、新闻采集器和用户评论采集器三个子模块;产品属性信息采集器采集产品属性参数;新闻采集器爬取产品相关新闻;用户评论采集器采集产品相关的用户评论,产品评论中包含用户对产品的情感信息;信息预处理模块:对信息采集模块收集的原始数据进行清理和预处理,分别针对三类不同的数据进行预处理:对于产品属性信息主要是半自动地识别产品特征模板,然后通过产品特征模板将产品属性参数采集后入库;对于产品相关新闻,主要采集新闻内容、来源数据,抽取新闻网页的正文后入库;对于用户评论信息,主要采集评论的产品对象、评论用户、评论内容、时间信息;对于产品相关新闻和评论内容,还需进行各种预处理,包括:中文分词,词性标注,依存句法分析;经过预处理后的数据送至产品概貌分析模块、情感分析模块、用户行为分析模块中;产品概貌分析模块:利用已经收集的产品属性参数和产品相关新闻采用自动文摘技术对其进行分析,产生产品的概括性描述;其中主要分为产品属性参数分析模块和产品摘要模块两个子模块;产品属性参数分析模块根据采集到产品属性参数,列出产品的各特征参数,同时对产品中较为重要的属性词进行标识;产品摘要模块,根据采集到的产品相关新闻集合及属性参数计算属性词的词权;基于词权计算句子权重,并综合其他各种特征,训练文摘句识别分类器,从产品相关新闻集合中寻找出文摘句,生成产品的摘要描述;情感分析模块:基于已经采集和预处理的产品属性参数和产品的用户评论信息,自动收集和属性相关的情感词,计算情感词与属性之间的稳固程度,得到属性和情感词对模型,实现面向产品的情感分析自适应;采用情感分析技术识别出用户评论中的观点句,抽取出用户对产品以及产品各不同属性的评价和情感倾向,从而分析出用户对产品的整体口碑,以及各主要属性的口碑,从而得出对产品各不同侧面的分析结果;同时,通过比较用户对不同产品及其不同属性的口碑,不同产品进行对比分析,得出对比分析结果;用户行为分析模块:基于收集的用户评论信息中包含的产品、用户、评论内容、评论时间等信息,同时基于情感分析模块产生的用户评论情感分析结果,形成四元组<U,P,A,S>,其中U表示用户,P表示产品,A表示产品属性,S表示情感极值。基于四元组集合,对每个用户进行描述;然后对用户的行为进行聚类分析,得到相似用户簇,从而实现产品用户的细分;同时,对这些不同的相似用户簇进行摘要分析,得出各个不同用户群体主要关注的内容,及其对产品各不同属性的情感倾向;数据展示模块:对概貌分析模块、情感分析模块以及用户分析模块的内容进行可视化展示,使用户能够方便地查看产品分析的结果,及分析结果对应的支持数据。所述产品概貌分析模块中,针对采集到的产品相关新闻集合及属性参数,计算属性词的词权,其计算公式如下:其中,TF(i)为词i出现的频数,N为数据集合中句子的个数,ni为出现了词i的句子,Wi是词权。所述产品概貌分析模块中,基于词权计算句子权重,并综合其他各种特征,训练文摘句识别分类器,从产品相关新闻集合中寻找出文摘句,生成产品的摘要描述中的特征包括:句子权重、句子长度、是否陈述句、句子位置、与标题相似度、与中心句相似性,是否包含指示性短语,其中,句子权重是基于词权将句子中包含的各属性词的权重加和,其计算公式如下:其中,Wi是词权,c是句子中包含的属性词的个数,weights是句子的权重。通过提取句子权重以及其他各种特征,即可训练相应文摘句分类器,用于判断每个句子是否文摘句,将文摘句综合起来形成产品的文摘描述。所述自动收集和产品属性词相关的情感词是计算情感词与产品属性词之间的PMI值,从而确定情感词与属性词之间的连接强度;所述PMI值的计算公式如下:其中,word1和word2分别表示属性词和情感词,p(word1&word2)是word1和word2共同出现的概率,p(word1)是word1出现的概率,p(word2)是word2出现的概率,两者的比值是word1和word2统计独立性的度量,值为零时两者统计独立,值越大两者的统计相关性也越大。在情感分析模块中,所述采用情感分析技术识别出用户评论中的观点句过程为:首先抽取和观点句相关的4种特征,包括观点主张词、观点指示词、观点持有者和目标,训练处观点句识别分类器,能够对新的句子进行分类,判断其是否观点句。在用户行为分析模块中,所述相似用户簇的获取过程是:(1)基于情感分析结果,对已经收集的每条用户评论信息构建相应的四元组<U,P,A,S>,其中U表示用户,P表示产品,A表示产品属性,S表示情感极值;(2)形成对每个用户的描述,即收集每个用户相关的四元组,形成每个用户对应的四元组集合,它们可看作是用户的描述;(3)基于用户的描述集合,对用户进行聚类分析,形成相似用户簇;(4)最后,对相似用户簇进行描述:基于每个相似用户簇中的四元组集合,从中挑选出最能描述用户簇的N个属性词及情感词对。本专利技术与现有技术相比的优点在于:(1)本专利技术能够自动从互联网上采集和产品相关的属性信息、新闻信息和用户评论信息,并采用数据挖掘和文本处理技术实现对产品的多角度分析,从而快速形成对产品的调研结果,大大降低传统产品调研的成本,提高产品调研的效率;(2)本专利技术在产品概貌分析过程中,充分考虑了属性本文档来自技高网...
一种基于数据挖掘的互联网产品调研系统

【技术保护点】
一种基于数据挖掘的互联网产品调研系统,其特征在于包括:信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块、用户行为分析模块和数据展示模块;其中:信息采集模块:根据调研需求从互联网收集与产品相关的信息,包括产品属性参数、产品相关新闻,以及产品的用户评论信息,这些信息将作为原始数据送至信息预处理模块;根据采集数据类型的不同,信息采集模块又分为产品属性信息采集器、新闻采集器和用户评论采集器三个子模块;产品属性信息采集器采集产品属性参数;新闻采集器爬取产品相关新闻;用户评论采集器采集产品相关的用户评论,产品评论中包含用户对产品的情感信息;信息预处理模块:对信息采集模块收集的原始数据进行清理和预处理,分别针对三类不同的数据进行预处理:对于产品属性信息主要是半自动地识别产品特征模板,然后通过产品特征模板将产品属性参数采集后入库;对于产品相关新闻,主要采集新闻内容、来源数据,抽取新闻网页的正文后入库;对于用户评论信息,主要采集评论的产品对象、评论用户、评论内容、时间信息;对于产品相关新闻和评论内容,还需进行各种预处理,包括:中文分词,词性标注,依存句法分析;经过预处理后的数据送至产品概貌分析模块、情感分析模块、用户行为分析模块中;产品概貌分析模块:利用已经收集的产品属性参数和产品相关新闻采用自动文摘技术对其进行分析,产生产品的概括性描述;其中主要分为产品属性参数分析模块和产品摘要模块两个子模块;产品属性参数分析模块根据采集到产品属性参数,列出产品的各特征参数,同时对产品中较为重要的属性词进行标识;产品摘要模块,根据采集到的产品相关新闻集合及属性参数计算属性词的词权;基于词权计算句子权重,并综合其他各种特征,训练文摘句识别分类器,从产品相关新闻集合中寻找出文摘句,生成产品的摘要描述;情感分析模块:基于已经采集和预处理的产品属性参数和产品的用户评论信息,自动收集和属性相关的情感词,计算情感词与属性之间的稳固程度,得到属性和情感词对模型,实现面向产品的情感分析自适应;采用情感分析技术识别出用户评论中的观点句,抽取出用户对产品以及产品各不同属性的评价和情感倾向,从而分析出用户对产品的整体口碑,以及各主要属性的口碑,从而得出对产品各不同侧面的分析结果;同时,通过比较用户对不同产品及其不同属性的口碑,不同产品进行对比分析,得出对比分析结果;用户行为分析模块:基于收集的用户评论信息中包含的产品、用户、评论内容、评论时间等信息,同时基于情感分析模块产生的用户评论情感分析结果,形成四元组, 其中U表示用户,P表示产品,A表示产品属性,S表示情感极值。基于四元组集合,对每个用户进行描述;然后对用户的行为进行聚类分析,得到相似用户簇,从而实现产品用户的细分;同时,对这些不同的相似用户簇进行摘要分析,得出各个不同用户群体主要关注的内容,及其对产品各不同属性的情感倾向;数据展示模块:对概貌分析模块、情感分析模块以及用户分析模块的内容进行可视化展示,使用户能够方便地查看产品分析的结果,及分析结果对应的支持数据。...

【技术特征摘要】
1.一种基于数据挖掘的互联网产品调研系统,其特征在于包括:信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块、用户行为分析模块和数据展示模块;其中:信息采集模块:根据调研需求从互联网收集与产品相关的信息,包括产品属性参数、产品相关新闻,以及产品的用户评论信息,这些信息将作为原始数据送至信息预处理模块;根据采集数据类型的不同,信息采集模块又分为产品属性信息采集器、新闻采集器和用户评论采集器三个子模块;产品属性信息采集器采集产品属性参数;新闻采集器爬取产品相关新闻;用户评论采集器采集产品相关的用户评论,产品评论中包含用户对产品的情感信息;信息预处理模块:对信息采集模块收集的原始数据进行清理和预处理,分别针对三类不同的数据进行预处理:对于产品属性信息是半自动地识别产品特征模板,然后通过产品特征模板将产品属性参数采集后入库;对于产品相关新闻,采集新闻内容、来源数据,抽取新闻网页的正文后入库;对于用户评论信息采集评论的产品对象、评论用户、评论内容、时间信息;对于产品相关新闻和评论内容,还需进行各种预处理,包括:中文分词,词性标注,依存句法分析;经过预处理后的数据送至产品概貌分析模块、情感分析模块、用户行为分析模块中;产品概貌分析模块:利用已经收集的产品属性参数和产品相关新闻采用自动文摘技术对其进行分析,产生产品的概括性描述;其中分为产品属性参数分析模块和产品摘要模块两个子模块;产品属性参数分析模块根据采集到的产品属性参数,列出产品的各特征参数,同时对产品中重要的属性词进行标识;产品摘要模块,根据采集到的产品相关新闻集合及属性参数计算属性词的词权;基于词权计算句子权重,并综合句子长度、是否陈述句、句子位置、与标题相似性、与中心句相似性以及是否包含指示性短语,训练文摘句识别分类器,从产品相关新闻集合中寻找出文摘句,生成产品的摘要描述,其中,中心句为权重最高的句子,指示性短语为具有概括意义的短语;情感分析模块:基于已经采集和预处理的产品属性参数和产品的用户评论信息,自动收集和属性相关的情感词,计算情感词与属性之间是否存在稳定的修饰关系,得到属性和情感词对模型,实现面向产品的情感分析自适应;采用情感分析技术识别出用户评论中的包含观点的句子,抽取出用户对产品以及产品各不同属性的评价和情感倾向,从而分析出用户对产品的整体口碑,以及各属性的口碑,从而得出对产品各不同侧面的分析结果;同时,通过比较用户对不同产品及其不同属性的口碑,不同产品进行对比分析,得出对比分析结果;用户行为分析模块:基于收集的用户评论信息中包含的产品、用户、评论内容、评论时间信息,同时基于情感分析模块产生的用户评论情感分析结果,形成四元组<U,P,A,S>,其中U表示用户,P表示产品,A表示产品属性,S表示情感极值;基于四元组集合,对每个用户进行描述;然后对用户的行为进行聚类分析,得到相似用户簇,从而实现产品用户的细分;同时,对这些不同的相似用户簇进行摘要分析,得出各个不同用户群体关注的内容,及其对产品各不同属性的情感倾向;数据展示模块:对产品概貌分析模块、情感分析模块以及用户行为分析模块的内容进行可视化展示,...

【专利技术属性】
技术研发人员:刘春阳程工庞琳张旭巢文涵周庆李舟军
申请(专利权)人:国家计算机网络与信息安全管理中心北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1