【技术实现步骤摘要】
基于大数据文本挖掘的消费者政策感知分析方法及系统
[0001]本专利技术涉及数据挖掘
,尤其涉及基于大数据文本挖掘的消费者政策感知挖掘,具体为一种基于大数据文本挖掘的消费者政策感知分析方法及系统。
技术介绍
[0002]研究消费者对于政策的感知具有重大的现实意义。对消费者的政策感知进行研究,就是研究消费者对政策的关注内容、关注程度、对政策合理性、必要性的评价和情感态度等。
[0003]随着互联网技术的普及,越来越多的消费者在网上发表自己的评论,形成大量消费者生成内容(UGC),这些在社交媒体平台上产生的大量文本数据很大程度上地反映了消费者内心的真实想法,对其进行分析可以把握消费者的关注热点及情感态度。同时,政府网站上不断增长的政策文本数据作为一种公开、可获取的信息资源,也蕴含着许多信息,对其进行深入挖掘分析是追溯政策意图、把握决策者态度的一个重要途径。在政策研究方面,传统的内容分析法主要依赖专家学者对政策文本内容进行研究,工作量大且覆盖面窄,效率低下。随着大数据技术的不断发展,定量分析的方法在政策文本挖掘分析研 ...
【技术保护点】
【技术特征摘要】
1.基于大数据文本挖掘的消费者政策感知分析方法,其特征在于,包括:获取政策文本数据及消费者评论文本数据并进行预处理;基于预处理后的文本数据构建政策语料库;基于政策语料库进行消费者政策感知分析。2.根据权利要求1所述基于大数据文本挖掘的消费者政策感知分析方法,其特征在于,获取政策文本数据及消费者评论文本数据的步骤进一步包括:确定数据源;利用网络爬虫工具采集政策文本数据和对应消费者评论文本数据;对采集的数据源进行随机抽样,并与爬取到的数据进行匹配校验;若爬取到的数据通过校验,则将对应数据作本地持久化存储。3.根据权利要求1所述基于大数据文本挖掘的消费者政策感知分析方法,其特征在于,预处理进一步包括去重、去噪及文本短句删除。4.根据权利要求1所述基于大数据文本挖掘的消费者政策感知分析方法,其特征在于,基于预处理后的文本数据构建政策语料库进一步包括:对预处理后的政策文本和消费者评论文本数据进行词语拆分,并统计所有产生的词语的词频;基于词频统计结果进行点间互信息筛选;基于点间互信息筛选结果进行左右信息熵筛选;基于左右信息熵筛选结果进行停用词及常见通用词汇的去除,得到政策专业词汇;由专家知识语料库对得到的政策专业词汇进行筛选,并完善识别消费者评论中与政策感知相关的词汇,对筛选和完善后的词汇按照政策分类分为四类,形成最终的政策语料库。5.根据权利要求1所述基于大数据文本挖掘的消费者政策感知分析方法,其特征在于,执行消费者政策感知挖掘分析进一步包括:将消费者分为不同类别;在不同类别消费者中挖掘评论数据,包括词频强度分析、话题识别、语义网络分析、情感倾向分析;比较不同类别消费者的挖掘分析结果,得到不同消费者群体对于不同类别政策感知的差异。6.根据权利要求5所述基于大数据文本挖掘的消费者政策感知分析方法,其特征在于,词频强度分析进一步包括:将构建的政策语料库以及相关领域细胞词库导入自定义词典,利用jieba进行消费者评论文本的分词,并统计词频强度;将词频结果按照政策分类划分,并根据词频强度生成对应词...
【专利技术属性】
技术研发人员:刘勤,詹若贤,贾梦婷,谢春晖,温晓楠,
申请(专利权)人:武汉理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。