【技术实现步骤摘要】
雪茄烟消费者需求洞查的数据字典构建方法
[0001]本专利技术涉及信息检索、自然语言处理和模式识别与匹配领域,具体涉及雪茄烟消费者需求洞查的数据字典构建方法。
技术介绍
[0002]消费洞察是理解消费者,并结合消费者心理、行为变化在运营决策中做出及时的反应,为运营决策的成效奠定基础。消费洞察包括洞察趋势、洞察市场、洞察消费者,而方法有趋势洞察、大数据洞察、体验洞察等,对于趋势洞察烟草行业都寻找第三方咨询公司完成消费洞察,而聘请第三方公司的消费洞察成本高;时延长,而今天消费市场的变化速度快,有时市场调研做到一半,消费的趋势可能发生了变化。
[0003]目前烟草行业积极响应国家号召,把数字化转型作为工作重点,但是由于烟草化“竖井式”建设模式,导致“职业壁垒”、“数据孤岛”、“业务孤岛”等问题,零散和不在线业务数据不具备消费者实时洞察能力,不能够及时响应消费者需求,同时不能获得消费者消费趋势,决策部门在决策时面临的诸多问题。针对烟草行业中数据特点,为了解决大数据分析数据集质量不高的问题,需要建立一个基于数据库的雪茄烟消费者
【技术保护点】
【技术特征摘要】
1.雪茄烟消费者需求洞查的数据字典构建方法,其特征在于,包括以下步骤,S1,数据源构建:分析搜索引擎的雪茄需求图谱,获取消费者关注度高的关键词,针对这些关键词,对需求图谱中的相关词热度中的词汇进行数据抓取并存入数据库;S2,对采集数据进行归类:通过搜索引擎查询关键词以获得与雪茄之间的联系,查询后概括出关键词属于雪茄相关的类别,以此形成雪茄的关联规则库,这样就不用对每个关键词进行搜索,按照关联规则,遍历存储关键词的文档,实现关键词自动分类;S3,对归类数据的聚类:数据归类完成后,采用复杂网络中社区划分方法,实现对归类数据的聚类;S4,数据字典建立:把原始数据、归类数据和复杂网络分类结果整合,建立数据字典并进行可视化展示,随着数据源更新,数据字典也在不断地扩充。2.根据权利要求1所述的雪茄烟消费者需求洞查的数据字典构建方法,其特征在于,所述步骤S1中分析搜索引擎的雪茄需求图谱的过程如下:通过搜索引擎搜索关键词“雪茄”,对一个时间段出现需求图谱进行研究,统计需求图谱反应“雪茄”搜索指数高的关键词,依次统计每周出现的需求图谱,并进行频次统计,然后剔除频次低于10次的关键词。3.根据权利要求2所述的雪茄烟消费者需求洞查的数据字典构建方法,其特征在于,所述步骤S1,对需求图谱中的相关词热度中的词汇进行数据抓取并存入数据库的过程如下:首先获取搜索引擎的搜索指数要爬取url,采用requrests模块中的get请求获取需求图谱页面一整页源码数据,按照如此编程思路,运行代码发现不能获取一整页源码数据;紧接着,编写程序模拟登录搜索引擎,登录后在调用requests模块中的get请求获取需求图谱一整页源码数据,有了一整页源码数据采用xpath解析源码数据,得到相关词热度板块中的关键词,同时调用Python中xrld模块建立保存文件,并把解析出关键词存入文档中;最后整合各个模块,调用各个模块中子程序,编写整个主程序,完成爬取和存储整个过程,根据搜索引擎指数数据更新周期编写时间函数,实现存储文件的实时更新...
【专利技术属性】
技术研发人员:尹健康,谭方文,刘宁,张卫东,陈奕江,王柯轲,宋红文,江海,张建,杨帆,陶林,刘颖,唐艺楠,陈思佚,郑胜东,徐欣宇,羊正军,欧达宇,刘平,陈立伟,曾立胜,
申请(专利权)人:四川省烟草公司成都市公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。