【技术实现步骤摘要】
一种面向纺织流行趋势的舆情监测系统
[0001]本专利技术涉及一种服装行业舆论舆情监控系统,具体涉及一种面向纺织流行趋势的舆情监测系统,属于信息监测
技术介绍
[0002]随着互联网的快速发展,人们越来越多的在互联网上交流自己的想法,如微博,小红书等社交软件迅速成长。对于服装行业而言,及时获取社交软件中的舆论风向就愈发的重要。爬虫作为主要的数据获取工具,也得到了迅速的发展。但出于各种各样的目的,各家网站纷纷采用Ajax异步加载等措施阻止爬虫爬取数据,增加了爬取数据的难度。
[0003]自然语言处理近年来已经成为了人工智能领域的研究重点,在机器翻译,语音识别,搜索理解,内容风控,拼写检查等领域已经发挥了巨大的作用,可以说,自然语言处理技术已经成为我们生活的一部分。但是目前的自然语言处理的通用性和识别准确性上依然存在巨大的进步空间。而目前随着各类神经网络的快速发展,将自然语言处理技术与神经网络结合,已经成为该领域的一个主要的研究方向。
[0004]针对服装行业的舆情监测,为了追求更加良好的训练效 ...
【技术保护点】
【技术特征摘要】
1.一种面向纺织流行趋势的舆情监测系统,其特征在于:包括1),selenium爬虫,用于绕开反爬措施进行网络文本信息的获取,获取大量的语料信息;2),语料库构建,利用爬虫获取的大量的文本信息,对其进行数据清洗,构建出针对服装业的语料库;3),构建情绪分类模型,引入注意力机制的RCNN模型;4),可视化单元:用于接受用户输入的信息以及分析结果的呈现。2.如权利要求1所述的面向纺织流行趋势的舆情监测系统,其特征在于:所述步骤)具体为:1
‑
1),安装与浏览器版本匹配的浏览器驱动;1
‑
2),利用初始URL,进入目标页面,并根据成功选择器判断页面是否加载成功;1
‑
3),未加载成功时,重新加载;1
‑
4),加载成功,根据给定条件获取文本信息;1
‑
5),判断是否存在翻页符号,根据所述完成翻页操作,直至所有页面文本信息获取完毕;1
‑
6),将获取到的文本信息以csv格式保存至MySQL数据库中。3.如权利要求1所述的面向纺织流行趋势的舆情监测系统,其特征在于:所述步骤2)具体为:2
‑
1),对步骤1
‑
6)中的爬取到的非情绪数据进行有无情绪的标注,对无情绪语料进行筛除;2
‑
2),对主要情绪倾向进行判断,确定语料的主要情绪并标注;标注方式规则如下:两人一组,分两组;未标语料分为两份,每组一份;每组标注过程中,两人分别标注,若结果相同则保留,不同则取出;第一组标注完成后,将取出语料交由第二组标注,若仍不一致,则去除该语料信息。4.如权利要求1所述的面向纺织流行趋势的舆情监测系统,其特征在于:所述步骤3)具体为:3
‑
1),构建基于注意力池化的RCNN模型;所述RCNN模型由学习层,最大池化层及输出层构成;3
‑
2),将文本输入学习层的双循环结构中,获得上下文信息,再与原本的词向量结合,生成新词的词向量表示;3
‑
3),词向量通过tanh,softmax函数输出后转换为概率分布,得出最终的分类结果。5.如权利要求4所述的面向纺织流行趋势的舆情监测系统,其特征在于:所述步骤3
‑
2)中,以e
i
表示第i个单词w
i
的词向量,其维度为d,设l
i
表示单词w
i
的上文,r
i
表示单词w
i
的下文,l
i
与r
i
均为维度c的向量;单词w
i
的上文l
i
和下...
【专利技术属性】
技术研发人员:向忠,姚鑫宇,张睿,周光宝,钱淼,
申请(专利权)人:杭州知衣科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。