一种卷积神经网络的新闻用户兴趣挖掘方法技术

技术编号:22055293 阅读:38 留言:0更新日期:2019-09-07 15:16
本发明专利技术公开一种卷积神经网络的新闻用户兴趣挖掘方法:步骤一:定义兴趣标签;步骤二:训练数据构造;步骤三、词向量的语料收集与词向量训练;步骤四、构造word到token和token到word的映射,得到映射表;步骤五、在映射表基础上,对原始文本进行转换;步骤六:加载预训练好的词向量文件,构造一个词典词汇数量vocab_size*词向量维度embedding_size大小的矩阵;步骤七:将带有兴趣标签的微博文本数据接入到分类模型训练。本发明专利技术实现了一种自动构造新闻用户兴趣标签的方法,通过构建一个结合连续的语义特征CNN卷积神经网络作为兴趣文本分类器,对用户的新闻评论进行兴趣分类,得到用户的兴趣。

An Interest Mining Method for News Users Based on Convolutional Neural Network

【技术实现步骤摘要】
一种卷积神经网络的新闻用户兴趣挖掘方法
本专利技术涉及一种卷积神经网络的新闻用户兴趣挖掘方法,属于自然语言处理

技术介绍
互联网时代,每天都会不断涌现无法预计的大量新闻信息以及新闻活越用户,用户的兴趣同时反映新闻关注度,对新闻用户的兴趣挖掘对分析新闻舆情有一定的积极作用。在新闻平台中,用户的大部分舆情行为是围绕用户的兴趣展开的,例如在新闻点赞的行为、发评论的行为,都在一定程度反映用户的关注点。研究用户兴趣对企业平台具有举足轻重的意义,例如电商平台,挖掘用户兴趣,进而挖掘用户潜在感兴趣的商品,可用于商品推荐。而在内容消费平台中,从用户的一系列行为中挖掘用户的兴趣偏好,可以直接应用于内容推送,在新闻舆情分析领域中,发掘用户的兴趣有利于发现舆情走势。但是用户兴趣的研究同时也是一个难点。而现阶段,新闻用户兴趣分类主要面临问题是没有兴趣标签数据,在实现上往往依赖于人工标注与简单的关键词计算,准确率不高难以普适化。此外,在对于新闻用户的兴趣建模方面应用研究较少,迫切需求针对新闻用户的兴趣分类技术。
技术实现思路
本专利技术的目的在于提供一种卷积神经网络的新闻用户兴趣挖掘方法,以解决现有技术本文档来自技高网...

【技术保护点】
1.一种卷积神经网络的新闻用户兴趣挖掘方法,其特征在于:该方法包括两方面内容:兴趣标签构建与新闻用户兴趣分类模型的训练;具体如下:步骤一:定义兴趣标签采用微博用户兴趣类别的一阶类别,主要分为11大类,兴趣标签类别分别为财经、体育、军事、教育、法律、科技、社会、时政、文学、游戏和娱乐;步骤二:训练数据构造步骤三、词向量的语料收集与词向量训练词向量的语料收集即词向量语料库构建过程为:收集或者爬取多种来源的新闻语料数据;词向量训练过程为:随机初始化向量,遍历一次词向量训练语料库,调用gensim接口进行词向量训练,最终获得词向量结果;步骤四、构造word到token的映射和token到word的映射...

【技术特征摘要】
1.一种卷积神经网络的新闻用户兴趣挖掘方法,其特征在于:该方法包括两方面内容:兴趣标签构建与新闻用户兴趣分类模型的训练;具体如下:步骤一:定义兴趣标签采用微博用户兴趣类别的一阶类别,主要分为11大类,兴趣标签类别分别为财经、体育、军事、教育、法律、科技、社会、时政、文学、游戏和娱乐;步骤二:训练数据构造步骤三、词向量的语料收集与词向量训练词向量的语料收集即词向量语料库构建过程为:收集或者爬取多种来源的新闻语料数据;词向量训练过程为:随机初始化向量,遍历一次词向量训练语料库,调用gensim接口进行词向量训练,最终获得词向量结果;步骤四、构造word到token的映射和token到word的映射,得到映射表,以备后续模型调用词向量使用;步骤五、在映射表的基础上,对原始文本进行转换,即将文本转换为机器可识别的编码;步骤六:加载步骤三预训练好的词向量文件,基于训练好的词向量构造一个词典词汇数量vocab_size*词向量维度embedding_size大小的矩阵;步骤七:完成上述各种预处理后,将带有微博兴趣标签的微博文本数据接入到分类模型进行训练,所述的分类模型...

【专利技术属性】
技术研发人员:刘春阳王鹏张旭张翔宇陈志鹏李磊王利军
申请(专利权)人:国家计算机网络与信息安全管理中心北京天润基业科技发展股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1