基于情感分析模型的新闻推荐和文本分类方法技术

技术编号:24456501 阅读:36 留言:0更新日期:2020-06-10 15:42
本发明专利技术提供了基于情感分析模型的新闻推荐和文本分类方法,包括:爬取预设网站的历史新闻信息,同时爬取同一目标用户在不同预设网站,基于不同历史新闻信息的历史行为信息;建立历史新闻信息与历史行为信息的索引数据集;基于索引数据集,获取目标用户在预设网站点击或输入的文本信息,并对文本信息进行筛选处理,获得待分类文本集;基于预先建立的情感分析模型,对待分类文本集进行聚类分析处理,同时,基于文本分类属性模型,确定聚类分析处理结果的文本分类属性;构建与文本分类属性相关的新闻推送树,并基于新闻推送树,推送新闻信息到用户端进行显示。提高新闻推送的精准性。

News recommendation and text classification based on sentiment analysis model

【技术实现步骤摘要】
基于情感分析模型的新闻推荐和文本分类方法
本专利技术涉及计算机
,特别涉及基于情感分析模型的新闻推荐和文本分类方法。
技术介绍
随着互联网的快速发展,人们的新闻阅读习惯逐渐从传统媒体如报纸、电视转向互联网。然而,新闻应用每天提供大量的新闻,这使得用户被信息爆炸淹没。用户在观看新闻时,一般在推送的新闻中筛选几篇进行阅读,或者用户通过搜索关键词,阅读推送的与关键词相关度高的新闻信息,但是,如果用户不能准确描述自己的需求时,其获得的相关信息可能与用户预期的不符合,因此,通过此方式获取的新闻信息的精准性是不高的,因此,为了解决上述问题,提出了基于情感分析模型的新闻推荐和文本分类方法。
技术实现思路
本专利技术提供基于情感分析模型的新闻推荐和文本分类方法,用以通过建立索引数据集、进行聚类分析处理和构建新闻推送树,获得推送新闻信息,进而提高其的精准性。本专利技术实施例提供基于情感分析模型的新闻推荐和文本分类方法,包括:爬取预设网站的历史新闻信息,同时爬取同一目标用户在不同预设网站,基于不同历史新闻信息的历史行为信息本文档来自技高网...

【技术保护点】
1.基于情感分析模型的新闻推荐和文本分类方法,其特征在于,包括:/n爬取预设网站的历史新闻信息,同时爬取同一目标用户在不同预设网站,基于不同历史新闻信息的历史行为信息;/n建立所述历史新闻信息与所述历史行为信息的索引数据集;/n基于所述索引数据集,获取所述目标用户在预设网站点击或输入的文本信息,并对所述文本信息进行筛选处理,获得待分类文本集;/n基于预先建立的情感分析模型,对所述待分类文本集进行聚类分析处理,同时,基于文本分类属性模型,确定聚类分析处理结果的文本分类属性;/n构建与所述文本分类属性相关的新闻推送树,并基于所述新闻推送树,推送新闻信息到用户端进行显示。/n

【技术特征摘要】
1.基于情感分析模型的新闻推荐和文本分类方法,其特征在于,包括:
爬取预设网站的历史新闻信息,同时爬取同一目标用户在不同预设网站,基于不同历史新闻信息的历史行为信息;
建立所述历史新闻信息与所述历史行为信息的索引数据集;
基于所述索引数据集,获取所述目标用户在预设网站点击或输入的文本信息,并对所述文本信息进行筛选处理,获得待分类文本集;
基于预先建立的情感分析模型,对所述待分类文本集进行聚类分析处理,同时,基于文本分类属性模型,确定聚类分析处理结果的文本分类属性;
构建与所述文本分类属性相关的新闻推送树,并基于所述新闻推送树,推送新闻信息到用户端进行显示。


2.如权利要求1所述的方法,其特征在于,建立所述历史新闻信息与所述历史行为信息的索引数据集的步骤包括:
基于行为数据库,将所述目标用户的每次历史行为信息进行记录,同时追溯与每次历史行为信息相关的历史新闻信息;
基于时间轴,建立每次历史行为信息与对应历史新闻信息之间的一一映射关系;
根据所有映射关系,建立索引数据集。


3.如权利要求1所述的方法,其特征在于,对所述文本信息进行筛选处理,获得待分类文本集的步骤包括:
基于文本分析模型,对所述文本信息进行预处理,将所述文本信息中的第一词汇进行删除,并确定剩余文本信息中是否存在待替换文本;
若存在,将所述待替换文本进行切割处理,确定当前切割文本段与下一切割文本段和上一切割文本段的匹配值,若匹配值都不满足预设值,从文本数据库中查找与所述当前切割文本段发音相似,且与上一切割文本段和下一切割文本段相匹配的替换文本将所述当前切割文本段进行替换;
直到所述待替换文本全部替换完毕,获得待分类文本集。


4.如权利要求1所述的方法,其特征在于,基于预先建立的情感分析模型,对所述待分类文本集进行聚类分析处理的步骤包括:
基于所述待分类文本集,构建所述待分类文本集的文本矩阵向量;
同时,构建所述待分类文本集中每个文本信息的词汇矩阵向量;
根据所述文本矩阵向量和词汇矩阵向量确定所述目标用户的特征向量,并根据所述特征性向量确定所述目标用户的新闻偏好程度和新闻偏好类型;
同时,根据所述情感分析模型,并基于爬取的所述目标用户的历史行为信息,确定所述目标用户端的正负情感;
基于确定的正负情感、新闻偏好程度和新闻偏好类型,对所述待分类文本集进行聚类分析处理,确定所述待分类文本集对应的待推送新闻组。


5.如权利要求1所述的方法,其特征在于,基于爬取的所述目标用户的历史行为信息,确定所述目标用户端的正负情感的步骤包括:
基于所述历史行为信息,确定所述目标用户的搜索序列和评价序列;
确定所述搜索序列对应的第一新闻,确定所述评价序列对应的第二新闻;
获取所述第一新闻的第一序列,并基于所述情感分析模型,确定所述第一序列的第一情感;
获取所述第二新闻的第二序列,并基于所述情感分析模型,确定所述第二序列的第二情感;
将确定的第一情感进行第一正负情感分类,同时将确定的第二情感进行第二正负情感分类;
其中,确定的第一正负情感分类结果和第二正负情感分类结果,为所述目标用户的正负情感。


6.如权利要求1所述的方法,其特征在于,构建与所述文本分类属性相关的新闻推送树的步骤包括:
基于聚类分析处理结果确定的文本分类属性,确定第一属性的文本信息及对应的新闻信息,同时确定与所述第一属性相似的第二属性的文本信息及新闻信息,其中,所述第一属性为同一属性;
确定所述第一属性的第一权重值和第二属性的第二权重值,并将所有第一权重值和第二权重值按照设定的顺序进行排列;
根据所述第一属性、第二属性和第一权重值和第二权重值的排列结果,构建新闻推送树。


7.如权利要求1所述的...

【专利技术属性】
技术研发人员:张世福
申请(专利权)人:北京国新汇金股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1