【技术实现步骤摘要】
新闻内容推送方法、装置、存储介质及计算机设备
本专利技术涉及互联网信息处理
,特别涉及一种新闻内容推送方法、装置、存储介质及计算机设备。
技术介绍
随着互联网信息技术的普及,人们可以通过互联网快速获取各种信息及资源。采集的新闻数据大多以url链接存储,为了挖掘出新闻的价值,须解析url提取新闻正文内容;在新闻提取过程中,需要进行正文内容提取以获取url链接内与新闻内容关联的正文内容,正文内容中关键词的提取往往决定着对应采集的新闻数据定位分类的精准性。目前大多正文内容的关键词提取方式比较单一,以使得对于采集的新闻数据的关键词提取不精确,以使进行同类相似性新闻查询推送时,不能获得较为有效的新闻信息。
技术实现思路
基于此,本专利技术的目的是提供一种新闻内容推送方法,以提升对于新闻信息获取的精准性。本专利技术提供一种新闻内容推送方法,其中,所述方法包括:获取多个新闻url链接,并解析得到对应的多个文本内容;对每个所述文本内容进行分词并提取名词性词语;采用多种 ...
【技术保护点】
1.一种新闻内容推送方法,其特征在于,所述方法包括:/n获取多个新闻url链接,并解析得到对应的多个文本内容;/n对每个所述文本内容进行分词并提取名词性词语;/n采用多种关键词提取算法对当前文本内容的名词性词语进行关键词提取,得到每种方法对应提取的多个关键词,根据每种方法提取的所述关键词累计查重,并确定重复数最多的若干目标关键词;/n将所述目标关键词与所述文本内容匹配,并在所述文本内容中筛选出只含有所述目标关键词的关键词文本并作为文本特征;/n通过计算不同的所述文本内容的文本特征之间的相似性对预测模型进行训练,得到各个文本内容之间的相似度值,利用训练后的预测模型对待查询文本 ...
【技术特征摘要】
1.一种新闻内容推送方法,其特征在于,所述方法包括:
获取多个新闻url链接,并解析得到对应的多个文本内容;
对每个所述文本内容进行分词并提取名词性词语;
采用多种关键词提取算法对当前文本内容的名词性词语进行关键词提取,得到每种方法对应提取的多个关键词,根据每种方法提取的所述关键词累计查重,并确定重复数最多的若干目标关键词;
将所述目标关键词与所述文本内容匹配,并在所述文本内容中筛选出只含有所述目标关键词的关键词文本并作为文本特征;
通过计算不同的所述文本内容的文本特征之间的相似性对预测模型进行训练,得到各个文本内容之间的相似度值,利用训练后的预测模型对待查询文本进行预测,得到与各个所述文本内容对应的相似度值;
对各个所述文本内容的相似度值排序,获取并推送若干篇相似度值最高的所述文本内容对应的新闻。
2.根据权利要求1所述的新闻内容推送方法,其特征在于,获取所述文本内容的步骤包括:
获取网页的根节点;
若所述根节点下存在子节点,则获取所述根节点下所有子节点,
统计子节点下句号的总数,并取句号最多的子节点作为下级筛选节点;
获取所述下级筛选节点中句号的总数与所述根节点的句号总数比值;
若比值大于预设值,则将所述下级筛选节点作为新的根节点,并返回执行获取所述根节点下所有子节点的步骤。
3.根据权利要求2所述的新闻内容推送方法,其特征在于,所述获取网页的根节点的步骤之后还包括;
若所述根节点下不存在子节点,则获取当前子节点上一级节点的所述文本内容。
4.根据权利要求2所述的新闻内容推送方法,其特征在于,所述比值小于或等于预设值时,还包括以下步骤;
获取所述当前下级筛选节点的上一级节点的所述文本内容。
5.根据权利要求1所述的新闻内容推送方法,其特征在于,所述关键词提取的算法为TF-IDF、Textrank、LDA中的任意一种。
6.根据权利要求1所述的新闻内容推送方法,其特征在于,所述利用训练后的预测模型与待查询文本进行预测的步骤之前还包括:
获取待查信息,将所述待查信息进...
【专利技术属性】
技术研发人员:甘宇,夏志超,王君,张雷,袁海光,李振刚,刘斯凡,
申请(专利权)人:江西汉辰信息技术股份有限公司,深圳京发科技控股有限公司,
类型:发明
国别省市:江西;36
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。