一种自动发现热点关键词和热点新闻的方法技术

技术编号:27935607 阅读:12 留言:0更新日期:2021-04-02 14:15
本发明专利技术涉及一种自动发现热点关键词和热点新闻的方法,包括以下步骤:提取各新闻的主题关键词;计算预设周期内各主题关键词所对应新闻数量与预设周期内新增的新闻数量的比值,以得到预设周期内各主题关键词所对应新闻的占比;计算各主题关键词在预设历史时间段内的占比平均值和占比标准差;根据各主题关键词在预设历史时间段内的占比平均值和占比标准差计算各主题关键词的热度值;若热度值大于预设热门阈值,则判断热度值所对应的主题关键词为热点关键词;根据所述热点关键词查找对应热点新闻。本发明专利技术通过自动获取、计算和筛查得到热点关键词和热点新闻,节省了人工成本,也降低了中小企业和个人及时自动获取热点关键词和热点新闻的门槛。

【技术实现步骤摘要】
一种自动发现热点关键词和热点新闻的方法
本专利技术涉及互联网应用
,特别涉及一种自动发现热点关键词和热点新闻的方法。
技术介绍
当今的互联网时代,每天都会产生海量的新闻资讯信息,并且这些资讯信息每时每刻都在通过互联网以极快的速度在全世界各地传播。如何在这些海量的信息中快速获得有价值的热点信息,在金融投资、管理决策等领域变得至关重要。目前已有的热点新闻发现方法主要有人工编辑的方法和通过用户行为数据计算得到热点信息的方法。对于人工编辑的方法,需要聘用专业的编辑,每天阅读、整理和编辑海量的新闻,费时费力,人工成本高昂。通过用户行为数据计算则是类似百度、谷歌这样的大型互联网搜索公司所采用的通过用户搜索记录排序、点击量、页面访问量以及分享率等大量的用户行为数据计算得到当前人们关注的热点,但对于大多数公司和个人,没有足够的用户行为数据通过类似的方法得到当前的热点信息。因此有必要提供一种自动发现热点关键词和热点新闻的方法,以解决现有中小企业难以自动获取热点关键词和热点新闻,导致在投资和决策等中失去先机的问题。
技术实现思路
本专利技术的目的在于提供一种自动发现热点关键词和热点新闻的方法,以解决现有中小企业难以自动获取热点关键词和热点新闻,导致在投资和决策等中失去先机的问题。为了解决现有技术中存在的问题,本专利技术提供了一种自动发现热点关键词和热点新闻的方法,包括以下步骤:提取各新闻的主题关键词;计算预设周期内各主题关键词所对应新闻数量与预设周期内新增的新闻数量的比值,以得到预设周期内各主题关键词所对应新闻的占比;计算各主题关键词在预设历史时间段内的占比平均值和占比标准差;根据各主题关键词在预设历史时间段内的占比平均值和占比标准差计算各主题关键词的热度值;若热度值大于预设热门阈值,则判断热度值所对应的主题关键词为热点关键词;根据所述热点关键词查找对应热点新闻。可选的,在所述自动发现热点关键词和热点新闻的方法中,热度值的计算公式为:Hot(w)=(Proportion(w)-Mean(w))/Std(w),其中,w为待计算热度值的主题关键词,Hot(w)为该主题关键词的热度值,Proportion(w)为预设周期内该主题关键词所对应新闻当前的占比,Mean(w)为该主题关键词在预设历史时间段内的占比平均值,Std(w)为该主题关键词在预设历史时间段内的占比标准差。可选的,在所述自动发现热点关键词和热点新闻的方法中,占比平均值的计算方式为:M=(P1+P2+……Pn)/n,其中,M为任一主题关键词在预设历史时间段内的占比平均值,P1到Pn为在预设历史时间段内计算的该主题关键词所对应新闻的占比,n为在预设历史时间段内该主题关键词所对应新闻的占比的个数。可选的,在所述自动发现热点关键词和热点新闻的方法中,占比标准差的计算方式为:Std=sqrt(((P1-M)^2+(P2-M)^2+......(Pn-M)^2)/n),其中,Std为任一主题关键词在预设历史时间段内的占比标准差,P1到Pn为在预设历史时间段内计算的该主题关键词所对应新闻的占比,M为该主题关键词在预设历史时间段内的占比平均值,n为在预设历史时间段内该主题关键词所对应新闻的占比的个数。可选的,在所述自动发现热点关键词和热点新闻的方法中,按照预设频率计算预设周期内各主题关键词所对应新闻的占比,以及时更新所述占比。可选的,在所述自动发现热点关键词和热点新闻的方法中,所述预设频率包括:30分钟、1个小时或2个小时;所述预设周期包括:1天、1周或1个月;所述预设历史时间段包括:1个月、1个季度或2个季度。可选的,在所述自动发现热点关键词和热点新闻的方法中,所述预设热门阈值包括:2.8、3.0或3.2。可选的,在所述自动发现热点关键词和热点新闻的方法中,提取各主题关键词的方式包括以下步骤:采用TextRank算法获取各新闻主题中的关键词;采用机器学习分类器对获取的关键词进行分类;得到不同类别的主题关键词。可选的,在所述自动发现热点关键词和热点新闻的方法中,从海量新闻中提取各新闻的主题关键词。可选的,在所述自动发现热点关键词和热点新闻的方法中,将提取的各主题关键词作为各对应新闻的标签存入数据库备用;将预设周期内各主题关键词所对应新闻的占比存入数据库备用。在本专利技术所提供的自动发现热点关键词和热点新闻的方法中,通过计算预设周期内各主题关键词所对应新闻的占比、占比平均值、占比标准差和热度值等,使本专利技术能够完全自动、及时地从数据库中海量杂乱无章的新闻资讯中计算出当前的热点关键词,并以这些热点关键词为基础,找出与之对应的热点新闻。本专利技术整个过程不需要任何的人工干预,也不需要收集和使用任何用户行为数据。节省了人工成本,也降低了中小企业和个人及时自动获取热点关键词和热点新闻的门槛。附图说明图1为本专利技术实施例提供的自动发现热点关键词和热点新闻的方法的流程图;图2为本专利技术实施例提供的主题关键词所对应新闻占比的变化趋势图;图3为本专利技术实施例提供的热点关键词所对应热点新闻的展示图。具体实施方式下面将结合示意图对本专利技术的具体实施方式进行更详细的描述。根据下列描述,本专利技术的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本专利技术实施例的目的。在下文中,如果本文所述的方法包括一系列步骤,则本文所呈现的这些步骤的顺序并非必须是可执行这些步骤的唯一顺序,且一些所述的步骤可被省略和/或一些本文未描述的其他步骤可被添加到该方法中。目前已有的热点新闻发现方法主要有人工编辑的方法和通过用户行为数据计算得到热点信息的方法。对于人工编辑的方法,存在费时费力,人工成本高昂等问题;通过用户行为数据计算的方法,相对于大多数公司和个人而言,没有足够的用户行为数据参与行为数据计算得到当前的热点信息。因此有必要提供一种自动发现热点关键词和热点新闻的方法,如图1所示,图1为本专利技术实施例提供的自动发现热点关键词和热点新闻的方法的流程图,所述自动发现热点关键词和热点新闻的方法包括以下步骤:提取各新闻的主题关键词;计算预设周期内各主题关键词所对应新闻数量与预设周期内新增的新闻数量的比值,以得到预设周期内各主题关键词所对应新闻的占比;计算各主题关键词在预设历史时间段内的占比平均值和占比标准差;根据各主题关键词在预设历史时间段内的占比平均值和占比标准差计算各主题关键词的热度值;若热度值大于预设热门阈值,则判断热度值所对应的主题关键词为热点关键词;根据所述热点关键词查找对应热点新闻。本专利技术通过计算预设周期内各主题关键词所对应新闻的占比、占比平均值、占比标准差和热度值等,使本专利技术能够完全自动、及时地从数据库中海量杂乱无章的新闻资讯中计算出当前的热点关键词,本文档来自技高网...

【技术保护点】
1.一种自动发现热点关键词和热点新闻的方法,其特征在于,包括以下步骤:/n提取各新闻的主题关键词;/n计算预设周期内各主题关键词所对应新闻数量与预设周期内新增的新闻数量的比值,以得到预设周期内各主题关键词所对应新闻的占比;/n计算各主题关键词在预设历史时间段内的占比平均值和占比标准差;/n根据各主题关键词在预设历史时间段内的占比平均值和占比标准差计算各主题关键词的热度值;/n若热度值大于预设热门阈值,则判断热度值所对应的主题关键词为热点关键词;/n根据所述热点关键词查找对应热点新闻。/n

【技术特征摘要】
1.一种自动发现热点关键词和热点新闻的方法,其特征在于,包括以下步骤:
提取各新闻的主题关键词;
计算预设周期内各主题关键词所对应新闻数量与预设周期内新增的新闻数量的比值,以得到预设周期内各主题关键词所对应新闻的占比;
计算各主题关键词在预设历史时间段内的占比平均值和占比标准差;
根据各主题关键词在预设历史时间段内的占比平均值和占比标准差计算各主题关键词的热度值;
若热度值大于预设热门阈值,则判断热度值所对应的主题关键词为热点关键词;
根据所述热点关键词查找对应热点新闻。


2.如权利要求1所述的自动发现热点关键词和热点新闻的方法,其特征在于,热度值的计算公式为:Hot(w)=(Proportion(w)-Mean(w))/Std(w),其中,w为待计算热度值的主题关键词,Hot(w)为该主题关键词的热度值,Proportion(w)为预设周期内该主题关键词所对应新闻当前的占比,Mean(w)为该主题关键词在预设历史时间段内的占比平均值,Std(w)为该主题关键词在预设历史时间段内的占比标准差。


3.如权利要求1所述的自动发现热点关键词和热点新闻的方法,其特征在于,占比平均值的计算方式为:
M=(P1+P2+……Pn)/n,其中,M为任一主题关键词在预设历史时间段内的占比平均值,P1到Pn为在预设历史时间段内计算的该主题关键词所对应新闻的占比,n为在预设历史时间段内该主题关键词所对应新闻的占比的个数。


4.如权利要求1所述的自动发现热点关键词和热点新闻的方法,其特征在于,占比标准差的计算方式为:
Std=sqrt(((P1-M)^2+(P2...

【专利技术属性】
技术研发人员:尹扬
申请(专利权)人:上海朝阳永续信息技术股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1