【技术实现步骤摘要】
一种自动发现热点关键词和热点新闻的方法
本专利技术涉及互联网应用
,特别涉及一种自动发现热点关键词和热点新闻的方法。
技术介绍
当今的互联网时代,每天都会产生海量的新闻资讯信息,并且这些资讯信息每时每刻都在通过互联网以极快的速度在全世界各地传播。如何在这些海量的信息中快速获得有价值的热点信息,在金融投资、管理决策等领域变得至关重要。目前已有的热点新闻发现方法主要有人工编辑的方法和通过用户行为数据计算得到热点信息的方法。对于人工编辑的方法,需要聘用专业的编辑,每天阅读、整理和编辑海量的新闻,费时费力,人工成本高昂。通过用户行为数据计算则是类似百度、谷歌这样的大型互联网搜索公司所采用的通过用户搜索记录排序、点击量、页面访问量以及分享率等大量的用户行为数据计算得到当前人们关注的热点,但对于大多数公司和个人,没有足够的用户行为数据通过类似的方法得到当前的热点信息。因此有必要提供一种自动发现热点关键词和热点新闻的方法,以解决现有中小企业难以自动获取热点关键词和热点新闻,导致在投资和决策等中失去先机的问题。 ...
【技术保护点】
1.一种自动发现热点关键词和热点新闻的方法,其特征在于,包括以下步骤:/n提取各新闻的主题关键词;/n计算预设周期内各主题关键词所对应新闻数量与预设周期内新增的新闻数量的比值,以得到预设周期内各主题关键词所对应新闻的占比;/n计算各主题关键词在预设历史时间段内的占比平均值和占比标准差;/n根据各主题关键词在预设历史时间段内的占比平均值和占比标准差计算各主题关键词的热度值;/n若热度值大于预设热门阈值,则判断热度值所对应的主题关键词为热点关键词;/n根据所述热点关键词查找对应热点新闻。/n
【技术特征摘要】
1.一种自动发现热点关键词和热点新闻的方法,其特征在于,包括以下步骤:
提取各新闻的主题关键词;
计算预设周期内各主题关键词所对应新闻数量与预设周期内新增的新闻数量的比值,以得到预设周期内各主题关键词所对应新闻的占比;
计算各主题关键词在预设历史时间段内的占比平均值和占比标准差;
根据各主题关键词在预设历史时间段内的占比平均值和占比标准差计算各主题关键词的热度值;
若热度值大于预设热门阈值,则判断热度值所对应的主题关键词为热点关键词;
根据所述热点关键词查找对应热点新闻。
2.如权利要求1所述的自动发现热点关键词和热点新闻的方法,其特征在于,热度值的计算公式为:Hot(w)=(Proportion(w)-Mean(w))/Std(w),其中,w为待计算热度值的主题关键词,Hot(w)为该主题关键词的热度值,Proportion(w)为预设周期内该主题关键词所对应新闻当前的占比,Mean(w)为该主题关键词在预设历史时间段内的占比平均值,Std(w)为该主题关键词在预设历史时间段内的占比标准差。
3.如权利要求1所述的自动发现热点关键词和热点新闻的方法,其特征在于,占比平均值的计算方式为:
M=(P1+P2+……Pn)/n,其中,M为任一主题关键词在预设历史时间段内的占比平均值,P1到Pn为在预设历史时间段内计算的该主题关键词所对应新闻的占比,n为在预设历史时间段内该主题关键词所对应新闻的占比的个数。
4.如权利要求1所述的自动发现热点关键词和热点新闻的方法,其特征在于,占比标准差的计算方式为:
Std=sqrt(((P1-M)^2+(P2...
【专利技术属性】
技术研发人员:尹扬,
申请(专利权)人:上海朝阳永续信息技术股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。