【技术实现步骤摘要】
一种新闻资讯管理方法及装置
本专利技术涉及电子
,尤其涉及一种新闻资讯管理方法及装置。
技术介绍
随着信息技术的发展,互联网已经成为政府、企业和网民发布、获取信息的重要平台。由于各网络平台数据质量参差不齐,互联网信息分散的特点,相关信息往往会被分布在网络各处,仅凭人力难以及时检测新闻事件和追踪相关信息。而现有事件检测与追踪研究大多关注的是某个特定平台,这容易导致事件缺失或者认知的偏差。因此,急需一种全方位的事件检测与追踪方法,帮助管理人员掌握情报,了解热点事件并追踪事件的发展动态,高效和科学的决策,为舆情监控提供数据支持。随着大数据时代的到来,目前事件检测与追踪方法主要面临以下方面的问题:事件发现大部分停留在事件的检测阶段,并未实现事件的管理,例如对新闻资讯数据进行聚类;挖掘事件关键词;挖掘舆情热词等等。景区管理人员不能全方位地了解事件的发展动态。
技术实现思路
本专利技术提供一种新闻资讯管理方法及装置,主要解决现有新闻资讯管理欠缺的问题。本专利技术提供的新闻资讯管理方法,包括:步骤 ...
【技术保护点】
1.一种新闻资讯管理方法,其特征在于,包括:/n步骤A、采集新闻资讯数据;/n步骤B、从预设数据库中找出与所述新闻资讯数据中目标新闻资讯文本相似度最大的M个参考新闻资讯文本,M大于或等于1;从所述M个参考新闻资讯文本中依次选择一个参考新闻资讯文本,进入步骤C;/n步骤C、获取被选中的参考新闻资讯文本的第一类簇信息;/n步骤D、判断所述目标新闻资讯文本是否属于所述第一类簇;若所述目标新闻资讯文本属于所述第一类簇,则进入步骤E;若所述目标新闻资讯文本不属于所述第一类簇,则从所述M个参考新闻资讯文本中选择另一个参考新闻资讯文本,返回步骤C,若所述M个参考新闻资讯文本都循环完毕,则 ...
【技术特征摘要】
1.一种新闻资讯管理方法,其特征在于,包括:
步骤A、采集新闻资讯数据;
步骤B、从预设数据库中找出与所述新闻资讯数据中目标新闻资讯文本相似度最大的M个参考新闻资讯文本,M大于或等于1;从所述M个参考新闻资讯文本中依次选择一个参考新闻资讯文本,进入步骤C;
步骤C、获取被选中的参考新闻资讯文本的第一类簇信息;
步骤D、判断所述目标新闻资讯文本是否属于所述第一类簇;若所述目标新闻资讯文本属于所述第一类簇,则进入步骤E;若所述目标新闻资讯文本不属于所述第一类簇,则从所述M个参考新闻资讯文本中选择另一个参考新闻资讯文本,返回步骤C,若所述M个参考新闻资讯文本都循环完毕,则进入步骤F;
步骤E、将所述目标新闻资讯文本加入所述第一类簇;
步骤F、新建第二类簇,将所述目标新闻资讯文本加入所述第二类簇。
2.如权利要求1所述的新闻资讯管理方法,其特征在于,步骤B中所述从预设数据库中找出与所述新闻资讯数据中目标新闻资讯文本相似度最大的M个参考新闻资讯文本,包括:
步骤B1、根据预设方式确定所述新闻资讯数据中目标新闻资讯文本的特征向量;
步骤B2、根据所述目标新闻资讯文本的特征向量,通过余玄聚类计算,找出与所述目标新闻资讯文本相似度最大的M个参考新闻资讯文本。
3.如权利要求2所述的新闻资讯管理方法,其特征在于,步骤B1包括:
步骤B11、对所述新闻资讯数据中目标新闻资讯文本进行预处理,去除非汉字字符;
步骤B12、对所述目标新闻资讯文本中的汉字字符进行划分,划分出至少一个汉字字符单元,所述汉字字符单元包括:单个汉字、由两个或两个以上汉字字构成的词组、成语或短句;
步骤B13、根据各个所述汉字字符单元在所述目标新闻资讯文本和所述预设数据库中出现的频率,计算其词频权重,根据各个所述汉字字符单元的词频权重得到所述目标新闻资讯文本的特征向量。
4.如权利要求3所述的新闻资讯管理方法,其特征在于,步骤B13包括:
步骤B131、按照以下公式计算各所述汉字字符单元的词频权重:
其中,x表示汉字字符单元,y表示目标新闻资讯文本,tfx,y表示x在y中的频率,dfx表示x在所述预设数据库中的频率,N表示所述预设数据库中的总文本数量;Wx,y表示x的词频权重。
步骤B132、根据各个所述汉字字符单元的词频权重得到所述目标新闻资讯文本的特征向量。
5.如权利要求1所述的新闻资讯管理方法,其特征在于,步骤B中所述从所述M个参考新闻资讯文本中依次选择一个参考新闻资讯文本,包括:
步骤B3、按照相似度由大到小的顺序从所述M个参考新闻资讯文本中依次选择一个参考新闻资讯文本。
6.如权利要求1所述的新闻资讯管理方法,其特征在于,所述步骤D中,判断所述目标新闻资讯文本是否属于所述第一类簇包括:
步骤D1、计算所述第一类簇对所述...
【专利技术属性】
技术研发人员:陶亮亮,洪学海,李小畅,
申请(专利权)人:上饶市中科院云计算中心大数据研究院,
类型:发明
国别省市:江西;36
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。