确定热点事件的方法、装置和存储介质以及电子设备制造方法及图纸

技术编号:18350480 阅读:24 留言:0更新日期:2018-07-01 23:44
本公开涉及一种确定热点事件的方法、装置和存储介质以及电子设备,该方法包括:获取预设时间段内的多个待确定文本;获取该预设时间段内的全部待确定文本对应的主题模型,并根据主题模型确定每个待确定文本属于不同主题的第一主题条件概率;主题模型中包括多个主题;根据第一主题条件概率确定全部待确定文本中的每个分词词语的热度权重;根据每个分词词语的热度权重从多个待确定文本中确定热点事件。

【技术实现步骤摘要】
确定热点事件的方法、装置和存储介质以及电子设备
本公开涉及信息
,具体地,涉及一种确定热点事件的方法、装置和存储介质以及电子设备。
技术介绍
随着互联网的迅速普及,网络的社会影响在日趋扩大,用户可以通过门户网站、社交软件、微博、论坛等各种方式去获取新闻信息,并表达自己对新闻信息的观点,这种频繁的交互过程就会在不同用户之间产生一些共同话题,这种共同话题称之为热点事件。目前,确定热点事件的过程中可以将所有的新闻信息看作成一个集合,通过聚类的方式去将相同类型的新闻信息进行聚合,并分别对同一类型中的新闻信息进行热度排名,并将热度排名靠前的新闻事件作为该类型的热度事件,其中,决定该热度排名的因素可以是访问次数以及评论文本的数量等,由于该热度排名可以通过人工干预(如通过软件或者人工进行刷排名),这样,仅仅根据该热度排名确定热点事件并不准确。
技术实现思路
为了解决上述问题,本公开提出了一种确定热点事件的方法、装置和存储介质以及电子设备。根据本公开实施例的第一方面,提供一种确定热点事件的方法,所述方法包括:获取预设时间段内的多个待确定文本;获取所述预设时间段内的全部所述待确定文本对应的主题模型,并根据所述主题模型确定每个所述待确定文本属于不同主题的第一主题条件概率;所述主题模型中包括多个所述主题;根据所述第一主题条件概率确定全部所述待确定文本中的每个分词词语的热度权重;根据每个所述分词词语的热度权重从多个所述待确定文本中确定热点事件。可选地,所述获取预设时间段内的全部所述待确定文本对应的主题模型包括:将所述预设时间段内的每个所述待确定文本进行分词处理得到至少一个分词词语;通过至少一个所述分词词语训练预设主题模型得到主题模型。可选地,所述根据所述第一主题条件概率确定全部所述待确定文本中的每个分词词语的热度权重包括:获取每个所述待确定文本中的至少一个所述分词词语属于不同主题的第二主题条件概率;根据所述第一主题条件概率和所述第二主题条件概率确定至少一个所述分词词语在每个所述待确定文本中的主题权重;根据所述主题权重确定每个所述分词词语的热度权重。可选地,所述获取每个所述待确定文本中的至少一个所述分词词语属于不同主题的第二主题条件概率包括:确定至少一个所述分词词语在对应的所述待确定文本中的出现概率;计算同一主题对应的第一主题条件概率的和值得到所述同一主题对应的主题概率;根据所述主题模型获取每个所述待确定文本中的至少一个所述分词词语在不同主题下的词语条件概率;根据所述主题概率和所述出现概率以及所述词语条件概率确定第二主题条件概率。可选地,在所述预设时间段包括一个时间段时,所述根据所述主题权重确定每个所述分词词语的热度权重包括:通过权重获取步骤获取全部所述待确定文本中的每个所述分词词语的第一权重,确定所述第一权重为所述热度权重。在所述预设时间段包括多个时间段时,所述根据所述主题权重确定每个所述分词词语的热度权重包括:通过权重获取步骤分别获取每个所述时间段内的全部所述待确定文本中的每个所述分词词语的第一权重;根据所述第一权重获取每个所述分词词语的所述热度权重。可选地,所述权重获取步骤包括:获取每个所述分词词语在每个所述待确定文本的位置信息;所述位置信息包括文本标题位置或者文本正文位置;在所述分词词语的位置信息为所述文本标题位置时,确定所述分词词语的所述主题权重与预设参数的乘积为所述分词词语在每个所述待确定文本中的第二权重;在所述分词词语的位置信息为所述文本正文位置时,确定所述分词词语的所述主题权重为所述分词词语在每个所述待确定文本中的第二权重;分别计算同一所述分词词语在全部所述待确定文本中的第二权重的平均值为同一所述分词词语的第一权重。可选地,所述根据所述第一权重获取每个所述分词词语的所述热度权重包括:根据每个所述时间段内的同一所述分词词语对应的第一权重确定同一所述分词词语的第三权重;根据每个所述分词词语的所述第三权重和所述第一权重确定每个所述分词词语的所述热度权重。可选地,所述热点事件包括热点词语和热点分句,所述根据每个所述词语的热度权重从多个所述待确定文本中确定热点事件包括:根据每个所述分词词语的热度权重获取预设词语数量的热点词语;从全部所述待确定文本中获取包含所述热点词语的待确定分句;将所述待确定分句中包括的多个分句词语按照主题权重进行降序排序得到排序结果;在所述热度词语在所述排序结果的权重排名小于或者等于预设排名时,确定所述待确定分句为目标分句,并从所述目标分句中获取热点分句;确定所述热点词语和所述热点分句为所述热点事件。根据本公开实施例的第二方面,提供一种确定热点事件的装置,所述装置包括:获取模块,用于获取预设时间段内的多个待确定文本;处理模块,用于获取所述预设时间段内的全部所述待确定文本对应的主题模型,并根据所述主题模型确定每个所述待确定文本属于不同主题的第一主题条件概率;所述主题模型中包括多个所述主题;第一确定模块,用于根据所述第一主题条件概率确定全部所述待确定文本中的每个分词词语的热度权重;第二确定模块,用于根据每个所述分词词语的热度权重从多个所述待确定文本中确定热点事件。可选地,所述处理模块包括:处理子模块,用于将所述预设时间段内的每个所述待确定文本进行分词处理得到至少一个分词词语;训练子模块,用于通过至少一个所述分词词语训练预设主题模型得到主题模型。可选地,所述第一确定模块包括:第一获取子模块,用于获取每个所述待确定文本中的至少一个所述分词词语属于不同主题的第二主题条件概率;第一确定子模块,用于根据所述第一主题条件概率和所述第二主题条件概率确定至少一个所述分词词语在每个所述待确定文本中的主题权重;第二确定子模块,用于根据所述主题权重确定每个所述分词词语的热度权重。可选地,所述第一获取子模块,用于确定至少一个所述分词词语在对应的所述待确定文本中的出现概率;计算同一主题的第一主题条件概率的和值得到所述同一主题对应的主题概率;根据所述主题模型获取每个所述待确定文本中的至少一个所述分词词语在不同主题下的词语条件概率;根据所述主题概率和所述出现概率以及所述词语条件概率确定第二主题条件概率。可选地,在所述预设时间段包括一个时间段时,所述第二确定子模块,用于通过权重获取步骤获取全部所述待确定文本中的每个所述分词词语的第一权重,确定所述第一权重为所述热度权重。在所述预设时间段包括多个时间段时,所述第二确定子模块,用于通过权重获取步骤分别获取每个所述时间段内的全部所述待确定文本中的每个所述分词词语的第一权重;根据所述第一权重获取每个所述分词词语的所述热度权重。可选地,所述权重获取步骤包括:获取每个所述分词词语在每个所述待确定文本的位置信息;所述位置信息包括文本标题位置或者文本正文位置;在所述分词词语的位置信息为所述文本标题位置时,确定所述分词词语的所述主题权重与预设参数的乘积为所述分词词语在每个所述待确定文本中的第二权重;在所述分词词语的位置信息为所述文本正文位置时,确定所述分词词语的所述主题权重为所述分词词语在每个所述待确定文本中的第二权重;分别计算同一所述分词词语在全部所述待确定文本中的第二权重的平均值为同一所述分词词语的第一权重。可选地,所述第二确定子模块,用于根据每个所述时间段内的同一所述分词词语对应的第本文档来自技高网...
确定热点事件的方法、装置和存储介质以及电子设备

【技术保护点】
1.一种确定热点事件的方法,其特征在于,所述方法包括:获取预设时间段内的多个待确定文本;获取所述预设时间段内的全部所述待确定文本对应的主题模型,并根据所述主题模型确定每个所述待确定文本属于不同主题的第一主题条件概率;所述主题模型中包括多个所述主题;根据所述第一主题条件概率确定全部所述待确定文本中的每个分词词语的热度权重;根据每个所述分词词语的热度权重从多个所述待确定文本中确定热点事件。

【技术特征摘要】
1.一种确定热点事件的方法,其特征在于,所述方法包括:获取预设时间段内的多个待确定文本;获取所述预设时间段内的全部所述待确定文本对应的主题模型,并根据所述主题模型确定每个所述待确定文本属于不同主题的第一主题条件概率;所述主题模型中包括多个所述主题;根据所述第一主题条件概率确定全部所述待确定文本中的每个分词词语的热度权重;根据每个所述分词词语的热度权重从多个所述待确定文本中确定热点事件。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一主题条件概率确定全部所述待确定文本中的每个分词词语的热度权重包括:获取每个所述待确定文本中的至少一个所述分词词语属于不同主题的第二主题条件概率;根据所述第一主题条件概率和所述第二主题条件概率确定至少一个所述分词词语在每个所述待确定文本中的主题权重;根据所述主题权重确定每个所述分词词语的热度权重。3.根据权利要求2所述的方法,其特征在于,所述获取每个所述待确定文本中的至少一个所述分词词语属于不同主题的第二主题条件概率包括:确定至少一个所述分词词语在对应的所述待确定文本中的出现概率;计算同一主题对应的第一主题条件概率的和值得到所述同一主题对应的主题概率;根据所述主题模型获取每个所述待确定文本中的至少一个所述分词词语在不同主题下的词语条件概率;根据所述主题概率和所述出现概率以及所述词语条件概率确定第二主题条件概率。4.根据权利要求2所述的方法,其特征在于,在所述预设时间段包括一个时间段时,所述根据所述主题权重确定每个所述分词词语的热度权重包括:通过权重获取步骤获取全部所述待确定文本中的每个所述分词词语的第一权重,确定所述第一权重为所述热度权重。在所述预设时间段包括多个时间段时,所述根据所述主题权重确定每个所述分词词语的热度权重包括:通过权重获取步骤分别获取每个所述时间段内的全部所述待确定文本中的每个所述分词词语的第一权重,并根据所述第一权重获取每个所述分词词语的所述热度权重。5.根据权利要求4所述的方法,其特征在于,所述权重获取步骤包括:获取每个所述分词词语在每个所述待确定文本的位置信息;所述位置信息包括文本标题位置或者文本正文位置;在所述分词词语的位置信息为所...

【专利技术属性】
技术研发人员:董超崔朝辉赵立军张霞
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1