基于新闻数据的事件脉络生成方法、终端设备和存储介质技术

技术编号:39240460 阅读:10 留言:0更新日期:2023-10-30 11:53
本发明专利技术公开了一种基于新闻数据的事件脉络生成方法、终端设备和存储介质,所述包括根据用户输入的事件信息初步筛选新闻事件;针对筛选出的新闻事件确定其集中发布事件以及关键句;根据集中发布时间和关键句进一步筛选新闻事件;然后针对进一步筛选出的新闻事件进行相似度计算,筛选出独立新闻事件以及独立新闻事件的相似新闻事件;最后根据独立新闻时间的发布时间以及相似新闻事件的个数,最终确定脉络节点事件;生成时间脉络。通过实施本发明专利技术实施例能够提高事件脉络生成的准确性。施例能够提高事件脉络生成的准确性。施例能够提高事件脉络生成的准确性。

【技术实现步骤摘要】
基于新闻数据的事件脉络生成方法、终端设备和存储介质


[0001]本专利技术涉及互联网大数据领域,尤其涉及一种基于新闻数据的事件脉络生成方法、终端设备和存储介质。

技术介绍

[0002]当前新闻事件脉络生成的方法大多是通过匹配关键词或判断核心词是否包含关键词来获取事件的相关新闻,再通过相似度合并或聚类或摘要的方法生成。在现有技术中,只要新闻事件的关键词匹配或者核心词包含关键词的新闻事件,便不会再进行筛选,从而进入事件脉络生成阶段。对于海量新闻数据时,现有技术可能出现提取的新闻事件虽然关键词匹配但是其实质并非相关新闻事件,即其与本次筛选的目标新闻事件的相关性并不高,这些问题产生的原因在于现有技术在对新闻事件的筛选仅仅停留在对词眼是否匹配的判断上,而没有考虑到新闻事件发布时间以及对新闻事件的整体内容的把控。如果仅仅只是关键词匹配或者仅考虑新闻事件的核心词是否包含关键此,容易保留大量满足条件的非相关新闻数据,从而影响脉络节点提炼的精准性。

技术实现思路

[0003]本专利技术提供了一种基于新闻数据的事件脉络生成方法、终端设备和存储介质,以解决现有方法提取的相关新闻容易保留大量满足条件的非相关新闻数据,影响脉络节点提炼的精准性技术问题。
[0004]为了解决上述技术问题,本专利技术实施例提供了一种基于新闻数据的事件脉络生成方法,包括:
[0005]接收用户输入的事件信息,所述事件信息包括关键词;根据所述事件信息对数据池中的新闻事件进行筛选,生成第一新闻集合;
[0006]根据所述第一新闻集合中各新闻事件的发布时间,确定所述第一新闻集合的集中发布时段,从所述第一新闻集合中筛选出在所述集中发布时段内发布的新闻事件,生成第二新闻集合;
[0007]提取所述第二新闻集合中每一新闻事件的关键句,从所述第二新闻集合中筛选出关键句中包含所述关键词的新闻事件,生成第三新闻集合;
[0008]计算第三新闻集合中各新闻事件之间的相似度;根据所述相似度,从所述第三新闻集合中筛选出第一独立新闻集合以及与第一独立新闻集合对应的若干相似新闻集合;其中,所述第一独立新闻集合中包含若干独立新闻事件,各独立新闻事件两两之间的相似度均小于第一预设阈值,且所述第一独立新闻集合中的各独立新闻事件按发布时间进行排序;每一独立新闻事件对应一相似新闻集合,且相似新闻集合中各新闻事件与其对应的独立新闻事件之间的相似度大于第一预设阈值;
[0009]从第一独立新闻集合中筛选出对应的相似新闻集合中的新闻事件数量大于第二预设值的独立新闻事件,生成第二独立新闻集合;
[0010]逐一计算第二独立新闻集合中相邻独立新闻事件的发布时间之间的时间间隔,根据所述时间间隔以及所述相似新闻集合,确定脉络节点事件;
[0011]根据所述脉络节点事件,生成事件脉络。
[0012]作为优选方案,所述的基于新闻数据的事件脉络生成方法,其特征在于,所述事件信息还包括发布时间范围;
[0013]所述根据所述事件信息对数据池中的新闻事件进行筛选,包括:
[0014]根据所述关键词与所述发布时间范围对数据池中的新闻事件进行筛选;或根据所述关键词对数据池中的新闻事件进行筛选。
[0015]作为优选方案,所述的基于新闻数据的事件脉络生成方法,其特征在于,根据所述第一新闻集合中各新闻事件的发布时间,确定所示第一新闻集合的集中发布时段,包括:
[0016]计算所述第一新闻集合中所有新闻事件按发布时间的分布量T:
[0017][0018]其中,d
i
为第i个新闻事件的发布时间;day
j
为第一新闻集合中的新闻事件的最早发布时间到最晚发布时间中的第j天;为发布时间为day
j
的新闻事件数量;
[0019]计算分布量变化率大于预设值α的最小发布时间day
min
与最大发布时间day
max

[0020][0021][0022]根据最小发布时间day
min
与最大发布时间day
max
确定所述集中发布时段。
[0023]作为优选方案,所述的基于新闻数据的事件脉络生成方法,其特征在于提取所述第二新闻集合中每一新闻事件的关键句,包括:
[0024]利用TextRank算法提取所述第二新闻集合中每一新闻事件对应的关键句。
[0025]作为优选方案,所述的基于新闻数据的事件脉络生成方法,其特征在于,在计算所述第三新闻集合中各新闻事件之间的相似度之前,还包括:
[0026]对第三新闻集合中的每一新闻事件进行分词,并去除停用词,得到每一个新闻事件doc
i
的分词结果:
[0027]Token
i
:{w
ij
|j∈1,2,3,

,n
i
};
[0028]其中,Token
i
为对新闻事件doc
i
进行分词后所得到的分词集合,w
ij
为doc
i
的第j个分词,n
i
为doc
i
的分词总数;
[0029]计算新闻事件doc
i
对应分词集合Token
i
的词向量矩阵:
[0030]A
i
:{a
ij
|j∈1,2,3,

,n
i
};
[0031]其中,a
ij
是w
ij
对应的词向量;
[0032]根据词向量矩阵A
i
,生成新闻事件doc
i
对应的文本向量v
i

[0033]作为优选方案,所述的基于新闻数据的事件脉络生成方法,其特征在于,计算所述第三新闻集合中各新闻事件之间的相似度,根据所述相似度,从所述第三新闻集合中筛选出第一独立新闻集合以及与第一独立新闻集合对应的若干相似新闻集合,包括:
[0034]对第三新闻集合中的新闻事件按照发布时间进行升序排序;
[0035]初始化第一独立新闻集合:E:{doc1};其中,doc1对应一个空的相似新闻集合Ds1;
[0036]依次计算第三新闻集合Doc

中的新闻事件doc
j
(j>1)与第一独立新闻集合E中的独立新闻事件doc
i
的相似度sim
ij

[0037][0038]其中,v
i
为新闻事件doc
i
对应的文本向量;v
j
为新闻事件doc
j
对应的文本向量;
[0039]如果sim
ij
大于第一预设阈值β,则将新闻事件doc
j
添加到新闻事件doc
i...

【技术保护点】

【技术特征摘要】
1.一种基于新闻数据的事件脉络生成方法,其特征在于,包括:接收用户输入的事件信息,所述事件信息包括关键词;根据所述事件信息对数据池中的新闻事件进行筛选,生成第一新闻集合;根据所述第一新闻集合中各新闻事件的发布时间,确定所述第一新闻集合的集中发布时段,从所述第一新闻集合中筛选出在所述集中发布时段内发布的新闻事件,生成第二新闻集合;提取所述第二新闻集合中每一新闻事件的关键句,从所述第二新闻集合中筛选出关键句中包含所述关键词的新闻事件,生成第三新闻集合;计算第三新闻集合中各新闻事件之间的相似度;根据所述相似度,从所述第三新闻集合中筛选出第一独立新闻集合以及与第一独立新闻集合对应的若干相似新闻集合;其中,所述第一独立新闻集合中包含若干独立新闻事件,各独立新闻事件两两之间的相似度均小于第一预设阈值,且所述第一独立新闻集合中的各独立新闻事件按发布时间进行排序;每一独立新闻事件对应一相似新闻集合,且相似新闻集合中各新闻事件与其对应的独立新闻事件之间的相似度大于第一预设阈值;从第一独立新闻集合中筛选出对应的相似新闻集合中的新闻事件数量大于第二预设值的独立新闻事件,生成第二独立新闻集合;逐一计算第二独立新闻集合中相邻独立新闻事件的发布时间之间的时间间隔,根据所述时间间隔以及所述相似新闻集合,确定脉络节点事件;根据所述脉络节点事件,生成事件脉络。2.如权利要求1所述的基于新闻数据的事件脉络生成方法,其特征在于,所述事件信息还包括发布时间范围;所述根据所述事件信息对数据池中的新闻事件进行筛选,包括:根据所述关键词与所述发布时间范围对数据池中的新闻事件进行筛选;或根据所述关键词对数据池中的新闻事件进行筛选。3.如权利要求2所述的基于新闻数据的事件脉络生成方法,其特征在于,根据所述第一新闻集合中各新闻事件的发布时间,确定所述第一新闻集合的集中发布时段,包括:计算所述第一新闻集合中所有新闻事件按发布时间的分布量T:T:其中,d
i
为第i个新闻事件的发布时间;day
j
为第一新闻集合中的新闻事件的最早发布时间到最晚发布时间中的第j天;为发布时间为day
j
的新闻事件数量;计算分布量变化率大于预设值α的最小发布时间day
min
与最大发布时间day
max
:day
min
:day
max
:根据最小发布时间day
min
与最大发布时间day
max
确定所述集中发布时段。
4.如权利要求3所述的基于新闻数据的事件脉络生成方法,其特征在于,提取所述第二新闻集合中每一新闻事件的关键句,包括:利用TextRank算法提取所述第二新闻集合中每一新闻事件对应的关键句。5.如权利要求4所述的基于新闻数据的事件脉络生成方法,其特征在于,在计算所述第三新闻集合中各新闻事件之间的相似度之前,还包括:对第三新闻集合中的每一新闻事件进行分词,并去除停用词,得到每一个新闻事件doc
i
的分词结果:Token
i
:{w
ij
|j∈1,2,3,

,n
i
};其中,Token
i
为对新闻事件doc
i
进行分词后所得到的分词集合,w
ij
为doc
i
的第j个分词,n
i
为doc
i
的分词总数;计算新闻事件doc
i
对应分词集合Token
i
的词向量矩阵:A
i
:{a
ij
|j∈1,2,3,

,n
i
};其中,a
ij
是w
ij
对应的词向量;根据词向量矩阵A
i
,生成新闻事件doc
i
对应的文本向量v
i
。6.如权利要求5所述的基于新闻数据的事件脉络生成方法,其特征在于,计算所述第三新闻集合中各新闻事件之...

【专利技术属性】
技术研发人员:麦淼梁秀霞王梦环罗小龙
申请(专利权)人:广东南方智媒科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1