【技术实现步骤摘要】
一种事件脉络生成方法、电子设备和存储介质
[0001]本专利技术涉及自然语言处理领域,特别是涉及一种事件脉络生成方法、电子设备和存储介质。
技术介绍
[0002]近年来,互联网生态经历了高速发展,数字信息呈爆炸式增长。与此同时,互联网上的海量内容中存在着大量的重复、无效内容和垃圾内容。繁杂、海量的信息给人们对知识的学习和使用带来了难整合、难查找、难理解等问题。在信息检索领域,面向事件的检索已经成为用户从网络中获取感兴趣事件的一种主要途径。如何从大量新闻中获得某个事件的发展时间线或发展脉络,对于快速获取信息,了解事件的前因后果是非常有必要的。
[0003]现有的事件脉络生成方法,通常使用TF
‑
IDF、LDA方法或深度学习方法提取文档信息,然后使用KMeans、层次聚类等聚类方法对文档进行聚类,获得话题或事件的划分。现有的文档提取方法较为简单,没有充分提取文档中的信息,用聚类进行话题或事件划分时,没有对聚类结果进行清洗和优化,不能很好地划分话题或事件,导致话题、事件聚合错误,对事件脉络的生成也会有很大影响。已有的话题或事件名生成方法,主要通过抽取关键词或摘要或抽取主谓宾等结构获得,关键词没有顺序,不能表示话题或事件的主要内容,摘要太长,主谓宾结构语义连贯性较差。
技术实现思路
[0004]针对上述技术问题,本专利技术采用的技术方案为:
[0005]本专利技术实施例提供了一种事件脉络生成方法,所述方法包括如下步骤:
[0006]S100,对待聚类文本中的每个文本进 ...
【技术保护点】
【技术特征摘要】
1.一种事件脉络生成方法,其特征在于,所述方法包括如下步骤:S100,对待聚类文本中的每个文本进行预处理,并获取预处理后的每个文本的特征向量和关键词;S200,基于所有文本的特征向量,通过设定聚类方法对待聚类文本进行聚类,得到多个类别,每个类别对应一个话题,每个话题包括至少一个文本;S300,基于话题和文本之间的关键词相同数量以及文本和话题的话题描述特征向量之间的相似度,对得到的多个话题进行清洗处理,得到清洗处理后的多个清洗话题;S400,基于话题之间的关键词相同数量和话题描述特征向量之间的相似度对多个清洗话题进行合并处理,得到合并处理后的多个合并话题;S500,获取多个合并话题中的每个话题的初始事件列表,其中,每个话题的初始事件列表通过对该话题中的所有文本对应的事件描述中相同的事件描述进行合并得到,每个文本的事件描述通过设定事件描述生成模型生成;S600,对于每个话题的初始事件列表,基于事件之间的关键词相同数量和事件的事件描述向量之间的相似度,对该话题中的事件进行合并,得到每个话题合并后的合并事件列表;S700,基于文本的特征向量之间的相似度获取每个合并事件列表中的每个事件的子事件列表;S800,输出每个事件的事件脉络,其中,每个事件脉络包括按照文本发布时间由早到晚进行排序的多个排序子事件,并且,每个排序子事件中的文本按照发布时间由早到晚的顺序进行排序。2.根据权利要求1所述的方法,其特征在于,任一文本的话题描述特征向量通过如下步骤获取:S310,将任一文本的标题输入到设定话题描述生成模型中得到对应的话题描述;S311,将任一文本的话题描述输入到设定话题描述特征生成模型中,得到对应的话题描述特征向量;任一话题的特征向量为该话题中所有文本的特征向量的平均值;任一话题的话题描述特征向量为该话题对应的所有话题描述中生成频次最大的话题描述对应的话题描述特征向量。3.根据权利要求2所述的方法,其特征在于,S300具体包括:S301,获取第p次清洗处理对应的当前待清洗话题中的任一话题中的任一文本以及任一话题的关键词和话题描述特征向量;p的取值为1到C0,C0为预设清洗次数;S302,对于当前待清洗话题中的话题i中的第j个文本T
ij
,分别获取g
p
(i,j)和ST
pij
,如果g
p
(i,j)≥D1
p
,并且ST
pij
≥D2
p
,则将T
ij
保留在话题i中,执行S308;否则,执行S303;其中,g
p
(i,j)为第p次清洗处理时T
ij
和话题i之间的关键词相同的数量,ST
pij
为第p次清洗处理时T
ij
的话题描述特征向量和话题i的话题描述特征向量之间的相似度;i的取值为1到k,k为当前待清洗话题的数量;j的取值为1到f(i),f(i)为话题i中的文本数量;D1
p
为第p次清洗处理对应的第一设定阈值,D2
p
为第p次清洗处理对应的第二设定阈值;S303,获取话题描述相似度集ST
ij
={ST
1ij
,ST
2ij
,
…
,ST
sij
,
…
,ST
k
‑
1ij
},ST
sij
为T
ij
的话题描述特征向量和当前待清洗话题中除话题i之外的k
‑
1个话题中的第s个话题对应的话题
描述特征向量之间的相似度,s的取值为1到k
‑
1;执行S304;S304,将ST
ij
按照降序进行排序得到排序后的相似度集,并获取排序后的相似度集中的前m个相似度形成对比相似度集STC
ij
={STC
1ij
,STC
2ij
,
…
,STC
wij
,
…
,STC
mij
},STC
wij
为STC
ij
中的第w个相似度,w的取值为1到m;执行S305;S305,获取关键词相同数量集g
ij
={g
1ij
,g
2ij
,
…
,g
wij
,
…
,g
mij
},g
wij
为T
ij
和话题w之间的关键词相同的数量;执行S306;S306,获取maxA=max{(STC
1ij
+g
1ij
),(STC
2ij
+g
2ij
),
…
,(STC
wij
+g
wij
),
…
,(STC
mij
+g
mij
)}对应的话题作为T
ij
的候选合并话题,并且,如果maxA对应的关键词相同数量大于D1
p
,并且话题描述相似度大于D2
p
,则将T
ij
合并到对应的候选合并话题中并从原话题中删除,否则,执行S307;S307,为T
ij
创建一个...
【专利技术属性】
技术研发人员:王磊,郭鸿飞,王俊艳,蔡昌艳,蒋永余,徐才,王宇琪,曹家,罗引,
申请(专利权)人:新华融合媒体科技发展北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。