一种事件脉络生成方法、电子设备和存储介质技术

技术编号:38079453 阅读:9 留言:0更新日期:2023-07-06 08:46
本发明专利技术提供了一种事件脉络生成方法、电子设备和存储介质,方法包括:首先对接收到的文本进行文本编码,然后进行文本聚类,并进行话题清洗与合并,得到所有话题,然后对每个话题,进行事件拆分,得到每个事件,并对相似事件进行合并,然后基于文本相似度进行事件脉络生成,能够更好地划分话题或事件,使得生成的话题或事件更加准确。此外,本发明专利技术不需要人工干预,可自动对多篇新闻进行数据预处理,生成话题库和事件库,并根据发布时间,输出事件的事件脉络。件脉络。件脉络。

【技术实现步骤摘要】
一种事件脉络生成方法、电子设备和存储介质


[0001]本专利技术涉及自然语言处理领域,特别是涉及一种事件脉络生成方法、电子设备和存储介质。

技术介绍

[0002]近年来,互联网生态经历了高速发展,数字信息呈爆炸式增长。与此同时,互联网上的海量内容中存在着大量的重复、无效内容和垃圾内容。繁杂、海量的信息给人们对知识的学习和使用带来了难整合、难查找、难理解等问题。在信息检索领域,面向事件的检索已经成为用户从网络中获取感兴趣事件的一种主要途径。如何从大量新闻中获得某个事件的发展时间线或发展脉络,对于快速获取信息,了解事件的前因后果是非常有必要的。
[0003]现有的事件脉络生成方法,通常使用TF

IDF、LDA方法或深度学习方法提取文档信息,然后使用KMeans、层次聚类等聚类方法对文档进行聚类,获得话题或事件的划分。现有的文档提取方法较为简单,没有充分提取文档中的信息,用聚类进行话题或事件划分时,没有对聚类结果进行清洗和优化,不能很好地划分话题或事件,导致话题、事件聚合错误,对事件脉络的生成也会有很大影响。已有的话题或事件名生成方法,主要通过抽取关键词或摘要或抽取主谓宾等结构获得,关键词没有顺序,不能表示话题或事件的主要内容,摘要太长,主谓宾结构语义连贯性较差。

技术实现思路

[0004]针对上述技术问题,本专利技术采用的技术方案为:
[0005]本专利技术实施例提供了一种事件脉络生成方法,所述方法包括如下步骤:
[0006]S100,对待聚类文本中的每个文本进行预处理,并获取预处理后的每个文本的特征向量和关键词;
[0007]S200,基于所有文本的特征向量,通过设定聚类方法对待聚类文本进行聚类,得到多个类别,每个类别对应一个话题,每个话题包括至少一个文本;
[0008]S300,基于话题和文本之间的关键词相同数量以及文本和话题的话题描述特征向量之间的相似度,对得到的多个话题进行清洗处理,得到清洗处理后的多个清洗话题;
[0009]S400,基于话题之间的关键词相同数量和话题描述特征向量之间的相似度对多个清洗话题进行合并处理,得到合并处理后的多个合并话题;
[0010]S500,获取多个合并话题中的每个话题的初始事件列表,其中,每个话题的初始事件列表通过对该话题中的所有文本对应的事件描述中相同的事件描述进行合并得到,每个文本的事件描述通过设定事件描述生成模型生成;
[0011]S600,对于每个话题的初始事件列表,基于事件之间的关键词相同数量和事件的事件描述向量之间的相似度,对该话题中的事件进行合并,得到每个话题合并后的合并事件列表;
[0012]S700,基于文本的特征向量之间的相似度获取每个合并事件列表中的每个事件的
子事件列表;
[0013]S800,输出每个事件的事件脉络,其中,每个事件脉络包括按照文本发布时间由早到晚进行排序的多个排序子事件,并且,每个排序子事件中的文本按照发布时间由早到晚的顺序进行排序。
[0014]本专利技术实施例还提供一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如前述方法。
[0015]本专利技术实施例还提供一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
[0016]本专利技术至少具有以下有益效果:
[0017]本专利技术实施例提供的事件脉络生成方法,首先对接收到的文本进行文本编码,然后进行文本聚类,并进行话题清洗与合并,得到所有话题,然后对每个话题,进行事件拆分,得到每个事件,并对相似事件进行合并,然后基于文本相似度进行事件脉络生成,能够更好地划分话题或事件,使得生成的话题或事件更加准确。此外,本专利技术不需要人工干预,可自动对多篇新闻进行数据预处理,生成话题库和事件库,并根据发布时间,输出事件的事件脉络。
附图说明
[0018]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为本专利技术实施例提供的事件脉络生成方法的流程图。
具体实施方式
[0020]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]本专利技术实施例提供一种事件脉络生成方法,如图1所示,所述方法可包括如下步骤:
[0022]S100,对待聚类文本中的每个文本进行预处理,并获取预处理后的每个文本的特征向量和关键词。
[0023]在本专利技术实施例中,文本可为新闻文本,也可为其它类型的文本。文本可通过用户输入获取。
[0024]在本专利技术实施例中,对文本的预处理可包括:去掉乱码和特殊字符、繁体转简体等。
[0025]在本专利技术实施例中,可通过现有的关键词提取方法获取每个文本的关键词。在一个示意性实施例中,本专利技术通过TextRank算法获取每个文本的关键词和每个关键词对应的
权重。关键词的数量h可基于实际需要进行设置,在一个示例中,h=7。
[0026]在本专利技术实施例中,可通过现有的特征提取方法获取每个文本的特征向量。在一个示意性实施例中,可通过CoSENT提取文本的特征向量。由于有的文本过长且过长的文本对相似度检索的准确率有影响,因此本专利技术采用文本标题加文本内容的前N段作为新闻的表示,输入CoSENT模型,得到每个文本的特征。N可以设置为0,1,2等,0为只使用标题。
[0027]S200,基于所有文本的特征向量,通过设定聚类方法对待聚类文本进行聚类,得到多个类别,每个类别对应一个话题,即得到多个话题,每个话题包括至少一个文本。
[0028]由于用户输入的文本有可能有重复,因此,在进行聚类之前,本专利技术对待聚类文本为进行去重处理。在本专利技术实施例中,可采用基于文本相似度和规则的方法进行去重。具体地,对于每个文本,依次计算它与爬取的其他文本的相似度,如果相似度超过设定的相似度阈值,且两个文本的标题中相同字的比例超过设定的比例阈值,则认为是重复文本,然后选择发布时间最近的文本存入待聚类文本库。在本专利技术实施例中,文本a和b之间的相似度可通过下述公式获取:
[0029][0030]其中,T
a
和T
b
分别为文本a和b的特征向量,||T
a
||和||T
b
||分别为T
a
和T
b
的模。
[0031]在本专利技术实施例中,相似度的阈值可以设置高一些,比如0.95,标题中相同字的比例阈值可以设置为0.本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种事件脉络生成方法,其特征在于,所述方法包括如下步骤:S100,对待聚类文本中的每个文本进行预处理,并获取预处理后的每个文本的特征向量和关键词;S200,基于所有文本的特征向量,通过设定聚类方法对待聚类文本进行聚类,得到多个类别,每个类别对应一个话题,每个话题包括至少一个文本;S300,基于话题和文本之间的关键词相同数量以及文本和话题的话题描述特征向量之间的相似度,对得到的多个话题进行清洗处理,得到清洗处理后的多个清洗话题;S400,基于话题之间的关键词相同数量和话题描述特征向量之间的相似度对多个清洗话题进行合并处理,得到合并处理后的多个合并话题;S500,获取多个合并话题中的每个话题的初始事件列表,其中,每个话题的初始事件列表通过对该话题中的所有文本对应的事件描述中相同的事件描述进行合并得到,每个文本的事件描述通过设定事件描述生成模型生成;S600,对于每个话题的初始事件列表,基于事件之间的关键词相同数量和事件的事件描述向量之间的相似度,对该话题中的事件进行合并,得到每个话题合并后的合并事件列表;S700,基于文本的特征向量之间的相似度获取每个合并事件列表中的每个事件的子事件列表;S800,输出每个事件的事件脉络,其中,每个事件脉络包括按照文本发布时间由早到晚进行排序的多个排序子事件,并且,每个排序子事件中的文本按照发布时间由早到晚的顺序进行排序。2.根据权利要求1所述的方法,其特征在于,任一文本的话题描述特征向量通过如下步骤获取:S310,将任一文本的标题输入到设定话题描述生成模型中得到对应的话题描述;S311,将任一文本的话题描述输入到设定话题描述特征生成模型中,得到对应的话题描述特征向量;任一话题的特征向量为该话题中所有文本的特征向量的平均值;任一话题的话题描述特征向量为该话题对应的所有话题描述中生成频次最大的话题描述对应的话题描述特征向量。3.根据权利要求2所述的方法,其特征在于,S300具体包括:S301,获取第p次清洗处理对应的当前待清洗话题中的任一话题中的任一文本以及任一话题的关键词和话题描述特征向量;p的取值为1到C0,C0为预设清洗次数;S302,对于当前待清洗话题中的话题i中的第j个文本T
ij
,分别获取g
p
(i,j)和ST
pij
,如果g
p
(i,j)≥D1
p
,并且ST
pij
≥D2
p
,则将T
ij
保留在话题i中,执行S308;否则,执行S303;其中,g
p
(i,j)为第p次清洗处理时T
ij
和话题i之间的关键词相同的数量,ST
pij
为第p次清洗处理时T
ij
的话题描述特征向量和话题i的话题描述特征向量之间的相似度;i的取值为1到k,k为当前待清洗话题的数量;j的取值为1到f(i),f(i)为话题i中的文本数量;D1
p
为第p次清洗处理对应的第一设定阈值,D2
p
为第p次清洗处理对应的第二设定阈值;S303,获取话题描述相似度集ST
ij
={ST
1ij
,ST
2ij


,ST
sij


,ST
k

1ij
},ST
sij
为T
ij
的话题描述特征向量和当前待清洗话题中除话题i之外的k

1个话题中的第s个话题对应的话题
描述特征向量之间的相似度,s的取值为1到k

1;执行S304;S304,将ST
ij
按照降序进行排序得到排序后的相似度集,并获取排序后的相似度集中的前m个相似度形成对比相似度集STC
ij
={STC
1ij
,STC
2ij


,STC
wij


,STC
mij
},STC
wij
为STC
ij
中的第w个相似度,w的取值为1到m;执行S305;S305,获取关键词相同数量集g
ij
={g
1ij
,g
2ij


,g
wij


,g
mij
},g
wij
为T
ij
和话题w之间的关键词相同的数量;执行S306;S306,获取maxA=max{(STC
1ij
+g
1ij
),(STC
2ij
+g
2ij
),

,(STC
wij
+g
wij
),

,(STC
mij
+g
mij
)}对应的话题作为T
ij
的候选合并话题,并且,如果maxA对应的关键词相同数量大于D1
p
,并且话题描述相似度大于D2
p
,则将T
ij
合并到对应的候选合并话题中并从原话题中删除,否则,执行S307;S307,为T
ij
创建一个...

【专利技术属性】
技术研发人员:王磊郭鸿飞王俊艳蔡昌艳蒋永余徐才王宇琪曹家罗引
申请(专利权)人:新华融合媒体科技发展北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1