一种事件处理方法、设备及计算机可读存储介质技术

技术编号:36168163 阅读:10 留言:0更新日期:2022-12-31 20:18
本发明专利技术公开了一种事件处理方法、设备及计算机可读存储介质,该方法包括:采用事件提取模型对文本信息进行事件提取;采用实体识别模型对文本信息进行实体提取;根据提取的事件信息和实体,确定目标事件;计算目标事件与事件数据库中各个历史事件的余弦相似度,并根据余弦相似度最高的前K个历史事件及其实体、目标事件的实体,判断目标事件与前K个历史事件中任意一个历史事件是否为同一事件;若否,将目标事件增量更新到事件数据库;否则更新事件数据库中对应的历史事件;本发明专利技术采用事件提取模型进行事件提取,实体识别模型进行实体提取,并结合事件的余弦相似度、实体相似来综合判断事件相似性,可以提高事件提取和合并的准确率。率。率。

【技术实现步骤摘要】
一种事件处理方法、设备及计算机可读存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种事件处理方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]世界上无时无刻都在发生着各种不同的事件,提取事件对梳理事件发展的脉络,事件跟人物、企业、行业等的关系都尤其重要,它可以帮助人们快速了解事件发展的过程,还可以促进智能搜索、问答系统、推荐和文本生成等自然语言的应用。然而对于同一个事件来说,有多种描述的方式,特别是中文,而这些描述方式在网络上更是显得千奇百怪,如果不合并这些相同的事件,将不利于事件在下游的应用,例如智能搜索:通过关键字搜索出来的结果,很有可能是相同事件的不同描述,这很不利于用户筛选自己想要的结果。因此如何合并相同的事件,也显得尤其重要了。
[0003]现有的事件合并方法是通过字符的边界距离来合并相似事件,但边界距离非常耗时,而且对于有一两个不同字符的不同事件,会认为是相似的事件,例如:“苹果发布iphone12
”ꢀ

ꢀ“
苹果发布iphone13”这两个事件只有一个字符不相同,但计算其边界距离会认为“苹果发布iphone12
”ꢀ

ꢀ“
苹果发布iphone13”这两个事件是同一个事件。

技术实现思路

[0004]本专利技术实施例提供一种事件处理方法、设备及计算机可读存储介质,其能有效提高事件提取和合并的准确率。
[0005]第一方面,本专利技术实施例提供了一种事件处理方法,包括:获取文本信息,并采用事件提取模型对所述文本信息进行事件提取,得到事件信息;采用实体识别模型对所述文本信息进行实体提取,得到所述文本信息中的实体;根据所述事件信息和所述实体,确定目标事件;计算所述目标事件与事件数据库中各个历史事件之间的余弦相似度,并从所述事件数据库中选取余弦相似度最高的前K个历史事件;根据选取的前K个历史事件的余弦相似度及其实体、所述目标事件的实体,判断所述目标事件与前K个历史事件中任意一个历史事件是否为同一个事件;若否,将所述目标事件增量更新到所述事件数据库中;若是,更新所述事件数据库中与所述目标事件属于同一个事件的历史事件。
[0006]作为上述方案的改进,所述事件信息包括事件及其事件类型、事件类型的概率。
[0007]作为上述方案的改进,所述根据所述事件信息和所述实体,确定目标事件,包括:判断当前提取出的事件的事件类型的概率是否大于设定的概率阈值;若否,则丢弃当前提取出的事件;若是,则判断当前提取出的事件中是否存在所述实体;
当当前提取出的事件中存在所述实体时,输出当前提取出的事件作为目标事件;当当前提取出的事件中不存在所述实体时,丢弃当前提取出的事件。
[0008]作为上述方案的改进,所述计算所述目标事件与事件数据库中各个历史事件之间的余弦相似度,并从所述事件数据库中选取余弦相似度最高的前K个历史事件,包括:将所述目标事件输入到向量模型,得到所述目标事件的事件向量;计算所述事件向量与事件数据库中各个历史事件之间的余弦相似度;从所述事件数据库中选取余弦相似度最高的前K个历史事件。
[0009]作为上述方案的改进,所述方法还包括:通过预设的归一化码表对当前提取出的实体进行标准化处理。
[0010]作为上述方案的改进,所述根据选取的前K个历史事件的余弦相似度及其实体、所述目标事件的实体,判断所述目标事件与前K个历史事件中任意一个历史事件是否为同一个事件,包括:对于前K个历史事件,判断第i个历史事件与所述目标事件之间的余弦相似度是否大于预设的相似度阈值;若否,确定所述目标事件与第i个历史事件不是同一个事件;若是,判断标准化后的实体与第i个历史事件对应的实体是否相同;当标准化后的实体与第i个历史事件对应的实体不相同时,提取第i+1个历史事件,并返回余弦相似度判断流程;1≤i≤K

1;当标准化后的实体与第i个历史事件对应的实体相同时,将所述目标事件和第i个历史事件输入到事件相似判断模型,得到事件判断结果;其中,所述事件判断结果包括是同一个事件、不是同一个事件。
[0011]作为上述方案的改进,在提取第i+1个历史事件之间,还包括:判断第i个历史事件是否为前K个历史事件中的最后一个历史事件;若是,则确定所述目标事件与第i个历史事件不是同一个事件;若否,则提取第i+1个历史事件。
[0012]作为上述方案的改进,所述更新所述事件数据库中与所述目标事件属于同一个事件的历史事件,包括:对于所述事件数据库中与所述目标事件属于同一个事件的历史事件,更新所述历史事件的字段;其中,所述字段包括对应事件的发生时间和声量。
[0013]第二方面,本专利技术实施例提供了一种事件处理设备,包括:处理器;处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任意一项所述的事件处理方法。
[0014]第三方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面中任意一项所述的事件处理方法。
[0015]相对于现有技术,本专利技术实施例的有益效果在于:通过获取文本信息,并采用事件提取模型对所述文本信息进行事件提取,得到事件信息;采用实体识别模型对所述文本信息进行实体提取,得到所述文本信息中的实体;根据所述事件信息和所述实体,确定目标事
件;计算所述目标事件与事件数据库中各个历史事件之间的余弦相似度,并从所述事件数据库中选取余弦相似度最高的前K个历史事件;根据选取的前K个历史事件的余弦相似度及其实体、所述目标事件的实体,判断所述目标事件与前K个历史事件中任意一个历史事件是否为同一个事件;若否,将所述目标事件增量更新到所述事件数据库中;若是,更新所述事件数据库中与所述目标事件属于同一个事件的历史事件;本专利技术采用事件提取模型进行事件提取,实体识别模型进行实体提取,并结合事件的余弦相似度、实体相似来综合判断事件相似性;对于判断为属于同一个事件,则直接更新所述事件数据库中对应的历史事件,对于判断为不属于同一个事件,则将事件增量更新到所述事件数据库中,从而可以提高事件提取和合并的准确率。
附图说明
[0016]为了更清楚地说明本专利技术的技术方案,下面将对实施方式中所占据要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本专利技术实施例提供的一种事件处理方法的流程图;图2是本专利技术实施例提供的事件提取的流程图;图3是本专利技术实施例提供的事件合并的流程图;图4是本专利技术实施例提供的一种事件处理设备的示意图。
具体实施方式
[0018]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种事件处理方法,其特征在于,包括:获取文本信息,并采用事件提取模型对所述文本信息进行事件提取,得到事件信息;采用实体识别模型对所述文本信息进行实体提取,得到所述文本信息中的实体;根据所述事件信息和所述实体,确定目标事件;计算所述目标事件与事件数据库中各个历史事件之间的余弦相似度,并从所述事件数据库中选取余弦相似度最高的前K个历史事件;根据选取的前K个历史事件的余弦相似度及其实体、所述目标事件的实体,判断所述目标事件与前K个历史事件中任意一个历史事件是否为同一个事件;若否,将所述目标事件增量更新到所述事件数据库中;若是,更新所述事件数据库中与所述目标事件属于同一个事件的历史事件。2.如权利要求1所述的事件处理方法,其特征在于,所述事件信息包括事件及其事件类型、事件类型的概率。3.如权利要求2所述的事件处理方法,其特征在于,所述根据所述事件信息和所述实体,确定目标事件,包括:判断当前提取出的事件的事件类型的概率是否大于设定的概率阈值;若否,则丢弃当前提取出的事件;若是,则判断当前提取出的事件中是否存在所述实体;当当前提取出的事件中存在所述实体时,输出当前提取出的事件作为目标事件;当当前提取出的事件中不存在所述实体时,丢弃当前提取出的事件。4.如权利要求1所述的事件处理方法,其特征在于,所述计算所述目标事件与事件数据库中各个历史事件之间的余弦相似度,并从所述事件数据库中选取余弦相似度最高的前K个历史事件,包括:将所述目标事件输入到向量模型,得到所述目标事件的事件向量;计算所述事件向量与事件数据库中各个历史事件之间的余弦相似度;从所述事件数据库中选取余弦相似度最高的前K个历史事件。5.如权利要求1所述的事件处理方法,其特征在于,所述方法还包括:通过预设的归一化码表对当前提取出的实体进行标准化处理。6.如权利要求5所述的事件处理方法,其特征在于,所述根据选取的前K个历史事件的余弦...

【专利技术属性】
技术研发人员:牟昊邓钢清何宇轩徐亚波李旭日
申请(专利权)人:广州数说故事信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1