一种事件自动化分类方法、装置、设备及介质制造方法及图纸

技术编号:39741145 阅读:10 留言:0更新日期:2023-12-17 23:41
本申请公开了一种事件自动化分类方法、装置、设备及介质,该方法包括:通过从预设时段内获取的各事件中提取出预设的关键词,并针对提取到的任一关键词,将该关键词与该关键词所属事件中提取到的各关键词相连接以构建词网络。继而根据词网络中每个关键词到达除自身外的其他各关键词的词距离从词网络的各关键词中选定重点词。上述任一关键词对应至少一种预设的事件类别,故在从各关键词中选定重点词之后可根据从各事件中提取的关键词到达重点词的词距离来确定每份事件的事件类别,由此提高事件分类的处理效率和分类精度。件分类的处理效率和分类精度。件分类的处理效率和分类精度。

【技术实现步骤摘要】
一种事件自动化分类方法、装置、设备及介质


[0001]本申请涉及数据处理
,具体涉及一种事件自动化分类方法、装置、设备及介质。

技术介绍

[0002]智慧城市的概念起源于传媒领域,是指利用信息技术和创新概念将城市的系统和服务集成继而提升资源运用的效率、优化城市管理和服务,以及改善市民生活质量。随着城市规模的扩大,城市事件的产生数量也日益增多,如何高效的对数量庞大的城市事件进行分析及处理是构建智慧城市的重要指标。
[0003]传统的事件分析方法多是接收多种渠道获取的城市事件之后,由相关人员针对各事件进行人工分类并对各预设分类下的事件数据进行统计。经统计,通常地级市每月的城市事件数量可达数十万,以人工的方式对海量事件进行分类存在效率较低的问题,且受人为主观影响难以保障事件的分类精度。

技术实现思路

[0004]本申请实施例提供一种事件自动化分类方法、装置、设备及介质。用于提高事件分类的处理效率和分类精度。
[0005]为达到上述目的,本申请实施例的技术方案是这样实现的:
[0006]第一方面,本申请实施例提供了一种事件自动化分类方法,所述方法包括:
[0007]响应于分类指示,从预设时段内获取的各事件中提取出预设的关键词;其中,任一关键词对应至少一种预设的事件类别;
[0008]针对提取到的任一关键词,将所述关键词与所述关键词所属事件中提取的各关键词相连以构建词网络;
[0009]根据所述词网络中每个关键词到达除自身外的其他各关键词的词距离,从所述词网络中的各关键词中选定重点词;其中,任一关键词到达另一关键词的词距离是根据所述任一关键词与所述另一关键词间连接的关键词数量确定的;
[0010]根据从各事件中提取的关键词到达所述重点词的词距离确定每份事件的事件类别。
[0011]在一些可能的实施例中,所述根据所述词网络中每个关键词到达除自身外的其他各关键词的词距离之前,所述方法还包括:
[0012]针对所述词网络中的任一关键词,确定所述词网络中与所述关键词直接相连的关键词的数量;
[0013]若所述数量未在预设数量区间内,则从所述词网络中剔除所述关键词。
[0014]在一些可能的实施例中,所述根据所述词网络中每个关键词到达除自身外的其他各关键词的词距离之前,所述方法还包括:
[0015]针对所述词网络中任两个直接相连的关键词,确定获取的事件中同时出现所述两
个关键词的事件数量;
[0016]若所述事件数量小于数量阈值,则将所述词网络中所述两个关键词间的连接关系剔除。
[0017]在一些可能的实施例中,所述方法还包括:
[0018]构建所述词网络之前,基于相似度算法确定任两份事件间的文本相似度;
[0019]针对任两份事件,若所述两份事件的文本相似度大于相似度阈值则将所述两份事件中的任一事件剔除。
[0020]在一些可能的实施例中,所述根据所述词网络中每个关键词到达除自身外的其他各关键词的词距离,从所述词网络中的各关键词中选定重点词,包括:
[0021]针对任一关键词,确定所述关键词在所述词网络中对应的相关词;其中,任一关键词与对应的相关词在所述词网络中直接相连,或通过至少一个关键词与对应的相关词间接相连;
[0022]针对任一关键词,确定所述关键词在所述词网络中到达对应每个相关词的最短连接通路;并根据所述最短连接通路中包含的关键词数量确定所述关键词到达所述最短连接通路中的相关词的词距离;
[0023]针对任一关键词,将所述关键词到达与所述关键词对应的每个相关词的词距离求和得到第一和值;若所述第一和值大于距离阈值则确定所述任一关键词为所述重点词。
[0024]在一些可能的实施例中,所述根据从各事件中提取的关键词到达所述重点词的词距离确定每份事件的事件类别,包括:
[0025]针对任一重点词,确定任一事件中提取的每个关键词到达所述重点词的词距离;并将所述每个关键词到达所述重点词的词距离求和得到第二和值;
[0026]针对任一事件,根据所述事件与各重点词间的第二和值确定所述事件的事件类别。
[0027]在一些可能的实施例中,所述根据所述事件与各重点词间的第二和值确定所述事件的事件类别,包括:
[0028]针对任一事件,从各重点词中选定与所述事件间的第二和值最小的第一重点词;
[0029]将所述第一重点词对应的事件类别作为所述事件的事件类别。
[0030]在一些可能的实施例中,每种预设的事件类别对应至少一种预设的统计方向;所述根据所述事件与各重点词间的第二和值确定所述事件的事件类别,包括:
[0031]响应于统计方向指示,获取统计分析结果所需的目标统计方向;其中,任一目标统计方向在所述预设的统计方向中;
[0032]针对每种目标统计方向,从各重点词中选定目标重点词;其中,目标重点词对应事件类别的统计方向为所述目标统计方向;
[0033]从每种目标统计方向下的目标重点词中选定与所述事件的第二和值最小的第二重点词;将每个第二重点词在对应目标统计方向下的事件类别作为所述事件的事件类别。
[0034]在一些可能的实施例中,所述方法还包括:
[0035]针对任一事件,确定所述事件中包含的预设情感词,并确定所述预设情感词在所述事件中对应的预设程度副词;其中,任一预设情感词设有对应的情感分值,任一预设程度副词设有对应的预设权重;
[0036]根据所述事件中每一预设情感词的情感分值,和每一预设情感词对应预设程度副词的预设权重确定所述事件的情感得分;
[0037]根据每份事件的情感得分和事件类别确定每种预设的事件类别的统计信息,并根据所述统计信息确定所述预设时段内获取的各事件的统计分析结果;其中,任一事件类别的统计信息包括所述事件类别下的事件数量、情感得分,和所述事件类别下的事件在事件总数中的占比中的部分或全部。
[0038]第二方面,本申请实施例还提供了一种事件自动化分类装置,所述装置包括:
[0039]关键词提取单元,被配置为执行响应于分类指示,从预设时段内获取的各事件中提取出预设的关键词;其中,任一关键词对应至少一种预设的事件类别;
[0040]词网络构建单元,被配置为执行针对提取到的任一关键词,将所述关键词与所述关键词所属事件中提取的各关键词相连以构建词网络;
[0041]重点词选取单元,被配置为执行根据所述词网络中每个关键词到达除自身外的其他各关键词的词距离,从所述词网络中的各关键词中选定重点词;其中,任一关键词到达另一关键词的词距离是根据所述任一关键词与所述另一关键词间连接的关键词数量确定的;
[0042]事件分类单元,被配置为执行根据从各事件中提取的关键词到达所述重点词的词距离确定每份事件的事件类别。
[0043]第三方面,本申请实施例还提供了一种电子设备,包括数据传输单元和处理器:
[0044]所述数据传输单元被配本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种事件自动化分类方法,其特征在于,所述方法包括:响应于分类指示,从预设时段内获取的各事件中提取出预设的关键词;其中,任一关键词对应至少一种预设的事件类别;针对提取到的任一关键词,将所述关键词与所述关键词所属事件中提取的各关键词相连以构建词网络;根据所述词网络中每个关键词到达除自身外的其他各关键词的词距离,从所述词网络中的各关键词中选定重点词;其中,任一关键词到达另一关键词的词距离是根据所述任一关键词与所述另一关键词间连接的关键词数量确定的;根据从各事件中提取的关键词到达所述重点词的词距离确定每份事件的事件类别。2.根据权利要求1所述的方法,其特征在于,所述根据所述词网络中每个关键词到达除自身外的其他各关键词的词距离之前,所述方法还包括:针对所述词网络中的任一关键词,确定所述词网络中与所述关键词直接相连的关键词的数量;若所述数量未在预设数量区间内,则从所述词网络中剔除所述关键词。3.根据权利要求1所述的方法,其特征在于,所述根据所述词网络中每个关键词到达除自身外的其他各关键词的词距离之前,所述方法还包括:针对所述词网络中任两个直接相连的关键词,确定获取的事件中同时出现所述两个关键词的事件数量;若所述事件数量小于数量阈值,则将所述词网络中所述两个关键词间的连接关系剔除。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:构建所述词网络之前,基于相似度算法确定任两份事件间的文本相似度;针对任两份事件,若所述两份事件的文本相似度大于相似度阈值则将所述两份事件中的任一事件剔除。5.根据权利要求1所述的方法,其特征在于,所述根据所述词网络中每个关键词到达除自身外的其他各关键词的词距离,从所述词网络中的各关键词中选定重点词,包括:针对任一关键词,确定所述关键词在所述词网络中对应的相关词;其中,任一关键词与对应的相关词在所述词网络中直接相连,或通过至少一个关键词与对应的相关词间接相连;针对任一关键词,确定所述关键词在所述词网络中到达对应每个相关词的最短连接通路;并根据所述最短连接通路中包含的关键词数量确定所述关键词到达所述最短连接通路中的相关词的词距离;针对任一关键词,将所述关键词到达与所述关键词对应的每个相关词的词距离求和得到第一和值;若所述第一和值大于距离阈值则确定所述任一关键词为所述重点词。6.根据权利要求5所述的方法,其特征在于,所述根据从各事件中提取的关键词到达所述重点词的词距离确定每份事件的事件类别,包括:针对任一重点词,确定任一事件中提取的每个关键词到达所述重点词的词距离;...

【专利技术属性】
技术研发人员:刘东孙永良李建伟
申请(专利权)人:青岛海信网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1