【技术实现步骤摘要】
一种基于文本处理的异常事件分类方法及系统
本专利技术涉及一种自然语言处理技术,尤其是一种基于文本处理的异常事件分类方法及系统。
技术介绍
异常事件分类是指对一条异常事件通过自然语言处理算法进行标签分类标记,标签包括接警类型、事件类型、案由类型、地址区域类型,现在的异常事件文本分类,主要的算法为朴素贝叶斯与TextCNN。其中朴素贝叶斯是一种简单的模型,依赖于词袋模型,只能统计宏观上的语义特征,无法获取词语位置信息,以及词语间的相互关系,是一种低级模型,准确率低,而TextCNN是一种以文本为输入的卷积神经网络,有如下几个主要的缺陷:1、依赖分词以及训练好的词向量,对于异常事件文本,训练一套通用的词向量需要依赖地名、专有名词等实体的识别,工作量很大;2、一条异常事件所属分类其实只由文本中的几个词汇就能体现,而神经网络无法将注意力集中于输入文本序列的特定片段,导致判别准确率较低;3、卷积神经网络采用一个滑动窗口对输入文本进行扫描,因此无法获得不相邻词汇之间的联系,模型难以获得一个较好的语义表征能力。专利技 ...
【技术保护点】
1.一种基于文本处理的异常事件分类方法,其特征在于包括如下步骤:/n步骤1、设定朴素贝叶斯模型;/n步骤2、利用BERT进行异常事件标签分类;/n步骤3、根据业务逻辑模型判断异常事件类型。/n
【技术特征摘要】
1.一种基于文本处理的异常事件分类方法,其特征在于包括如下步骤:
步骤1、设定朴素贝叶斯模型;
步骤2、利用BERT进行异常事件标签分类;
步骤3、根据业务逻辑模型判断异常事件类型。
2.根据权利要求1所述的一种基于文本处理的异常事件分类方法,其特征在于,所述步骤1中所述朴素贝叶斯模型以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于概率分布,求出在输入条件下,使得后验概率最大的输出的设定首先基于原始的异常事件文本数据,用命名实体识别的方式将与异常事件特征不密切的要素替换成相同的字符表示,进行数据预处理,然后将文本进行分词,每个词语作为朴素贝叶斯的输入特征,文本的标签作为模型的输出,统计每类文档标签下的词语概率分布,生成模型,利用参数学习到一个宏观层面的分类模型。
3.根据权利要求1所述的一种基于文本处理的异常事件分类方法,其特征在于,所述步骤2中所述异常事件标签分类包括基于原始的异常事件文本数据、基于异常事件文本以及对应的各类异常事件标签、Fine-tune微调、文本数据与标签数据的评分,所述基于原始的异常事件文本数据、对BERT模型进行一个参数预训练,让BERT模型学习到异常事件文本的内在语言逻辑和表达,用与朴素贝叶斯相同的预处理方式,然后,对每一条文本进行Token编码处理,并对每一句话进行截断和补零处理,令每一句的长度相同;所述于异常事件文本以及对应的各类异常事件标签在预训练好的BERT模型的下游添加一个全连接的判别层,进行MaskLM和NextSentencePrediction两类任务的训练;所述Fine-tune微调根据不同类型的异常事件标签分类任务,对文本采取不同的预处理模式;所述文本数据与标签数据的评分在之前预训练的BERT模型的输出端连接一个输出大小为所有异常事件类别数量的全链接softmax层,以获得每一个标签的评分。
4.根据权利要求1所述的一种基于文本处理的异常事件分类方法,其特征在于,所述步骤3中所述业务逻辑模型通过人工对文本数据的规律总结以及异常事件其它字段的提取,结合相关的业务知识,用正则表达式、关键词匹配方式给这些类在输出层加一个微小的分值,以辅助BERT的判别,具体步骤如下:
步骤31、事件类别分类任务中的异常事件;
步骤32、事件类别分类任务中的混淆;
步骤33、区域类型分类任务中的判别;
步骤34、案由标签分类任务的额外权重。
5.根据权利要求2所述的一种基于文本处理的异常事件分类方法,其特征在于,所述朴素贝叶斯模型以特征词之间独立作为前提假设,假设集合H并在其中寻找给定数据D时假设h∈H,这种假设方式称为后验假设,确定MAP假设方式利用朴素贝叶斯公式计算每个候选假设的后验概率:表达方式如下:
P(h|D)=P(h|D)P(h)/P(D)
式中,P(h|D)表示后验概率函数;D表示给定数据;h表示包含于H。
6.根据权利要求3所述的一种基于文本处理的异常事件分类方法,其特征在于,所述BERT模型基于原始的异常事件文本数据构建空间下一个时刻状态,进而得出如下方式:
式中,表示离散空间Si在时刻T的状态;f表示剩余空间状态SJ对Si...
【专利技术属性】
技术研发人员:叶恺翔,吕晓宝,张谦,孙亚文,姚伯祥,王元兵,王海荣,
申请(专利权)人:中科曙光南京研究院有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。