【技术实现步骤摘要】
基于文本数据的容斥事件检测方法和装置
[0001]本申请的实施例涉及数据处理
,尤其涉及一种基于文本数据的容斥事件检测方法和装置。
技术介绍
[0002]随着政府不同数据服务的数据汇聚与存储,使得发生的事件种类繁多,且事件和事件的定义范围有近义与互斥等现象存在。
[0003]在实现本专利技术的过程中,专利技术人发现,针对文本数据中容斥事件的检测,相关技术缺乏泛化能力且迁移能力较弱。
技术实现思路
[0004]本申请的实施例提供了一种基于文本数据的容斥事件检测方法和装置,能够改善针对文本数据中容斥事件的检测,相关技术缺乏泛化能力且迁移能力较弱的问题。
[0005]在本申请的第一方面,提供了一种基于文本数据的容斥事件检测方法,包括:获取待处理工单文本数据;对所述待处理工单文本数据进行预处理;根据预处理后的所述待处理工单文本数据,通过训练完成的容斥事件模型,计算预处理后的所述待处理工单文本数据中因素的概率值;所述因素为预处理后的所述待处理工单文本数据中所有事件标签类型中每一类型事件标签;根据预 ...
【技术保护点】
【技术特征摘要】
1.一种基于文本数据的容斥事件检测方法,其特征在于,包括:获取待处理工单文本数据;对所述待处理工单文本数据进行预处理;根据预处理后的所述待处理工单文本数据,通过训练完成的容斥事件模型,计算预处理后的所述待处理工单文本数据中因素的概率值;所述因素为预处理后的所述待处理工单文本数据中所有事件标签类型中每一类型事件标签;根据预设业务规则、容斥规则库、概率值阈值和所述概率值,确定所述待处理文本数据中的容斥事件项;根据所述容斥事件项,进行预警并生成处理工单。2.根据权利要求1所述的方法,其特征在于,所述根据预设业务规则、容斥规则库、概率值阈值和所述概率值,确定所述待处理文本数据中的容斥事件项,包括:根据概率值阈值,对所述因素进行筛选,保留概率值大于所述概率值阈值的所述因素;根据预设业务规则和容斥规则库,获得所述预设业务规则对应的容斥规则;根据所述容斥规则和概率值大于所述概率值阈值的所述因素,确定所述待处理文本数据中的容斥事件项。3.根据权利要求1所述的方法,其特征在于,所述对所述待处理工单文本数据进行预处理,包括:对所述待处理工单文本数据进行标识;对标识后的所述待处理工单文本数据中每一条待处理工单文本数据进行分词;对分词后的所述待处理工单文本数据进行embedding向量化表示;对向量化表示后的所述待处理工单文本数据进行编码量化处理,获取所述待处理工单文本数据的事件标签类型;其中,所述事件标签类型的数量,根据训练数据的样本范围自动化采集构建。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述容斥事件模型的训练方式包括:获取所述容斥事件模型的训练样本,所述训练样本包括正样本和负样本;其中,所述正样本为带有互斥事件标签的工单文本数据,所述负样本为带有单个事件标签的工单文本数据;根据正样本和负样本对预训练的多标签...
【专利技术属性】
技术研发人员:汤灏,包利安,郑文博,
申请(专利权)人:北京零点有数数据科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。