基于分布式数据库和机器学习的事件自动分类方法和系统技术方案

技术编号:35134043 阅读:17 留言:0更新日期:2022-10-05 10:08
本发明专利技术公开了基于分布式数据库和机器学习的事件自动分类方法和系统,基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。采用机器学习进行分类预测,能自适应的提升预测准确率,将事件分类的算法执行逻辑迁移到分布式数据中,大力提升了计算效率和减少了数据迁移同步工作,基于多分类算法要求,将词向量矩阵压缩为行向量矩阵,一站式的接入机器学习算法,方便进行模型训练预测。方便进行模型训练预测。方便进行模型训练预测。

【技术实现步骤摘要】
基于分布式数据库和机器学习的事件自动分类方法和系统


[0001]本专利技术涉及事件自动分类
,尤其涉及基于分布式数据库和机器学习的事件自动分类方法和系统。

技术介绍

[0002]传统的事件分类有两种思路,包括:人工进行事件分类和基于固定规则进行事件分类。对于人工分类模式,明显存在分类效率低下、无法长时间工作、容易出现错误且浪费人力的问题;对于基于固定规则进行分类的模式,如图1所示为基于固定规则的事件分类流程,需要基于历史的事件数据梳理出事件分类规则库,对于不在规则库中的事件,则无法进行自动分类,并且规则判断比较严格,如果事件关键词不是和规则完全匹配,则很难自动实现分类。

技术实现思路

[0003]本专利技术提供基于分布式数据库和机器学习的事件自动分类方法和系统,以解决现有技术中存在的传统的事件分类有两种思路,包括:人工进行事件分类和基于固定规则进行事件分类。对于人工分类模式,明显存在分类效率低下、无法长时间工作、容易出现错误且浪费人力的问题;对于基于固定规则进行分类的模式,需要基于历史的事件数据梳理出事件分类规则库,对于不在规则库中的事件,则无法进行自动分类,并且规则判断比较严格,如果事件关键词不是和规则完全匹配,则很难自动实现分类的上述问题。
[0004]为了达到上述目的,本专利技术提供如下技术方案:
[0005]基于分布式数据库和机器学习的事件自动分类方法和系统,该于分布式数据库和机器学习的事件自动分类方法,包括:
[0006]S101:基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;
[0007]S102:基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;
[0008]S103:基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。
[0009]其中,所述S101步骤包括:
[0010]S1011:基于中文分词器和自定义词库,对历史事件数据进行预处理;
[0011]S1012:当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;
[0012]S1013:对历史事件数据预处理后获取历史事件数据的若干个分词。
[0013]其中,所述S102步骤包括:
[0014]S1021:基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;
[0015]S1022:将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文
本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;
[0016]S1023:词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维的行向量矩阵;
[0017]S1024:在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;
[0018]S1025:基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。
[0019]其中,所述S1024步骤包括:
[0020]在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。
[0021]其中,所述S103步骤包括:
[0022]当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,获取预测结果表,通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。
[0023]基于分布式数据库和机器学习的事件自动分类系统,包括:
[0024]数据预处理单元,用于基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;
[0025]数据模型训练单元,用于基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;
[0026]事件分类预测单元,用于基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。
[0027]其中,所述数据预处理单元包括:
[0028]事件数据预处理第一子单元,用于基于中文分词器和自定义词库,对历史事件数据进行预处理;
[0029]事件数据预处理第二子单元,用于当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;
[0030]分词获取子单元,用于对历史事件数据预处理后获取历史事件数据的若干个分词。
[0031]其中,所述数据模型训练单元包括:
[0032]词向量训练子单元,用于基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;
[0033]词向量矩阵子单元,将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;
[0034]压缩变换子单元,用于词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维的行向量矩阵;
[0035]分布式数据子单元,用于在Greenplum分布式数据库中创建维度表,将压缩后的行
向量矩阵按列存储于维度表中;
[0036]多分类训练模型子单元,用于基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。
[0037]其中,所述分布式数据子单元包括:
[0038]在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。
[0039]其中,所述事件分类预测单元包括:
[0040]当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,获取预测结果表,通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。
[0041]与现有技术相比,本专利技术具有以下优点:
[0042]基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。采用机器学习进行分类预测,能自适应的提升预测准确率,将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于分布式数据库和机器学习的事件自动分类方法,其特征在于,包括:S101:基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;S102:基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;S103:基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。2.根据权利要求1所述的基于分布式数据库和机器学习的事件自动分类方法,其特征在于,所述S101步骤包括:S1011:基于中文分词器和自定义词库,对历史事件数据进行预处理;S1012:当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;S1013:对历史事件数据预处理后获取历史事件数据的若干个分词。3.根据权利要求2所述的基于分布式数据库和机器学习的事件自动分类方法,其特征在于,所述S102步骤包括:S1021:基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;S1022:将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;S1023:词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维的行向量矩阵;S1024:在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;S1025:基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。4.根据权利要求3所述的基于分布式数据库和机器学习的事件自动分类方法,其特征在于,所述S1024步骤包括:在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。5.根据权利要求4所述的基于分布式数据库和机器学习的事件自动分类方法,其特征在于,所述S103步骤包括:当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,获取预测结果表,通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。6.基于分布式数据库和机器学习的事件自动分类系统,其特征在于,包括:数据预处理单元,...

【专利技术属性】
技术研发人员:叶智慧廖畅陈成斌苏胜林马军亮
申请(专利权)人:中睿信数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1