结构化查询语句分类模型训练方法和装置制造方法及图纸

技术编号:28623018 阅读:21 留言:0更新日期:2021-05-28 16:18
本申请提供一种结构化查询语句分类模型训练方法和装置,包括:对所有训练用样本查询语句中的关键字进行特征选择,确定第一预设数量的选定关键字;根据所述训练用样本查询语句中包含的所述选定关键字,按照设定的选定关键字排序,构建表征所述训练用样本查询语句特征的特征向量;采用各个所述训练用样本查询语句对应的特征向量和分类标签,对所述结构化查询语句分类模型进行训练。因为采用的选定关键字是对关键字再做特征处理后得到,排除了常用关键字在模型训练过程中引入的影响,使得模型被训练为更关注核心关键字特征,也就使得模型使用过程中的预测精度更高。

【技术实现步骤摘要】
结构化查询语句分类模型训练方法和装置
本公开涉及数据分析
,尤其涉及一种结构化查询语句分类模型训练方法和装置。
技术介绍
根据处理业务类型的不同,数据库中的数据处理系统包括联机事务处理(On-LineTransactionProcessing,OLTP)和联机分析处理(On-LineAnalyticalProcessing,OLAP)两种类型。联机事务处理是一种以事务为核心的作业方式,一次的作业过程通常会涉及在数据库中执行插入、更新及删除的操作,但是操作的数据量比较小,可以即时地处理输入的数据、及时地响应,其主要应用于实时业务处理,例如银行交易的处理。联机事务处理强调数据库内存效率,强调内存各种指标的命令率,强调绑定变量,强调并发操作。联机分析处理关注于数据分析,重点在于分析和报告,其并没有事务性约束,计算相对复杂,强调SQL执行时长,强调磁盘I/O,强调数据分区等。为满足应用型要求,当前数据库更加强调处理混合负载,既提供联机事务处理,也提供联机分析处理。在接收到业务请求端发送来的结构化查询语句后,是采用联机事务处理还是联机分析处理方式处理结构化查询语句,直接影响系统资源的占用情况和系统的处理效率。目前,在接收到业务请求端发送的结构化查询语句后,仍然是采用规则匹配的方式对结构化查询语句进行分类,以确定是联机事务处理还是联机分析处理业务类型。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种结构化查询语句分类模型训练方法和装置,以及一种结构化查询语句分类方法和装置。一方面,本申请提供一种结构化查询语句分类模型训练方法,包括:对所有训练用样本查询语句中的关键字进行特征选择,确定第一预设数量的选定关键字;根据所述训练用样本查询语句中包含的所述选定关键字,按照设定的选定关键字排序,构建表征所述查询语句样本特征的特征向量;采用各个所述训练用样本查询语句对应的特征向量和分类标签,训练所述结构化查询语句分类模型。可选地,根据所述训练用样本查询语句中包含的所述选定关键字,按照设定的选定关键字排序,构建表征所述训练用样本查询语句特征的特征向量,包括:根据所述训练用样本查询语句中包含的所述选定关键字,计算对应的特征值;按照设定的选定关键字排序,根据所述训练用样本查询语句中包含的所述关键字对应的特征值,构建所述特征向量。可选地,根据所述训练用样本查询语句中包含的所述关键字,计算对应的特征值;包括:计算所述选定关键字在所述训练用样本中的词频-逆文档频率值,将所述词频-逆文档频率值作为所述特征值。可选地,对所有训练用样本查询语句中的关键字进行特征选择,确定第一预设数量的选定关键字,包括:计算各个所述关键字的度量值;按照所述度量值的大小对各个所述关键字进行排序,以及根据所述排序选择第一预设数量的所述关键字作为所述选定关键字;所述度量值为卡方值、信息增益、信息增益率或者基尼系数中的一种。可选地,对所有训练用样本查询语句中的关键字进行特征选择,确定第一预设数量的选定关键字,还包括:对所述训练用样本查询语句进行语法分析,确定所有关键字。可选地,在对所有所述关键字进行特征选择,确定第一预设数量的选定关键字前,还包括:删除出现次数小于第二预设数量的关键字。另一方面,本申请提供一种结构化查询语句分类方法,采用训练的所述结构化查询语句分类模型进行分类,包括:根据待识别查询语句中包含的所述选定关键字,按照所述设定的选定关键字排序构建表征所述待识别查询语句特征的识别向量;将所述识别向量输入所述结构化查询语句分类模型,得到分类结果。可选地,按照所述设定的选定关键字排序构建表征待识别查询语句特征的识别向量,包括:根据所述待识别查询语句和一选定的查询语句集,计算所述选定关键字对应的特征值;按照设定的选定关键字排序,根据所述选定关键字对应的特征值构建表征所述待识别查询语句特征的识别向量。再一方面,本申请提供一种结构化查询语句分类模型训练装置,包括:关键字选定单元,用于对所有训练用样本查询语句中的关键字进行特征选择,确定第一预设数量的选定关键字;第一向量构建单元,用于根据所述训练用样本查询语句中包含的所述选定关键字,按照设定的选定关键字排序,构建表征所述查询语句样本特征的特征向量;训练单元,用于采用各个所述训练用样本查询语句对应的特征向量和分类标签,训练所述结构化查询语句分类模型。可选地,所述第一向量构建单元包括:特征值计算子单元,用于根据所述训练用样本查询语句中包含的所述选定关键字,计算对应的特征值;特征向量构建子单元,用于按照所述设定的选定关键字排序,根据所述训练用样本查询语句中包含的所述关键字对应的特征值,构建所述特征向量。可选地,所述特征值计算子单元计算对应的所述特征值,包括:计算所述选定关键字在所述训练用样本中的词频-逆文档频率值,将所述词频-逆文档频率值作为所述特征值。可选地,所述关键字选定单元包括:度量值计算子单元,用于计算各个所述关键字的度量值;关键字选定子单元,用于按照所述度量值的大小对各个所述关键字进行排序,以及根据所述排序选择第一预设数量的所述关键字作为所述选定关键字;所述度量值为卡方值、信息增益、信息增益率或者基尼系数中的一种。可选地,所述结构化查询语句分类模型训练装置还包括:语法分析单元,用于对所述训练用样本查询语句进行语法分析,确定关键字。再一方面,本申请提供一种结构化查询语句分类装置,采用训练的所述结构化查询语句分类模型进行分类,包括:第二向量构建单元,用于根据待识别查询语句中包含的所述选定关键字,按照所述设定的选定关键字排序构建表征所述待识别查询语句特征的识别向量;模型使用单元,用于将所述识别向量输入所述结构化查询语句分类模型,得到分类结果。本申请提供的结构化查询语句分类模型训练方法,为了能够实现SQL查询语句的快速归类划分,以已经确定分类SQL查询语句为基础基于SQL查询语句中的关键字做特征选择处理,以得到能够代表各个训练用样本查询语句特征的选定关键字,再利用选定关键字构建特征向量对模型进行训练,得到结构化查询语句类型识别模型。因为SQL查询语句在构建过程中,其类型是由用户指定的SQL查询语句的结构形式确定(核心是由用户选定的某些关键字确定),通过对此类SQL语句中选定关键字构建的特征向量,也内含表征SQL查询语句类型的特征,采用特征向量对模型进行训练,使得训练后模型具有区分SQL查询语句类型的能力。因为采用的选定关键字是对关键字再做特征处理后得到,排除了常用关键字在模型训练过程中引入的影响,使得模型被训练为更关注核心关键字特征,也就使得模型使用过程中的预测精度更高。采用本申请提供的训练后的结构化查询语句分类模型,能够快速地将待识别查询语句进行分类,本文档来自技高网...

【技术保护点】
1.一种结构化查询语句分类模型训练方法,其特征在于,包括:/n对所有训练用样本查询语句中的关键字进行特征选择,确定第一预设数量的选定关键字;/n根据所述训练用样本查询语句中包含的所述选定关键字,按照设定的选定关键字排序,构建表征所述训练用样本查询语句特征的特征向量;/n采用各个所述训练用样本查询语句对应的特征向量和分类标签,训练所述结构化查询语句分类模型。/n

【技术特征摘要】
1.一种结构化查询语句分类模型训练方法,其特征在于,包括:
对所有训练用样本查询语句中的关键字进行特征选择,确定第一预设数量的选定关键字;
根据所述训练用样本查询语句中包含的所述选定关键字,按照设定的选定关键字排序,构建表征所述训练用样本查询语句特征的特征向量;
采用各个所述训练用样本查询语句对应的特征向量和分类标签,训练所述结构化查询语句分类模型。


2.根据权利要求1所述结构化查询语句分类模型训练方法,其特征在于,根据所述训练用样本查询语句中包含的所述选定关键字,按照设定的选定关键字排序,构建表征所述训练用样本查询语句特征的特征向量,包括:
根据所述训练用样本查询语句中包含的所述选定关键字,计算对应的特征值;
按照设定的选定关键字排序,根据所述训练用样本查询语句中包含的所述关键字对应的特征值,构建所述特征向量。


3.根据权利要求2所述结构化查询语句分类模型训练方法,其特征在于,
根据所述训练用样本查询语句中包含的所述关键字,计算对应的特征值;包括:
计算所述选定关键字在所述训练用样本查询语句中的词频-逆文档频率值,将所述词频-逆文档频率值作为所述特征值。


4.根据权利要求1-3任一项所述结构化查询语句分类模型训练方法,其特征在于,对所有训练用样本查询语句中的关键字进行特征选择,确定第一预设数量的选定关键字,包括:
计算各个所述关键字的度量值;
按照所述度量值的大小对各个所述关键字进行排序,以及根据所述排序选择第一预设数量的所述关键字作为所述选定关键字;
所述度量值为卡方值、信息增益、信息增益率或者基尼系数中的一种。


5.根据权利要求4所述结构化查询语句分类模型训练方法,其特征在于,还包括:
对所述训练用样本查询语句进行语法分析,确定所有关键字。


6.根据权利要求5所述结构化查询语句分类模型训练方法,其特征在于,
在对所有所述关键字进行特征选择,确定第一预设数量的选定关键字前,还包括:删除出现次数小于第二预设数量的关键字。


7.一种结构化查询语句分类方法,其特征在于,采用如权利要求1-6任一项训练的所述结构化查询语句分类模型进行分类,包括:
根据待识别查询语句中包含的所述选定关键字,按照所述设定的选定关键字排序构建表征所述待识别查询语句特征的识别向量;
将所述识别向量输入所述结构化查询语句分类模型,得到分类结果。


8.根据权利要求7所述结构化查询语句分类方法,其特征在于,按照所述设定的选定关键字排序构建表征待识别查询语句特征的识别向量,包括:
根据所述待识别查询语句和一选定的查询语句集,计算所述选定关键字对应的度量值;
按照设定的选定关键...

【专利技术属性】
技术研发人员:雷涛乔旺龙吕慧
申请(专利权)人:天云融创数据科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1