当前位置: 首页 > 专利查询>白腊梅专利>正文

语句聚类方法、事务聚类方法、语句聚类装置与事务聚类装置制造方法及图纸

技术编号:28871659 阅读:21 留言:0更新日期:2021-06-15 23:04
本发明专利技术适用于数据库技术领域,提供了一种语句聚类方法,包括:实时接收语句请求输入;对语句请求做去噪与归一化处理得到净化语句请求;通过特征提取算法提取得到净化语句请求中的语句特征值;将语句特征值按首次出现的顺序添加形成语句类标识序列,并建立两者之间的语句映射关系。本发明专利技术还提供一种事务聚类方法、语句聚类装置与事务聚类装置。本发明专利技术实施例的语句聚类方法中,建立了单一的语句请求与由语句请求聚类而成的、更高层次的语句类标识序列之间的有效联系,不仅是运维人员可根据语句类标识序列分析数据库的异常原因,其他人员也可基于语句聚类的方法对其他领域的数据进行有效的聚类,并用以观测分析其他数据的发展趋势。

【技术实现步骤摘要】
语句聚类方法、事务聚类方法、语句聚类装置与事务聚类装置
本专利技术属于数据库
,尤其涉及一种语句聚类方法、事务聚类方法、语句聚类装置与事务聚类装置。
技术介绍
现有技术中,一般在数据库服务端内的数据发生异常时,通过运维人员在现场通过人为方式定下数据分类标准,以使用于数据库服务端根据分类标准对数据进行分类,来帮助观测数据变化的运维人员确定数据异常原因。而当数据库服务端内的数据量比较大时,单纯依靠运维人员现场对数据进行分类和统计,限于人力难以及时、有效地确定数据异常原因。另外,即使运维人员花费了大量时间与精力确认了数据发生异常的具体原因,但无法根据单一异常数据的异常原因,延伸至用于分析判断该异常数据所属类的其他数据可能会发生异常的原因,更是无法延伸至用于分析判断至该类数据所属的更高层次的数据主体可能会发生异常的原因。也就是说,难以根据单一的数据异常原因,有效地扩展延伸至用于分析判断更大、更高层次的数据主体可能会发生异常的原因。同样的,在其他场景下,即使确认了一个目标物的特征信息,但难以准确、有效地将具备同样特征信息的目标物确定为同一类,更是难以将同一类的所有目标物再确定为更大、更高层次的类,难以建立单一目标物与由目标物构成的更高层次的主体之间的有效联系。
技术实现思路
本专利技术实施例提供一种语句聚类方法、事务聚类方法、语句聚类装置与事务聚类装置,旨在解决现有技术中难以建立单一目标物与由目标物构成的更高层次的主体之间的有效联系,如数据库服务端内的数据异常时,单纯通过运维人员在现场通过人为方式无法及时、有效地确定数据分类,更无法及时、有效地确定异常原因的技术问题的技术问题。本专利技术实施例是这样实现的,一种语句聚类方法,包括:实时接收语句请求输入;对所述语句请求做去噪与归一化处理得到净化语句请求;通过特征提取算法提取得到所述净化语句请求中的语句特征值;将所述语句特征值按首次出现的顺序添加形成语句类标识序列,并建立两者之间的语句映射关系。本专利技术实施例还提供一种事务聚类方法,包括:接收事务内所包含的事务特征值集合的输入,所述事务特征值集合通过上述所述的语句聚类方法所得到的所述语句类标识序列形成;按首次出现的顺序对比所接收到的每个所述事务特征值集合;在对比的所述事务特征值集合相同时,将相同的所述事务特征值集合聚类为一类;在对比的所述事务特征值集合不同时,将不同的所述事务特征值集合按首次出现的顺序添加形成事务特征值序列。本专利技术实施例还提供一种语句聚类装置,其包括:语句请求接收单元,用于实时接收语句请求输入;语句请求处理单元,用于对所述语句请求做去噪与归一化处理得到净化语句请求;语句特征值提取单元,用于通过特征提取算法提取得到所述净化语句请求中的语句特征值;语句类标识序列形成单元,用于将所述语句特征值按首次出现的顺序添加形成语句类标识序列,并建立两者之间的语句映射关系。本专利技术实施例还提供一种事务聚类装置,其包括:事务特征值集合接收单元,用于接收事务内所包含的事务特征值集合的输入,所述事务特征值集合通过上述所述的语句聚类装置所得到的所述语句类标识序列形成;事务特征值集合对比单元,用于按首次出现的顺序对比所接收到的每个所述事务特征值集合;事务特征值集合聚类单元,用于在对比的所述事务特征值集合相同时,将相同的所述事务特征值集合聚类为一类;事务特征值序列形成单元,用于在对比的所述事务特征值集合不同时,将不同的所述事务特征值集合按首次出现的顺序添加形成事务特征值序列。本专利技术实施例的有益效果是,通过处理接收到的语句请求得到语句特征值,再根据语句特征值形成语句类标识序列,以语句类标识序列对所接收到的语句请求进行有效的聚类,建立了单一语句请求与由语句请求聚类而成的、更高层次的语句类标识序列之间的有效联系。在语句聚类的一个具体实施场景中,当运维人员遇见数据异常情况时,处理得到异常数据的语句特征值,通过异常数据的语句特征值与已存储的语句类标识序列之间的对比来判断异常原因。还可根据语句聚类输出的语句类标识序列,来分析判断具备同类特征值的语句请求可能存在的异常情况,还可进一步地用以分析判断由语句类标识序列构成的事务以及业务的某些发展趋势与可能存在的异常问题等,为处理异常情况提供有效的观测数据支持。其他人员也可基于语句聚类的方法对其他领域的数据进行有效的聚类,并用以观测分析其他数据的发展趋势。附图说明图1与图2是本专利技术实施例的语句聚类方法的流程示意图;图3至图5是本专利技术实施例的事务聚类方法的流程示意图;图6与图7是本专利技术实施例的语句聚类装置的结构示意图;图8至图10是本专利技术实施例的事务聚类装置的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。实施例一请参阅图1,本专利技术实施例的语句聚类方法包括步骤:S1:实时接收语句请求输入;S2:对语句请求做去噪与归一化处理得到净化语句请求;S3:通过特征提取算法提取得到净化语句请求中的语句特征值;S4:将语句特征值按首次出现的顺序添加形成语句类标识序列,并建立两者之间的语句映射关系。本专利技术实施例中,通过处理接收到的语句请求得到语句特征值,再根据语句特征值形成语句类标识序列,以语句类标识序列对所接收到的语句请求进行有效的聚类,建立了单一语句请求与由语句请求聚类而成的、更高层次的语句类标识序列之间的有效联系。在语句聚类的一个具体实施场景中,当运维人员遇见数据异常情况时,处理得到异常数据的语句特征值,通过异常数据的语句特征值与已存储的语句类标识序列之间的对比来判断异常原因。更为重要的是,还可根据语句聚类输出的语句类标识序列,来分析判断具备同类特征值的语句请求可能存在的异常情况,还可进一步地用以分析判断由语句类标识序列构成的事务以及业务的某些发展趋势与可能存在的异常问题等,为处理异常情况提供有效的观测数据支持。本专利技术实施例的语句聚类方法应用于数据库服务端,数据库服务端内的数据由语句请求构成,下文写到的数据均可以理解为语句请求,语句请求为用于数据库服务端的结构化查询语言(StructuredQueryLanguage,SQL)请求,常用于存取数据以及查询、更新和管理关系数据库系统。“聚类”则为将存储入数据库服务端内的语句请求按一定的条件聚成一类,以把数据库服务端所接收到的不同语句请求自动分为多个类的过程。具体地,在数据库服务端启动后,对客户端所发送的语句请求的接收是实时进行的,数据库服务端在接收到语句请求并处理后,会针对语句请求向客户端返回应答数据(应答语句请求),对于以上数据库服务端与客户端之间交互所产生的数据,则需要进行聚类,以确定在数据库服务端与客户端之间的交互过程中,出本文档来自技高网...

【技术保护点】
1.一种语句聚类方法,其特征在于,包括:/n实时接收语句请求输入;/n对所述语句请求做去噪与归一化处理得到净化语句请求;/n通过特征提取算法提取得到所述净化语句请求中的语句特征值;/n将所述语句特征值按首次出现的顺序添加形成语句类标识序列,并建立两者之间的语句映射关系。/n

【技术特征摘要】
1.一种语句聚类方法,其特征在于,包括:
实时接收语句请求输入;
对所述语句请求做去噪与归一化处理得到净化语句请求;
通过特征提取算法提取得到所述净化语句请求中的语句特征值;
将所述语句特征值按首次出现的顺序添加形成语句类标识序列,并建立两者之间的语句映射关系。


2.如权利要求1所述的语句聚类方法,其特征在于,所述对所述语句请求做去噪与归一化处理得到净化语句请求,包括:
遍历所述语句请求中的每个字符,将所述语句请求中的所有字符转换为大写;
剔除所述语句请求中的第一类字符;
将所述语句请求中的第二类字符替换为第三类字符;
将所述语句请求剩余的所有字符输出为净化语句请求。


3.一种事务聚类方法,其特征在于,包括:
接收事务内所包含的事务特征值集合的输入,所述事务特征值集合通过如权利要求1-2任一项所述的语句聚类方法所得到的所述语句类标识序列形成;
按首次出现的顺序对比所接收到的每个所述事务特征值集合;
在对比的所述事务特征值集合相同时,将相同的所述事务特征值集合聚类为一类;
在对比的所述事务特征值集合不同时,将不同的所述事务特征值集合按首次出现的顺序添加形成事务特征值序列。


4.如权利要求3所述的事务聚类方法,其特征在于,在所述在对比的所述事务特征值集合不同时,将不同的所述事务特征值集合按首次出现的顺序添加形成事务特征值序列之后,包括:
为所述事务特征值集合赋予对应的事务类标识,并建立两者之间的事务映射关系;
将所述事务类标识按首次出现的顺序添加形成事务类标识序列。


5.如权利要求3所述的事务聚类方法,其特征在于,所述接收事务内所包含的事务特征值集合的输入,包括:
确定事务起始标识与事务结束标识;
获取所述事务起始标识与所述事务结束标识之间的所述语句类标识序列并形成事务特征值集合。


6.如权利要求5所述的事务聚类方法,其特征在于,所述事务起始标识为起始语句,所述事务结束标识为结束语句。


7.一种语句聚类装置,其特征在于,包括:
语句请求接收单元,用于实时接收语句请求输入;
语句请求处...

【专利技术属性】
技术研发人员:白腊梅
申请(专利权)人:白腊梅
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1