数据表识别方法和系统技术方案

技术编号:16483088 阅读:18 留言:0更新日期:2017-10-31 15:38
本发明专利技术涉及一种数据表识别方法和系统,该数据表识别方法包括以下步骤:获取用户数据表,并对用户数据表进行特征识别,获取用户数据表中的内容特征和辅助特征;将内容特征和辅助特征与预先存储的特征库中的特征进行匹配,获取内容特征的第一匹配度和辅助特征的第二匹配度;根据第一匹配度和第二匹配度计算用户数据表的评价值;当评价值大于第一预设阈值时,将用户数据表判定为预定类型的核心数据资产表。上述的数据表识别方法和系统可以精确识别用户数据表的属性和类型,识别准确率高。

Data table recognition method and system

The invention relates to a method and system for identifying the data table, the data table recognition method comprises the following steps: obtaining user data table, and the recognition of the user data table, access to user data in the table of contents features and auxiliary features; the matching feature content features and auxiliary features and pre stored in the feature library the first, access to the content feature matching and auxiliary feature 2 matching; according to the first matching evaluation and 2 matching degree calculation for user table value; when the evaluation value is greater than the first predetermined threshold, the user will determine the data table as the core data assets table predetermined type. The above data table recognition method and system can accurately identify the attributes and types of the user data table, and the recognition accuracy is high.

【技术实现步骤摘要】
数据表识别方法和系统
本专利技术涉及数据库
,特别是涉及一种数据表识别方法和系统。
技术介绍
对于数据库的安全保护,一般会采用数据库审计或者数据库防火墙。然而数据库保护的核心是要保护用户在数据库存储的数据,因此识别哪些数据属于重要资产,从而可以设计敏感度更高的审计、监控策略来实现对这些重要数据的保护。目前的数据库安全产品,需要用户手动去配置,操作繁琐。另外,对于一些复杂的业务系统,用户根本无法精确判定哪些数据资产属于核心资产,因此不能针对不同等级的数据资产实施不同的审计和保护策略。
技术实现思路
基于此,有必要针对上述技术问题,提供一种数据表识别方法和系统,其能够自动识别用户数据表的类型和属性,识别准确率高。一种数据表识别方法,包括以下步骤:获取用户数据表,并对所述用户数据表进行特征识别,获取所述用户数据表中的内容特征和辅助特征;将所述内容特征和所述辅助特征与预先存储的特征库中的特征进行匹配,获取所述内容特征的第一匹配度和所述辅助特征的第二匹配度;根据所述第一匹配度和所述第二匹配度计算所述用户数据表的评价值;当所述评价值大于第一预设阈值时,将所述用户数据表判定为预定类型的核心数据资产表。在其中一个实施例中,所述根据所述第一匹配度和所述第二匹配度计算所述用户数据表的评价值的步骤包括:计算所述第一匹配度和所述第二匹配度的加权平均值,将所述加权平均值作为所述评价值。在其中一个实施例中,将所述用户数据表判定为预定类型的核心数据资产表的步骤包括:获取所述第一匹配度最大的内容特征;将所述用户数据表判定为第一匹配度最大的内容特征对应的核心数据资产表。在其中一个实施例中,在将所述用户数据表判定为预定类型的重要数据资产表的步骤之后,还包括:显示所述用户数据表的识别结果。在其中一个实施例中,还包括:当所述评价值大于第二预设阈值且所述评价值小于或者等于第一预设阈值时,则显示与所述用户数据表相关联的数据表,并将所述用户数据表存储为第一匹配度最大的内容特征对应的数据资产表,其中所述第二预设阈值小于所述第一预设阈值。一种数据表识别系统,包括:特征识别模块,用于获取用户数据表,并对所述用户数据表进行特征识别,获取所述用户数据表中的内容特征和辅助特征;匹配模块,用于将所述内容特征和所述辅助特征与预先存储的特征库中的特征进行匹配,获取所述内容特征的第一匹配度和所述辅助特征的第二匹配度;评价值计算模块,用于根据所述第一匹配度和所述第二匹配度计算所述用户数据表的评价值;识别模块,用于当所述评价值大于第一预设阈值时,则将所述用户数据表判定为预定类型的核心数据资产表。在其中一个实施例中,所述评价值计算模块还用于:计算所述第一匹配度和所述第二匹配度的加权平均值,将所述加权平均值作为所述评价值。在其中一个实施例中,所述识别模块还用于:获取所述第一匹配度最大的内容特征;将所述用户数据表判定为第一匹配度最大的内容特征对应的核心数据资产表。在其中一个实施例中,还包括:显示模块,用于显示所述用户数据表的识别结果。在其中一个实施例中,还包括:存储模块;当所述评价值大于第二预设阈值且所述评价值小于或者等于第一预设阈值时,所述存储模块用于,将所述用户数据表存储为第一匹配度最大的内容特征对应的数据资产表,其中所述第二预设阈值小于所述第一预设阈值;所述显示模块还用于显示与所述用户数据表相关联的数据表。上述的数据表识别方法和系统,通过对用户数据表进行特征识别,获取所述用户数据表中的内容特征和辅助特征;将内容特征和辅助特征与预先存储的特征库中的特征进行匹配,获取内容特征的第一匹配度和辅助特征的第二匹配度;根据第一匹配度和第二匹配度计算用户数据表的评价值;当评价值大于第一预设阈值时,则将用户数据表判定为预定类型的核心数据资产表。上述的数据表识别方法和系统可以精确识别用户数据表的属性和类型,识别准确率高。附图说明图1为一个实施例中的数据表识别方法的流程图;图2为一个实施例中的数据表识别系统的结构框图;图3为另一个实施例中的数据表识别系统的结构框图。具体实施方式在一个实施例中,如图1所示,提出了一种数据表识别方法。该方法包括以下步骤:步骤102,获取用户数据表,并对用户数据表进行特征识别,得到用户数据表中的内容特征和辅助特征。从用户数据库中获取待识别的用户数据表。这些用户数据表包括表名、字段,字段类型,字段长度,数据记录等。在本实施例中,用户数据表中的内容特征为数据记录部分,即为一些数据字段的特征。例如,密码可能是hash值,身份证可能是具有某种特征组合的数字,生日是日期数据等。内容特征可以为一个或者多个。辅助特征即为数据字典,数据字典是指对用户数据表中的数据的数据项、数据结构、数据流、数据存储、处理逻辑、外部实体等进行定义和描述的集合。例如辅助特征可以为:表名、字段名、存储过程名等特征。例如根据用户数据表的表名可以预测用户数据表的类型,例如表名为order或dingdan的用户数据表可能为订单,表名为*user*或*usr*的用户数据表可能为用户表。辅助特征可以为一个或者多个。对获取的用户数据表进行特征识别,获取用户数据表中所有的内容特征和辅助特征。步骤104,将内容特征和辅助特征与预先存储的特征库中的特征进行匹配,获取内容特征的第一匹配度和辅助特征的第二匹配度。在本实施例中,预先存储的特征库包括基本特征库和行业特征库,那么预先存储的特征库中的特征则包括基本特征和行业特征。基本特征包括如上述实施例中所述的身份证、hash值、用户名等基本特征。行业特征包括特定行业数据库特征,例如医疗行业几个常见HIS系统中的特征(例如哪些是医院的药品信息,哪些是处方信息),社区软件discuz系统(例如哪些存储用户名,哪些存储重要档案等)等。将上述实施例102中的内容特征和辅助特征与预先存储的特征库中的特征进行匹配,分别获取内容特征的第一匹配度和辅助特征的第二匹配度。匹配的方式可以为字符串匹配,还可以为其他匹配方式,这里不再赘述。步骤106,根据第一匹配度和第二匹配度计算用户数据表的评价值。在本实施例中,用户数据表的评价值用于判断用户数据表的属性(重要性等级)。该评价值越高,则用户数据表的重要性等级就越高。当该评价值大于第一预设阈值时,则可将该用户数据表判定为核心用户数据资产表。步骤108,当评价值大于第一预设阈值时,将用户数据表判定为预定类型的核心数据资产表。当评价值大于预设阈值时,则可将该用户数据表判定为核心数据资产表。反之,则该用户数据表为非核心数据资产表。通过上述步骤102和步骤104获取内容特征的第一匹配度和辅助特征第二匹配度之后,步骤106将会计算用户数据表的评价值,即对用户数据表进行打分。例如某个数据表,其表名匹配到了*user*这个特征,表中的字段名存在user_name,passwd这种关键字,返回的数据中存在满足hash值特征,身份证等特征。那么会给这张表匹配用户信息表打分。当分数超过某个阈值时,则可将该数据表自动识别为某个类型的核心数据资产表。在本实施例中,当用户数据表的评价值大于第一预设阈值时,则可判定该用户数据表的属性为核心数据资产表。同时可以判定用户数据表的类型为第一匹配度最大的内容特征对应的类型。即将用户数据表判定为第一匹配度最大的本文档来自技高网...
数据表识别方法和系统

【技术保护点】
一种数据表识别方法,其特征在于,包括以下步骤:获取用户数据表,并对所述用户数据表进行特征识别,获取所述用户数据表中的内容特征和辅助特征;将所述内容特征和所述辅助特征与预先存储的特征库中的特征进行匹配,获取所述内容特征的第一匹配度和所述辅助特征的第二匹配度;根据所述第一匹配度和所述第二匹配度计算所述用户数据表的评价值;当所述评价值大于第一预设阈值时,将所述用户数据表判定为预定类型的核心数据资产表。

【技术特征摘要】
1.一种数据表识别方法,其特征在于,包括以下步骤:获取用户数据表,并对所述用户数据表进行特征识别,获取所述用户数据表中的内容特征和辅助特征;将所述内容特征和所述辅助特征与预先存储的特征库中的特征进行匹配,获取所述内容特征的第一匹配度和所述辅助特征的第二匹配度;根据所述第一匹配度和所述第二匹配度计算所述用户数据表的评价值;当所述评价值大于第一预设阈值时,将所述用户数据表判定为预定类型的核心数据资产表。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一匹配度和所述第二匹配度计算所述用户数据表的评价值的步骤包括:计算所述第一匹配度和所述第二匹配度的加权平均值,将所述加权平均值作为所述评价值。3.根据权利要求1所述的方法,其特征在于,将所述用户数据表判定为预定类型的核心数据资产表的步骤包括:获取所述第一匹配度最大的内容特征;将所述用户数据表判定为第一匹配度最大的内容特征对应的核心数据资产表。4.根据权利要求1所述的方法,其特征在于,在将所述用户数据表判定为预定类型的重要数据资产表的步骤之后,还包括:显示所述用户数据表的识别结果。5.根据权利要求1所述的方法,其特征在于,还包括:当所述评价值大于第二预设阈值且所述评价值小于或者等于第一预设阈值时,则显示与所述用户数据表相关联的数据表,并将所述用户数据表存储为第一匹配度最大的内容特征对应的数据资产表,其中所述第二预设阈值小于所...

【专利技术属性】
技术研发人员:朱隽
申请(专利权)人:深圳市深信服电子科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1