【技术实现步骤摘要】
【国外来华专利技术】使用来自多个分类模块的聚合信息对数据进行分类
[0001]相关申请交叉引用
[0002]本申请要求2019年8月15日提交的第16/542,016号美国专利申请的优先权,通过引用将其全部并入本文。
[0003]本技术涉及数据分类,特别是使用来自多个分类模块生成的聚合分类信息对数据进行分类。
技术介绍
[0004]计算系统可以接收和处理多种类型的数据。例如,计算设备可以处理代表数字文档的多种特征的数据流。计算系统可处理数据流以确定包括在数据流中的特征(例如,名字,地址,业务相关信息,个人信息)。
[0005]在许多情况下,计算系统可能会对数据流中包括的数据的部分进行分类,以确定数据的性质。作为示例,数据流的第一部分可被分类为个体的名字,数据流的第二部分可被分类为个体的个人标识符(例如,政府发布的标识号)。
[0006]计算系统可以基于数据的部分的分类采取动作(例如,存储数据的该部分,删除数据的该部分,将数据的该部分传输到外部设备)。在一些情况下,一些分类可能代表个人或敏感数据。在判定数据的部分的分类包括个人/敏感数据后,针对数据的该部分采取的动作可基于该数据的个人/敏感性质。例如,被分类为敏感数据的数据可以被存储在存储器的特定部分中,或者被删除以保护数据的敏感性质。
附图说明
[0007]通过结合附图研究具体实施方式,本领域技术人员将更清楚地了解本技术的多种特性和特征。本技术的实施例在附图中以示例而非限制性方式示出,在附图中相同的参考标记可以表示相同的元素。
[0 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种由系统执行的对数据进行分类的方法,所述方法包括:由包括在分类模块集中的每个分类模块获得数据流;检查包括在所述数据流中的数据的第一部分,以确定所述数据的第一部分的特征;由所述分类模块集中的每个分类模块,将确定出的特征与分类列表进行比较,以判定建议分类和置信值,每个建议分类确定在所述分类列表中包括的与所述数据的第一部分的特征相匹配且第一相似度超过第一阈值相似度的分类类型;由聚合模块按每个分类类型聚合所述建议分类和所述置信值;由所述聚合模块基于聚合后的建议分类和置信值生成最终分类;以及将所述最终分类发送给外部设备以执行后续动作。2.根据权利要求1所述的方法,其中所述数据流包括在数据库中包括的表中被结构化的数据,其中所述数据流的每个部分代表在所述数据库中包括的所述表的列。3.根据权利要求1所述的方法,其中所述分类模块集包括:字典模块,其被配置为将所述数据的第一部分的确定出的特征与在至少一个字典中包括的条目进行比较;正则表达式模块,其被配置为将所述数据的第一部分的确定出的特征与包括在至少一个正则表达式模式列表中的正则表达式模式进行比较;以及学习模块,其被配置为将所述数据的第一部分的确定出的特征与训练数据集进行比较。4.根据权利要求2所述的方法,还包括:将每列数据和所述建议分类转换为至少一个数值向量,该至少一个数值向量确定每列数据和每一建议分类的量化特征。5.根据权利要求2所述的方法,其中所述学习模块被配置为:基于将所述数据的第一部分的所述特征和所述分类列表与所述训练数据集进行比较,生成第一建议分类和第一置信值;判定与所述数据的第一部分的所述特征和生成的第一建议分类相对应的至少一条规则;以及将至少一条规则并入到所述训练数据集中。6.根据权利要求1所述的方法,其中所述生成所述最终分类还包括:用所述聚合模块判定所述最终分类所利用的规则集比较每个分类类型的聚合后的建议分类和聚合后的置信值;判定与所述聚合后的建议分类和所述最终分类之间的共同特征相对应的至少一条规则;以及将至少一条规则并入到所述规则集中。7.根据权利要求1所述的方法,还包括:检查所述最终分类,以判定所述最终分类是否包括表示个体的信息;以及基于判定所述最终分类包括表示个体的信息,将标记附加到所述数据的第一部分。8.根据权利要求1所述的方法,其中所述分类模块集和所述聚合模块经由代理将信息转发给所述外部设备。9.根据权利要求1所述的方法,其中由所述外部设备执行的所述后续动作包括以下任
意个:将所述数据的第一部分存储在至少一个存储器中的第一位置,将所述数据的第一部分发送给外部设备,删除所述数据的第一部分,以及将所述数据的第一部分存储在与被确定为表示个体的数据相关联的至少一个存储器中的第二位置。10.根据权利要求1所述的方法,还包括:向外部设备发送反馈请求,所述反馈请求包括所述最终分类和所述数据的第一部分中的任意个;以及从所述外部设备接收包括反馈信息的响应,其中所述反馈信息被添加到所述聚合模块生成后续最终分类所利用的聚合器训练数据集中。11.根据权利要求1所述的方法,还包括:将所述最终分类和所述数据的第一部分转换为代表所述最终分类和所述数据的第一部分的量化特征的至少一个数值向量。12.一种系统,包括:分类模块集,其包括字典模块,正则表达式模块,和学习模块,其中每个分类模块被配置为:获取数据库中被结构化为数据列的第一数据集;确定包括在所述第一数据集中的所述数据库的第一列数据的特征;以及从分类列表和第一置信值判定第一建议分类,所述第一建议分类确定在所述分类列表中与所述第一列的确定出的特征相匹配的分类;以及聚合模块,其被配置为:接收按所述分类模块集中的每一个判定的所述建议分类和所述置信值;按分类类型聚合所述建议分类和所述置信值;基于聚合后的建议分类和所述置信值判定最终分类;以及将所述最终...
【专利技术属性】
技术研发人员:迈克尔,
申请(专利权)人:科里布拉有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。