使用来自多个分类模块的聚合信息对数据进行分类制造技术

技术编号:34595985 阅读:24 留言:0更新日期:2022-08-20 08:56
本技术涉及对数据进行分类的方法和系统。分类模块集可以检查接收到的数据,并确定接收到的数据的置信值的建议分类。聚合模块可接收并聚合建议分类和置信值。基于聚合后的建议分类和置信值,聚合模块可以为接收到的数据生成最终分类。外部设备可以基于与数据相关联的最终分类来关于接收到的数据执行动作。所执行的操作可以包括维护数据,以便在收到数据请求时检索数据。分类模块和聚合模块的任意个都可以基于可以在分类数据的后续迭代中被利用的训练数据,以提高分类准确度。以提高分类准确度。以提高分类准确度。

【技术实现步骤摘要】
【国外来华专利技术】使用来自多个分类模块的聚合信息对数据进行分类
[0001]相关申请交叉引用
[0002]本申请要求2019年8月15日提交的第16/542,016号美国专利申请的优先权,通过引用将其全部并入本文。


[0003]本技术涉及数据分类,特别是使用来自多个分类模块生成的聚合分类信息对数据进行分类。

技术介绍

[0004]计算系统可以接收和处理多种类型的数据。例如,计算设备可以处理代表数字文档的多种特征的数据流。计算系统可处理数据流以确定包括在数据流中的特征(例如,名字,地址,业务相关信息,个人信息)。
[0005]在许多情况下,计算系统可能会对数据流中包括的数据的部分进行分类,以确定数据的性质。作为示例,数据流的第一部分可被分类为个体的名字,数据流的第二部分可被分类为个体的个人标识符(例如,政府发布的标识号)。
[0006]计算系统可以基于数据的部分的分类采取动作(例如,存储数据的该部分,删除数据的该部分,将数据的该部分传输到外部设备)。在一些情况下,一些分类可能代表个人或敏感数据。在判定数据的部分的分类包括个人/敏感数据后,针对数据的该部分采取的动作可基于该数据的个人/敏感性质。例如,被分类为敏感数据的数据可以被存储在存储器的特定部分中,或者被删除以保护数据的敏感性质。
附图说明
[0007]通过结合附图研究具体实施方式,本领域技术人员将更清楚地了解本技术的多种特性和特征。本技术的实施例在附图中以示例而非限制性方式示出,在附图中相同的参考标记可以表示相同的元素。
[0008]图1示出了根据多种实施例用于对数据进行分类的生产架构的框图。
[0009]图2示出了根据多种实施例的分类模块集的框图。
[0010]图3示出了根据多种实施例的机器学习模块的框图。
[0011]图4是根据多种实施例的训练后的分类数据簇的图形代表的示意图。
[0012]图5示出了根据多种实施例的潜在数据分类表的框图。
[0013]图6示出了根据多种实施例由聚合器判定最终分类的流程图。
[0014]图7示出了根据多种实施例生成数据分类的方法的框图。
[0015]图8是示出可以实现本文所述的至少一些操作的处理系统的示例的框图。
[0016]附图描绘的多种实施例仅用于说明的目的。本领域技术人员将认识到,可以在不偏离本技术原理的情况下采用替代实施例。因此,尽管在附图中示出了具体实施例,但本技术可以进行多种修改。
具体实施方式
[0017]下面阐述的实施例代表了使本领域技术人员能够实践实施例并示出实践实施例的最佳模式的必要信息。在结合附图阅读以下描述后,本领域技术人员将理解本技术的构思,并将认识到本文未特别论述的这些构思的应用。这些构思和应用落入本技术和所附权利要求的范围。
[0018]可以参考特定的计算机程序,系统配置,网络等来描述实施例。然而,本领域技术人员将认识到,这些特性同样适用于其他计算机程序类型,系统配置,网络类型等。例如,尽管可以使用术语“Wi

Fi网络”来描述网络,但相关实施例可部署在另一类型的网络中。
[0019]此外,本技术可以使用专用硬件(例如电路),用软件和/或固件适合地编程的可编程电路,或专用硬件和可编程电路的组合来实现。因此,实施例可以包括具有指令的机器可读介质,该指令可用于对计算设备(例如,基站或网络连接的计算机服务器)进行编程,以审查由电子设备生成的视频内容,确定包括在该视频内容中的元素,应用分类模型来判定适合的动作,并执行该适合的动作。
[0020]术语
[0021]本文中使用的术语仅用于描述实施例,并不旨在限制本技术的范围。在上下文允许的情况下,使用单数或复数形式的词语也可以分别包括复数或单数形式。
[0022]除非另有明确说明,否则例如“处理”,“计算(computing)”,“计算(calculating)”,“判定”,“显示”,“生成”等术语,指计算机或类似电子计算设备的动作和过程,其操纵在计算机存储器或寄存器内被代表为物理(电子)量的数据并将其变换为在计算机存储器,寄存器,或其他此类存储介质,传输,或显示设备内类似地被代表为物理量的其他数据。
[0023]如本文所用,例如“连接的”,“耦接的”等术语可指两个或多个元素之间的任何直接或间接的连接或耦接。这些元素之间的耦接或连接可以是物理的,逻辑的,或其组合。
[0024]对“实施例”或“一个实施例”的引用意味着所描述的特定特性,功能,结构,或特征包括在至少一个实施例中。此类短语的出现不一定指同一实施例,也不一定指相互排斥的替代实施例。
[0025]除非上下文另有明确要求,否则“包含(comprise)”和“包含(comprising)”应以包括的含义而非排他性或穷举的含义(即,“包括但不限于”的含义)来解释。
[0026]术语“基于”也应理解为包括的含义,而非排他性或穷举的含义。因此,除非另有说明,否则术语“基于”意指“至少部分基于”。
[0027]术语“模块”泛指软件组件(component),硬件组件,和/或固件组件。模块通常是功能组件,其可以基于具体的输入生成有用的数据或其他输出。模块可以是独立的。计算机程序可以包括一个或多个模块。因此,计算机程序可以包括负责完成不同任务的多个模块或负责完成多个任务的单个模块。
[0028]当用于多个项目的列表时,“或”一词旨在涵盖以下所有解释:列表中的任何项目,列表中的所有项目,以及列表中项目的任何组合。
[0029]在本文描述的任何过程中执行的步骤序列都是示例性的。然而,除非与物理可能性相反,否则这些步骤可以以多种顺序和组合执行。例如,可以将步骤添加到本文所述的过程中或从中移除。同样,步骤也可以被替换或重新排序。因此,任何过程的描述都是开放式
的。
[0030]概述
[0031]计算系统可以接收和处理一个或多个数据流(例如,结构化数据),以确定数据的特征,并基于数据的特征执行动作。例如,计算系统可以摄取(ingest)数据库并确定数据库中包括的数据库列的多种特征(例如,名字,地址,电话号码)。数据库的特征可以被包括为计算系统摄取的数据流的部分。
[0032]在许多情况下,计算系统可以摄取和处理多个数据流,这些数据流可以是计算资源密集型的。为了确定包括在数据的每个部分中的数据的部分(portion)的性质,计算系统可以确定用于表示数据性质的数据的适合的分类。例如,计算设备可以检查结构化数据的数据库列,以将数字化文档的第一部分分类为与个体名字有关的文本,将数字化文档的第二部分分类为与国家有关的文本。与数据的部分相关联的分类可用于通过检查分类而不是处理相关联的数据来确定数据的性质,该相关联的数据的计算资源密集程度可能较低。
[0033]可基于数据流的部分的分类,对数据流的该部分采取动作。可以对数据流的部分采取的动作的示例可以包括将数据存储在存储器中的特定位置,将数据传输到外部设备本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由系统执行的对数据进行分类的方法,所述方法包括:由包括在分类模块集中的每个分类模块获得数据流;检查包括在所述数据流中的数据的第一部分,以确定所述数据的第一部分的特征;由所述分类模块集中的每个分类模块,将确定出的特征与分类列表进行比较,以判定建议分类和置信值,每个建议分类确定在所述分类列表中包括的与所述数据的第一部分的特征相匹配且第一相似度超过第一阈值相似度的分类类型;由聚合模块按每个分类类型聚合所述建议分类和所述置信值;由所述聚合模块基于聚合后的建议分类和置信值生成最终分类;以及将所述最终分类发送给外部设备以执行后续动作。2.根据权利要求1所述的方法,其中所述数据流包括在数据库中包括的表中被结构化的数据,其中所述数据流的每个部分代表在所述数据库中包括的所述表的列。3.根据权利要求1所述的方法,其中所述分类模块集包括:字典模块,其被配置为将所述数据的第一部分的确定出的特征与在至少一个字典中包括的条目进行比较;正则表达式模块,其被配置为将所述数据的第一部分的确定出的特征与包括在至少一个正则表达式模式列表中的正则表达式模式进行比较;以及学习模块,其被配置为将所述数据的第一部分的确定出的特征与训练数据集进行比较。4.根据权利要求2所述的方法,还包括:将每列数据和所述建议分类转换为至少一个数值向量,该至少一个数值向量确定每列数据和每一建议分类的量化特征。5.根据权利要求2所述的方法,其中所述学习模块被配置为:基于将所述数据的第一部分的所述特征和所述分类列表与所述训练数据集进行比较,生成第一建议分类和第一置信值;判定与所述数据的第一部分的所述特征和生成的第一建议分类相对应的至少一条规则;以及将至少一条规则并入到所述训练数据集中。6.根据权利要求1所述的方法,其中所述生成所述最终分类还包括:用所述聚合模块判定所述最终分类所利用的规则集比较每个分类类型的聚合后的建议分类和聚合后的置信值;判定与所述聚合后的建议分类和所述最终分类之间的共同特征相对应的至少一条规则;以及将至少一条规则并入到所述规则集中。7.根据权利要求1所述的方法,还包括:检查所述最终分类,以判定所述最终分类是否包括表示个体的信息;以及基于判定所述最终分类包括表示个体的信息,将标记附加到所述数据的第一部分。8.根据权利要求1所述的方法,其中所述分类模块集和所述聚合模块经由代理将信息转发给所述外部设备。9.根据权利要求1所述的方法,其中由所述外部设备执行的所述后续动作包括以下任
意个:将所述数据的第一部分存储在至少一个存储器中的第一位置,将所述数据的第一部分发送给外部设备,删除所述数据的第一部分,以及将所述数据的第一部分存储在与被确定为表示个体的数据相关联的至少一个存储器中的第二位置。10.根据权利要求1所述的方法,还包括:向外部设备发送反馈请求,所述反馈请求包括所述最终分类和所述数据的第一部分中的任意个;以及从所述外部设备接收包括反馈信息的响应,其中所述反馈信息被添加到所述聚合模块生成后续最终分类所利用的聚合器训练数据集中。11.根据权利要求1所述的方法,还包括:将所述最终分类和所述数据的第一部分转换为代表所述最终分类和所述数据的第一部分的量化特征的至少一个数值向量。12.一种系统,包括:分类模块集,其包括字典模块,正则表达式模块,和学习模块,其中每个分类模块被配置为:获取数据库中被结构化为数据列的第一数据集;确定包括在所述第一数据集中的所述数据库的第一列数据的特征;以及从分类列表和第一置信值判定第一建议分类,所述第一建议分类确定在所述分类列表中与所述第一列的确定出的特征相匹配的分类;以及聚合模块,其被配置为:接收按所述分类模块集中的每一个判定的所述建议分类和所述置信值;按分类类型聚合所述建议分类和所述置信值;基于聚合后的建议分类和所述置信值判定最终分类;以及将所述最终...

【专利技术属性】
技术研发人员:迈克尔
申请(专利权)人:科里布拉有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1