【技术实现步骤摘要】
自适应文档理解
技术介绍
[0001]机器学习算法基于样本数据(被称为训练数据)来构建机器学习模型,以在没有被明确编程的情况下做出预测或决定。训练机器学习模型的过程涉及向机器学习算法提供从其学习的训练数据,并且从训练过程创建的工件(artifact created)是机器学习模型。训练数据包括被称为目标或目标属性的正确答案,并且机器学习算法在训练数据中找到将输入数据属性映射到目标属性的模式,并且输出捕捉该模式的机器学习模型。
[0002]结构化数据指驻留在文件或记录内的固定字段中并因此易于分析的数据。非结构化数据(或非结构化信息)是不具有预定义数据模型或不以预定义方式组织的信息。非结构化信息通常是文本密集型的,但可包括诸如日期、数字等的数据。此外,非结构化数据通常具有不规则性和歧义,传统程序难以解释该不规则性和歧义。
[0003]智能文档理解(SDU)方法通过机器学习将非结构化文档转换成结构化数据。在SDU中,用户在从输入文档提取的训练文档上输入注释,并且使用文档作为教学图像来训练模型。然而,目前SDU系统所发现的挑战是页格式在页与各 ...
【技术保护点】
【技术特征摘要】
1.一种计算机实现的方法,包括:从对应于多个非结构化页面的多个特征向量在特征空间中创建多个页面集群;基于所述特征空间中在所述多个页面集群与对应于所述多个机器学习模型的多个训练集群之间的关系,将多个机器学习模型之一分配给所述多个页面集群中的每一个;识别所述多个页面集群中与所述多个非结构化页面中的所选择的一个对应的页面集群;以及使用分配给所识别的页面集群的所述多个机器学习模型中所选择的一个,将所选择的非结构化页面转换成结构化页面。2.根据权利要求1所述的方法,进一步包括:将多个非结构化文档划分成所述多个非结构化页面;选择所述多个非结构化页面中的一个;在所选择的非结构化页面中定义字符区域集合和对应的位置集合;以及基于字符区域的对应位置集和在其对应字符区域内的内容集,计算对应于字符区域集的字符区域特征向量集。3.根据权利要求2所述的方法,进一步包括:基于所述字符区域特征向量集计算所述所选择的非结构化页面的所述多个特征向量中的所选择的一个;以及将所选择的特征向量映射到所述特征空间。4.根据权利要求3所述的方法,进一步包括:对所选择的特征向量执行层级聚类,其中,所述层级聚类进一步包括:识别在特征空间中与所选择的特征向量最接近的对应于所述多个页面集群的多个页面集群中心中的一个;以及将所选择的特征向量添加到对应于所识别的页面集群中心的多个页面集群中的所识别的一个。5.根据权利要求1所述的方法,进一步包括:基于所述多个页面集群计算多个页面集群中心;基于所述多个训练集群计算多个训练集群中心;选择所述多个页面集群中心中的一个;识别所述特征空间中最接近所选择的页面集群中心的所述多个训练集群中心中的一个;以及将所述多个机器学习模型中与所识别的训练中心集群对应的一个机器学习模型分配给与所选择的页面集群中心对应的页面集群。6.根据权利要求1所述的方法,进一步包括:识别对应于所述多个非结构化页面中的不同页面的所述多个页面集群中的不同页面集群;以及使用分配给所述不同页面集群的所述多个机器学习模型中的不同机器学习模型,将所述不同的非结构化页面转换成不同的结构化页面。7.根据权利要求1所述的方法,进一步包括:使用对应于所识别的页面集群的所述多个非结构化文档的一部分来训练所选择的机
器学习模型;使用经训练的机器学习模型来执行所述转换;以及将经训练的机器学习模型添加到所述多个机器学习模型。8.根据权利要求1所述的方法,其中,所述多个非结构化页面包括多个非结构化页面类型,并且其中,所述多个非结构化页面类型中的每一个被分配所述多个机器学习模型中的一个,以执行所述转换。9.一种信息处理系统,包括:一个或多个处理器;存储器,所述存储器耦合到所述处理器中的至少一个;计算机程序指令集,所述计算机程序指令集被存储在所述存储器中并且由所述处理器中的至少一个处理器执行以便执行以下动作:从对应于多个非结构化页面的多个特征向量在特征空间中创建多个页面集群;基于所述特征空间中在所述多个页面集群与对应于所述多个机器学习模型的多个训练集群之间的关系,将多个机器学习模型之一分配给所述多个页面集群中的每一个;识别所述多个页面集群中与所述多个非结构化页面中的所选择的一个对应的页面集群;以及使用分配给所识别的页面集群的所述多个机器学习模型中所选择的一个,将所选择的非结构化页面转换成结构化页面。10.根据权利要求9所述的信息处理系统,其中所述处理器执行进一步的动作,包括:将多个非结构化文档划分成所述多个非结构化页面;选择所述多个非结构化页面中的一个;在所选择的非结构化页面中定义字符区域集合和对应的位置集合;以及基于字符区域的对应位置集和在其对应字符区域内的内容集,计算对应于所述字符区域集的字符区域特征向量集。11.根据权利要求10所述的信息处理系统,其中所述处理器执行进一步的动作,包括:基于所述字符区域特征向量集计算所述所选择的非结构化页面的所述多个特征向量中的所选择的一个;以及将所选择的特征向量映射到所述特征空间。12.根据权利要求11所述的信息处理系统,其中所述处理器执行进一步的动作,包括:对所选择的特征向量执行层级聚类,其中,所述层级聚类进一步包括:识别在特征空间中与所选择的特征向量最接近的对应于所述多个页面集群的多个页面集群中心中的一个;以及将所选择的特征向量添加到对应于所识别的页面集群中心的多个页面集群中的所识别的一个。13.根据权利要求9所述的信息处理系统,其中所述处理器执行进一步的动作,包括:基于所述多个页面集群计算多个页面集群中心;基于所述多个训练集群计算多个训练集群中心;选择所述多个页面集群中心中的一个;识别所述特征空间中最接近所选择的页面集群中心的所述多个训练集群中心中的一
个;以及将所述多个机器学习模型中与所识别的训练中心集群对应的一个机器学习模型分配给与所选择的页面集群中心对应的页面集群。14.根据权利要求9所述的信息处理系统,其中所述处理器执行进一步的动...
【专利技术属性】
技术研发人员:后藤拓矢,长谷川彻,刘湘宁,小野麻子,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。