一种电子文档中的异常数据分析方法、系统和存储介质技术方案

技术编号:28839180 阅读:27 留言:0更新日期:2021-06-11 23:37
本发明专利技术公开了一种电子文档中的异常数据分析方法、系统和存储介质,包括获取待分析的电子文档内表格的各单元格坐标和内容,识别内容一致单元格;获取两表格的最小表格矩阵,当第一表格最小表格矩阵比第二表格最小表格矩阵的行数多N行但列数相同,或者列数多N列但行数相同,且N小于预设值时,获取第一表格最小表格矩阵中不一致单元格最多的N行或者N列,并将该N行或者N列中各单元格录入异常单元格组;在第一表格的最小表格矩阵中去除该N行或N列后形成过渡表格矩阵,依次比较过渡表格矩阵与第二表格最小表格矩阵对应位置的各单元格内容是否相同,若不同则补充录入至异常单元格组。最终减少呈现给用户的数据异常单元格结果数量,便于用户快速排查发现错误、异常表格。

【技术实现步骤摘要】
一种电子文档中的异常数据分析方法、系统和存储介质
本专利技术涉及数据处理和分析
,尤其涉及一种电子文档中的异常数据分析方法、系统和存储介质。
技术介绍
近些年来国家对药企的监管越来越严,出台的法规越来越多,执行也是越来越严格。按照法规要求,药企在申报新药的时候需要提交数量庞大的文档资料,所有提交的文档都必须是真实合规的。如果文档中的内容出现前后不一致等情况,将导致整个产品的合规性得不到满足,企业将被处以整改等强制措施,药品的上市将会受到严重影响。因此企业内会设有专门团队来负责所有文档的审核;若后续出现对实验方法或使用物料的调整,原先审核通过的文档也必需一一修改,因此药品申报文档的审核是件非常细致且极其重要的工作。在药品申报材料处理工作中,经常需要处理大量的文档,而这些文档中又存在大量表格,这些表格具有相似度高,相互引用、嵌套的情况,同时由于处理工作量大等原因,经常需要多个用户协作进行文档编辑。例如,药企研发机构在准备整理药品申报资料时存在大量文档,文档中存在大量表格。这些表格存在相似度高、相互引用、和嵌套等各类情况。同时,由于这些关联表格由多人人为整理,往往存在对应单元格内容不一致、表格行列丢失、表格行列顺序错乱等各种错误情况。但是由于表格众多,而其分布在大量不同文档中,这就造成后期人为检查的工作量极大,且上述错误情况难以发现,最终直接导致资料错误,合规性需求难以满足,严重拖延了药品申报进度。
技术实现思路
本专利技术针对现有技术中的不足,提供了一种电子文档中的异常数据分析方法,包括如下步骤:获取待分析的电子文档内表格的各单元格坐标和内容,识别内容一致单元格;获取两表格的最小表格矩阵,根据两表格的最小表格矩阵间差异与在对应表格中的位置获取存在数据异常的异常单元格组,所述最小表格矩阵为包含有该表格内所有内容一致单元格的最小矩形表格区域,所述异常单元格组包括但不限于内容不一致单元格坐标和内容,具体包括:当第一表格最小表格矩阵比第二表格最小表格矩阵的行数多N行但列数相同,或者列数多N列但行数相同,且N小于预设值时,获取第一表格最小表格矩阵中不一致单元格最多的N行或者N列,并将该N行或者N列中各单元格录入异常单元格组;在第一表格的最小表格矩阵中去除该N行或N列后形成过渡表格矩阵,依次比较过渡表格矩阵与第二表格最小表格矩阵对应位置的各单元格内容是否相同,若不同则补充录入至异常单元格组。优选的,所述步骤根据两表格的最小表格矩阵间差异与在对应表格中的位置获取存在数据异常的异常单元格组,具体包括:当关联表格对中的第一表格最小表格矩阵的行数比第二表格的最小表格矩阵多N行,且N小于预设值时,获取第一表格最小表格矩阵中不一致单元格最多的N行,并记录这N行各单元格的坐标和内容;在第一表格的最小表格矩阵中去除该N行后形成过渡表格矩阵;依次比较过渡表格矩阵与第二表格最小表格矩阵对应位置的单元格内容是否相同,若存在不相同单元格则录入异常单元格组,所述异常单元格组包括但不限于过渡表格矩阵与第二表格中内容不一致单元格坐标和内容、以及所述N行单元格的坐标和内容。优选的,所述步骤根据两表格的最小表格矩阵间差异与在对应表格中的位置获取存在数据异常的异常单元格组,具体包括:当第一表格最小表格矩阵的列数比第二表格的最小表格矩阵多N列,且N小于预设值时,获取第一表格最小表格矩阵中不一致单元格最多的N列,并记录这N列各单元格的坐标和内容;在第一表格的最小表格矩阵中去除该N列后形成过渡表格矩阵;依次比较过渡表格矩阵与第二表格最小表格矩阵对应位置的单元格内容是否相同,若存在不相同单元格则录入异常单元格组,所述异常单元格组包括但不限于过渡表格矩阵与第二表格中内容不一致单元格坐标和内容、以及所述N列单元格的坐标和内容。优选的,电子文档中的异常数据分析方法还包括如下步骤:对电子文档内各表格结构化数据逐对进行比较,获取两表格中的内容一致单元格的坐标及内容,判断两表格是否存在关联关系,对存在关联关系的两表格进行后续异常单元格组的分析。优选的,所述步骤判断两表格是否存在关联关系,具体包括如下步骤:对两表格结构化数据逐对进行比较,获取两表格中的内容一致单元格的坐标及内容;根据内容一致单元格的数量和/或分布位置来判断所述两表格的关联状态。优选的,所述步骤根据内容一致单元格的数量和/或分布位置来判断所述两表格的关联状态,具体包括:获取各表格的内容一致单元格数量和其在表格中的分布位置;获取各表格的最小表格矩阵,所述最小表格矩阵为包含有该表格内所有内容一致单元格的最小矩形表格区域;当内容一致单元格数量大于预设值时,和/或内容一致单元格数量的两倍要大于所在两表格所包含单元格数量之和的预设比例时,和/或内容一致单元格数量大于其所在最小表格矩阵内的单元格总数的预设比例时,判断该两表格为具有关联关系的关联表格对。优选的,电子文档中的异常数据分析方法还包括如下步骤:将异常单元格组中内容不一致单元格的内容进行对比,找出并标记单元格内容中不一致的字符集合。优选的,所述第一表格和第二表格位于两不同电子文档。本专利技术还公开了一种电子文档中的异常数据分析系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一所述方法的步骤。本专利技术还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一所述方法的步骤。本专利技术公开的电子文档中的异常数据分析方法通过分别获取待分析的第一表格和第二表格内的单元格坐标和内容,识别内容一致单元格,并通过两表格对进行后续对比分析,大大减少对比分析的计算量。在对两表格进行对比分析过程中,充分考虑小表格嵌入大表格,表格行列转置,表格行列顺序错乱,表格内部及四周行列缺失等各类情况,根据两表格各情况状态分别进行分析,找出两表格间的不一致单元格坐标及位置。最后异常结果处理步骤可以通过排除行列顺序错乱和行列缺失产生的不一致单元格,根据找出的真实不一致单元格、及不一致单元格内容中的不一致字符集合,筛选出真正异常的表格对以及不一致单元格内不一致字符集合,最终减少呈现给用户的结果数量,便于用户快速排查发现错误、异常表格。可以实现对两个表格的对比分析,发现和定位关联表格不一致的单元格及单元格内容差异。适用于需要处理大量相似表格,表格多处嵌套、复用的场景,可以减少人工检查表格一致性的大量重复性工作,避免关联表格对应单元格内容不一致的错误。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本实施例公开的电子文档中的异常数据分析方法的流程示意图。图2为本实施本文档来自技高网...

【技术保护点】
1.一种电子文档中的异常数据分析方法,其特征在于,包括如下步骤:/n获取待分析的电子文档内表格的各单元格坐标和内容,识别内容一致单元格;/n获取两表格的最小表格矩阵,根据两表格的最小表格矩阵间差异与在对应表格中的位置获取存在数据异常的异常单元格组,所述最小表格矩阵为包含有该表格内所有内容一致单元格的最小矩形表格区域,所述异常单元格组包括但不限于内容不一致单元格坐标和内容,具体包括:/n当第一表格最小表格矩阵比第二表格最小表格矩阵的行数多N行但列数相同,或者列数多N列但行数相同,且N小于预设值时,获取第一表格最小表格矩阵中不一致单元格最多的N行或者N列,并将该N行或者N列中各单元格录入异常单元格组;/n在第一表格的最小表格矩阵中去除该N行或N列后形成过渡表格矩阵,依次比较过渡表格矩阵与第二表格最小表格矩阵对应位置的各单元格内容是否相同,若不同则补充录入至异常单元格组。/n

【技术特征摘要】
20200728 CN 20201073994991.一种电子文档中的异常数据分析方法,其特征在于,包括如下步骤:
获取待分析的电子文档内表格的各单元格坐标和内容,识别内容一致单元格;
获取两表格的最小表格矩阵,根据两表格的最小表格矩阵间差异与在对应表格中的位置获取存在数据异常的异常单元格组,所述最小表格矩阵为包含有该表格内所有内容一致单元格的最小矩形表格区域,所述异常单元格组包括但不限于内容不一致单元格坐标和内容,具体包括:
当第一表格最小表格矩阵比第二表格最小表格矩阵的行数多N行但列数相同,或者列数多N列但行数相同,且N小于预设值时,获取第一表格最小表格矩阵中不一致单元格最多的N行或者N列,并将该N行或者N列中各单元格录入异常单元格组;
在第一表格的最小表格矩阵中去除该N行或N列后形成过渡表格矩阵,依次比较过渡表格矩阵与第二表格最小表格矩阵对应位置的各单元格内容是否相同,若不同则补充录入至异常单元格组。


2.根据权利要求1所述的电子文档中的异常数据分析方法,其特征在于,所述步骤根据两表格的最小表格矩阵间差异与在对应表格中的位置获取存在数据异常的异常单元格组,具体包括:
当关联表格对中的第一表格最小表格矩阵的行数比第二表格的最小表格矩阵多N行,且N小于预设值时,获取第一表格最小表格矩阵中不一致单元格最多的N行,并记录这N行各单元格的坐标和内容;
在第一表格的最小表格矩阵中去除该N行后形成过渡表格矩阵;
依次比较过渡表格矩阵与第二表格最小表格矩阵对应位置的单元格内容是否相同,若存在不相同单元格则录入异常单元格组,所述异常单元格组包括但不限于过渡表格矩阵与第二表格中内容不一致单元格坐标和内容、以及所述N行单元格的坐标和内容。


3.根据权利要求1或2所述的电子文档中的异常数据分析方法,其特征在于,所述步骤根据两表格的最小表格矩阵间差异与在对应表格中的位置获取存在数据异常的异常单元格组,具体包括:
当第一表格最小表格矩阵的列数比第二表格的最小表格矩阵多N列,且N小于预设值时,获取第一表格最小表格矩阵中不一致单元格最多的N列,并记录这N列各单元格的坐标和内容;
在第一表格的最小表格矩阵中去除该N列后形成过渡表格矩阵;
依次比较过渡表格矩阵与第二表格最小表格矩阵对应位置的...

【专利技术属性】
技术研发人员:包卿魏巍林加旗杜懂理李文亚
申请(专利权)人:浙江明度智控科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1