【技术实现步骤摘要】
使用企业数据源预测文档中的策略违规
[0001]本专利技术总体上涉及监管合规领域,并且更具体地,涉及使用企业相关的解决方案来确保大型企业遵守适用的法规。
技术介绍
[0002]针对“元数据”的维基百科条目(截至2021年8月23日)陈述如下:“元数据是
‘
提供关于其他数据的信息的数据
’
。存在许多不同类型的元数据,包括描述性元数据、结构性元数据、管理性元数据、引用性元数据、统计性元数据和法律性元数据。”[0003]维基百科针对“启发式(计算机科学)”的条目(截至2021年8月23日)陈述如下:“在
……
计算机科学中,启发式
…
是被设计用于在经典方法太慢时更快地解决问题的技术,或者在经典方法不能找到任何确切解时找到近似解的技术。这是通过用最优性、完整性、准确性或精度交换速度来实现的。在某种意义上,它可以被认为是快捷方式。启发式函数,也简称为启发式,是基于可用信息在每个分支步骤对搜索算法中的替代方案进行排名以决定跟随哪个分支的函数。”
技术实现思路
[ ...
【技术保护点】
【技术特征摘要】
1.一种计算机实现的方法CIM,包括:接收多个文档,所述多个文档包括实质性内容数据和元数据;初始化多个随机桶以执行随机采样操作;根据所述多个初始化的随机桶计算元数据样本大小,其中所述元数据样本大小是至少部分地基于预定置信度水平和误差率来针对其收集元数据的文档的数量;从所述多个文档收集元数据,直到所收集的元数据等于所计算的元数据样本大小;以及响应于所述元数据的收集,分析所述多个文档的第一子集以确定所述多个文档的所述第一子集是否包括策略违规。2.根据权利要求1所述的CIM,其中,对所述多个文档的所述第一子集的分析还包括:提取所述多个文档的所述第一子集的所述实质性内容,所述实质性内容包括文本数据;以及响应于对所述文本的提取,对所述文本数据运行深度分析以识别策略违规。3.根据权利要求1所述的CIM,其中,对所述多个文档的所述第一子集的分析还包括:根据对所述文本数据的所述深度分析识别策略违规;以及响应于策略违规的所述识别,将所识别的策略违规添加到所述多个文档的所述第一子集的文档元数据。4.根据权利要求1所述的CIM,其中,对所述多个文档的所述第一子集的分析还包括:对所述文本数据运行所述深度分析以识别所述多个文档的所述第一...
【专利技术属性】
技术研发人员:J约瑟夫,SR马鲁达纳亚甘,P贝比,A沙伊克,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。