一种文件完整性的检测方法、系统、电子设备及存储介质技术方案

技术编号:26505795 阅读:18 留言:0更新日期:2020-11-27 15:33
本申请公开了一种文件完整性的检测方法,所述检测方法包括根据待检测文件的文件类型确定对应的标准目录字典;其中,所述标准目录字典包括多个标准文件目录;将所述待检测文件解析为半结构化文档,并根据所述半结构化文档确定所述待检测文件的实际文件目录;判断所述半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录;若是,则判定所述待检测文件通过文件完整性验证;若否,则判定所述待检测文件缺少公开内容。本申请能够自动判断文件是否缺少公开内容,提高文件完整性检测的效率。本申请还公开了一种文件完整性的检测系统、一种电子设备及一种存储介质,具有以上有益效果。

【技术实现步骤摘要】
一种文件完整性的检测方法、系统、电子设备及存储介质
本申请涉及文件校验
,特别涉及一种文件完整性的检测方法、系统、一种电子设备及一种存储介质。
技术介绍
公司在发行上市或持续监管过程中应当完整披露信息,即所有可能影响潜在投资者投资决策的信息都应得到披露。对于某一信息的披露,该信息的所有方面都应该得到全面、周密的揭示,不得有所遗漏。如招股书、并购重组公告等公告文件的内容较多,涉及的审核点数百个,人工判断完整性工作量较大。由于公告文件由不同机构和人员编写,其内容存在文字和表格混排情况,对完整性判断形成了较大挑战。因此,如何自动判断文件是否缺少公开内容,提高文件完整性检测的效率是本领域技术人员目前需要解决的技术问题。
技术实现思路
本申请的目的是提供一种文件完整性的检测方法、系统、一种电子设备及一种存储介质,能够自动判断文件是否缺少公开内容,提高文件完整性检测的效率。为解决上述技术问题,本申请提供一种文件完整性的检测方法,该文件完整性的检测方法包括:根据待检测文件的文件类型确定对应的标准目录字典;其中,所述标准目录字典包括多个标准文件目录;将所述待检测文件解析为半结构化文档,并根据所述半结构化文档确定所述待检测文件的实际文件目录;判断所述半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录;若是,则判定所述待检测文件通过文件完整性验证;若否,则判定所述待检测文件缺少公开内容。可选的,判断所述半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录,包括:从待检测文件的实际文件目录中确定当前检测目录;判断预设目录层级的标准文件目录与所述当前检测目录的匹配度是否大于或等于预设值;其中,所述预设目录层级为当前检测目录的目录层级;若是,则判定匹配度最高的所述预设目录层级的标准文件目录为与当前检测目录匹配的标准文件目录;若否,则判定不存在与当前检测目录匹配的标准文件目录。可选的,判断预设目录层级的标准文件目录与所述当前检测目录的匹配度是否大于或等于预设值,包括:判断预设目录层级的标准文件目录的目录内容与所述当前检测目录的目录内容的语义相似度是否大于或等于预设值;若目录内容的语义相似度大于或等于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度大于或等于所述预设值;若目录内容的语义相似度小于所述预设值,则判断标准目录子树与实际目录子树的语义相似度是否大于或等于预设值;其中,所述标准目录子树通过将所述预设目录层级的标准文件目录及标准文件目录下一层级的目录进行拼接得到;所述实际目录子树通过将当前检测目录及当前检测目录下一层级的目录进行拼接得到;若目录子树的语义相似度大于或等于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度大于或等于所述预设值;若目录子树的语义相似度小于所述预设值,则判断所述标准目录子树下所有段落文本与所述实际目录子树下所有段落文本的语义相似度是否大于或等于所述预设值;若段落文本的语义相似度大于或等于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度大于或等于所述预设值;若段落文本的语义相似度小于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度小于所述预设值。可选的,还包括:判断所述待检测文件中的所有实际文件目录是否均被执行与所述标准文件目录的匹配操作;若否,则执行所述从待检测文件的实际文件目录中确定当前检测目录的操作。可选的,在判定所述待检测文件通过文件完整性验证之后,还包括:将所述实际文件目录作为第一训练样本;将所述实际文件目录的文件完整性验证结构对所述第一训练样本添加标注;利用添加标注后的第一训练样本训练文件完整性检测模型,以便利用所述文件完整性检测模型判断半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录。可选的,在判定所述待检测文件通过文件完整性之后,还包括:根据所述标准文件目录与完整性验证问题的映射关系确定所述实际文件目录对应的目标完整性验证问题;判断所述实际文件目录下所有段落文本的内容是否符合所述目标完整性验证问题;若是,则判定所述待检测文件通过信息披露完整性验证;若否,则判定所述待检测文件缺少公开内容。可选的,还包括:在判定所述待检测文件通过信息披露完整性验证之后,确定所述实际文件目录下所有段落文本的内容中与所述目标完整性验证问题对应的问题答案;判断所述问题答案是否为所述目标完整性验证问题对应的标准答案;若是,则判定所述待检测文件关于所述目标完整性验证问题的答案不存在问题;若否,则判定所述待检测文件关于所述目标完整性验证问题的答案存在问题。可选的,还包括:将所述实际文件目录下所有段落文本的内容作为第二训练样本;将所述实际文件目录的信息披露完整性验证结果对所述第二训练样本添加标注;利用添加标注后的第二训练样本训练内容完整性检测模型,以便利用所述内容完整性检测模型判断所述实际文件目录下所有段落文本的内容是否符合所述目标完整性验证问题。本申请还提供了一种文件完整性的检测系统,该系统包括:标准字典确定模块,用于根据待检测文件的文件类型确定对应的标准目录字典;其中,所述标准目录字典包括多个标准文件目录;文件解析模块,用于将所述待检测文件解析为半结构化文档,并根据所述半结构化文档确定所述待检测文件的实际文件目录;检测模块,用于判断所述半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录;若是,则判定所述待检测文件通过文件完整性验证;若否,则判定所述待检测文件缺少公开内容。本申请还提供了一种存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述文件完整性的检测方法执行的步骤。本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述文件完整性的检测方法执行的步骤。本申请提供了一种文件完整性的检测方法,包括:根据待检测文件的文件类型确定对应的标准目录字典;其中,所述标准目录字典包括多个标准文件目录;将所述待检测文件解析为半结构化文档,并根据所述半结构化文档确定所述待检测文件的实际文件目录;判断所述半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录;若是,则判定所述待检测文件通过文件完整性验证;若否,则判定所述待检测文件缺少公开内容。本申请先确定待检测文件对应的标准目录字典,标准目录字典中包括待检测文件的文件类型对应的标准文件包括的所有目录,即标准文件目录。通过将待检测文件解析为半结构化文件可以得到待检测文件的实际文件目录,将实际文件目录与标准目录字典中的标准文件目录进行匹配,可以判断待检测文件中是否包括与标准目录字典中所有标准文件目录对应的实际文件本文档来自技高网...

【技术保护点】
1.一种文件完整性的检测方法,其特征在于,包括:/n根据待检测文件的文件类型确定对应的标准目录字典;其中,所述标准目录字典包括多个标准文件目录;/n将所述待检测文件解析为半结构化文档,并根据所述半结构化文档确定所述待检测文件的实际文件目录;/n判断所述半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录;/n若是,则判定所述待检测文件通过文件完整性验证;/n若否,则判定所述待检测文件缺少公开内容。/n

【技术特征摘要】
1.一种文件完整性的检测方法,其特征在于,包括:
根据待检测文件的文件类型确定对应的标准目录字典;其中,所述标准目录字典包括多个标准文件目录;
将所述待检测文件解析为半结构化文档,并根据所述半结构化文档确定所述待检测文件的实际文件目录;
判断所述半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录;
若是,则判定所述待检测文件通过文件完整性验证;
若否,则判定所述待检测文件缺少公开内容。


2.根据权利要求1所述检测方法,其特征在于,判断所述半结构化文档中是否存在与所有所述标准文件目录匹配的实际文件目录,包括:
从待检测文件的实际文件目录中确定当前检测目录;
判断预设目录层级的标准文件目录与所述当前检测目录的匹配度是否大于或等于预设值;其中,所述预设目录层级为当前检测目录的目录层级;
若是,则判定匹配度最高的所述预设目录层级的标准文件目录为与当前检测目录匹配的标准文件目录;
若否,则判定不存在与当前检测目录匹配的标准文件目录。


3.根据权利要求2所述检测方法,其特征在于,所述判断预设目录层级的标准文件目录与所述当前检测目录的匹配度是否大于或等于预设值,包括:
判断预设目录层级的标准文件目录的目录内容与所述当前检测目录的目录内容的语义相似度是否大于或等于预设值;
若目录内容的语义相似度大于或等于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度大于或等于所述预设值;
若目录内容的语义相似度小于所述预设值,则判断标准目录子树与实际目录子树的语义相似度是否大于或等于预设值;其中,所述标准目录子树通过将所述预设目录层级的标准文件目录及其下一层级的目录进行拼接得到;所述实际目录子树通过将当前检测目录及其下一层级的目录进行拼接得到;
若目录子树的语义相似度大于或等于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度大于或等于所述预设值;
若目录子树的语义相似度小于所述预设值,则判断所述标准目录子树下所有段落文本与所述实际目录子树下所有段落文本的语义相似度是否大于或等于所述预设值;
若段落文本的语义相似度大于或等于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度大于或等于所述预设值;
若段落文本的语义相似度小于所述预设值,则判定预设目录层级的标准文件目录与当前检测目录的匹配度小于所述预设值。


4.根据权利要求2所述检测方法,其特征在于,还包括:
判断所述待检测文件中的所有实际文件目录是否均被执行与所述标准文件目录的匹配操作;
若否,则执行所述从待检测文件的实际文件目录中确定当前检测目录的操作。


5.根据权利要求1所述检测方法,其特征在于,在判定所述...

【专利技术属性】
技术研发人员:毛瑞彬朱菁李霁杨雯雯张大千张俊杨建明
申请(专利权)人:深圳证券信息有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1