eTMF系统查重方法、装置、电子设备及介质制造方法及图纸

技术编号:37446793 阅读:9 留言:0更新日期:2023-05-06 09:18
本申请公开了一种eTMF系统查重方法、装置、电子设备及介质,所述eTMF系统查重方法包括:将待查文件中的文本信息拆分成各部分文本信息,并将各所述部分文本信息转换成对应的待查信息摘要;将各所述待查信息摘要在eTMF系统的数据库中进行检索,若存在相同的信息摘要,则将所述信息摘要对应的重复信息添加到在所述待查文件的重复信息列表中,其中,所述数据库中包括各存储文件对应的信息摘要;根据所述待查文件的重复信息列表,判断所述待查文件在所述数据库中是否有重复信息。本申请解决了eTMF系统中电子文档的查重准确度低的技术问题。题。题。

【技术实现步骤摘要】
eTMF系统查重方法、装置、电子设备及介质


[0001]本申请涉及信息处理
,尤其涉及一种eTMF系统查重方法、装置、电子设备及介质。

技术介绍

[0002]临床研究电子文档管理系统(eTMF,electronic Trial Master File)是一种通过用户先设置文件夹,再上传文件至指定的文件夹下的一种方便实用的文件管理系统,目前,eTMF系统中在进行电子文档的重复查验时,通常是通过待查文件的文件名称对数据库中重复文件的进行检索,从而判断系统中是否已存储与待查文件重复的文件,但这种重复查验方法会出现文件名称不同但文件内容重复,或是文件名称相同而内容却不重复的情况,从而导致eTMF系统中电子文档的查重准确度偏低。

技术实现思路

[0003]本申请的主要目的在于提供一种eTMF系统查重方法、装置、电子设备及介质,旨在解决eTMF系统中电子文档的查重准确度低的技术问题。
[0004]为实现上述目的,本申请提供一种eTMF系统查重方法,所述eTMF系统查重方法包括:
[0005]将待查文件中的文本信息拆分成各部分文本信息,并将各所述部分文本信息转换成对应的待查信息摘要;
[0006]将各所述待查信息摘要在eTMF系统的数据库中进行检索,若存在相同的信息摘要,则将所述信息摘要对应的重复信息添加到在所述待查文件的重复信息列表中,其中,所述数据库中包括各存储文件对应的信息摘要;
[0007]根据所述待查文件的重复信息列表,判断所述待查文件在所述数据库中是否有重复信息。<br/>[0008]可选地,所述将待查文件中的文本信息拆分成各部分文本信息,并将各所述部分文本信息转换成对应的待查信息摘要的步骤包括:
[0009]基于所述文本信息中的标点符号,将所述文本信息拆分为各所述部分文本信息;
[0010]将各所述部分文本信息进行加密处理,得到各所述部分文本信息对应的待查信息摘要。
[0011]可选地,所述将待查文件中的文本信息拆分成各部分文本信息,并将各所述部分文本信息转换成对应的待查信息摘要的步骤包括:
[0012]基于所述文本信息中的标点符号,将所述文本信息拆分为各所述部分文本信息;
[0013]基于各所述部分文本信息在所述文本信息中的顺序,将各所述部分文本信息添加进所述待查文件的文本信息列表中;
[0014]通过散列函数将所述文本信息列表中的各部分文本信息进行处理,得到各所述部分文本信息对应的待查信息摘要。
[0015]可选地,所述重复信息包括各信息摘要分别对应的部分文本信息、文件序号以及文件名称,所述将各所述待查信息摘要在eTMF系统的数据库中进行检索,若存在相同的信息摘要,则将所述信息摘要对应的重复信息添加到在所述待查文件的重复信息列表中的步骤包括:
[0016]获取所述待查文件对应的分类号,依据所述分类号确定数据库分组;
[0017]将所述文本信息列表中的各待查信息摘要依次在所述数据库分组中进行检索;
[0018]当检索到与所述待查信息摘要匹配的信息摘要时,将所述信息摘要对应的部分文本信息、文件序号以及文件名称添加到所述重复信息列表中。
[0019]可选地,所述重复信息包括各信息摘要分别对应的部分文本信息、文件序号以及文件名称,所述将各所述待查信息摘要在eTMF系统的数据库中进行检索,若存在相同的信息摘要,则将所述信息摘要对应的重复信息添加到在所述待查文件的重复信息列表中的步骤包括:
[0020]将各所述待查信息摘要分别在所述数据库中进行检索;
[0021]当检索到与所述待查信息摘要匹配的信息摘要时,将所述信息摘要对应的部分文本信息、文件序号以及文件名称添加到所述重复信息列表中。
[0022]可选地,在所述将待查文件中的文本信息拆分成各部分文本信息的步骤之前,还包括:
[0023]通过截取所述待查文件的后缀信息,判断所述待查文件是否为文档格式的文件;
[0024]若是,则将所述待查文件的格式转换成txt格式,并提取所述待查文件的文本信息。
[0025]可选地,所述根据所述待查文件的重复信息列表,判断所述待查文件在所述数据库中是否有重复信息的步骤包括:
[0026]若所述重复信息列表为空,则判定所述待查文件在所述数据库中不存在重复信息;
[0027]若所述重复信息列表不为空,则将所述重复信息列表中的各信息摘要对应的部分文本信息、文件序号以及文件名称推送给用户,以向用户展示所述待查文件中的重复信息,其中,所述重复信息用于供用户参考是否继续上传所述待查文件。
[0028]本申请还提供一种eTMF系统查重装置,所述eTMF系统查重装置应用于eTMF系统查重设备,所述eTMF系统查重装置包括:
[0029]信息摘要模块,用于将待查文件中的文本信息拆分成各部分文本信息,并将各所述部分文本信息转换成对应的待查信息摘要;
[0030]信息比对模块,用于将各所述待查信息摘要在eTMF系统的数据库中进行检索,若存在相同的信息摘要,则将所述信息摘要对应的重复信息添加到在所述待查文件的重复信息列表中,其中,所述数据库中包括各存储文件对应的信息摘要;
[0031]查重判断模块,用于根据所述待查文件的重复信息列表,判断所述待查文件在所述数据库中是否有重复信息。
[0032]可选地,所述信息摘要模块还用于:
[0033]基于所述文本信息中的标点符号,将所述文本信息拆分为各所述部分文本信息;
[0034]将各所述部分文本信息进行加密处理,得到各所述部分文本信息对应的待查信息
摘要。
[0035]可选地,所述信息摘要模块还用于:
[0036]基于所述文本信息中的标点符号,将所述文本信息拆分为各所述部分文本信息;
[0037]基于各所述部分文本信息在所述文本信息中的顺序,将各所述部分文本信息添加进所述待查文件的文本信息列表中;
[0038]通过散列函数将所述文本信息列表中的各部分文本信息进行处理,得到各所述部分文本信息对应的待查信息摘要。
[0039]可选地,所述信息比对模块还用于:
[0040]获取所述待查文件对应的分类号,依据所述分类号确定数据库分组;
[0041]将所述文本信息列表中的各待查信息摘要依次在所述数据库分组中进行检索;
[0042]当检索到与所述待查信息摘要匹配的信息摘要时,将所述信息摘要对应的部分文本信息、文件序号以及文件名称添加到所述重复信息列表中。
[0043]可选地,所述信息比对模块还用于:
[0044]将各所述待查信息摘要分别在所述数据库中进行检索;
[0045]当检索到与所述待查信息摘要匹配的信息摘要时,将所述信息摘要对应的部分文本信息、文件序号以及文件名称添加到所述重复信息列表中。
[0046]可选地,所述信息摘要模块还用于:
[0047]通过截取所述待查文件的后缀信息,判断所述待查文件本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种eTMF系统查重方法,其特征在于,所述eTMF系统查重方法包括:将待查文件中的文本信息拆分成各部分文本信息,并将各所述部分文本信息转换成对应的待查信息摘要;将各所述待查信息摘要在eTMF系统的数据库中进行检索,若存在相同的信息摘要,则将所述信息摘要对应的重复信息添加到在所述待查文件的重复信息列表中,其中,所述数据库中包括各存储文件对应的信息摘要;根据所述待查文件的重复信息列表,判断所述待查文件在所述数据库中是否有重复信息。2.如权利要求1所述eTMF系统查重方法,其特征在于,所述将待查文件中的文本信息拆分成各部分文本信息,并将各所述部分文本信息转换成对应的待查信息摘要的步骤包括:基于所述文本信息中的标点符号,将所述文本信息拆分为各所述部分文本信息;将各所述部分文本信息进行加密处理,得到各所述部分文本信息对应的待查信息摘要。3.如权利要求1所述eTMF系统查重方法,其特征在于,所述将待查文件中的文本信息拆分成各部分文本信息,并将各所述部分文本信息转换成对应的待查信息摘要的步骤包括:基于所述文本信息中的标点符号,将所述文本信息拆分为各所述部分文本信息;基于各所述部分文本信息在所述文本信息中的顺序,将各所述部分文本信息添加进所述待查文件的文本信息列表中;通过散列函数将所述文本信息列表中的各部分文本信息进行处理,得到各所述部分文本信息对应的待查信息摘要。4.如权利要求3所述eTMF系统查重方法,其特征在于,所述重复信息包括各信息摘要分别对应的部分文本信息、文件序号以及文件名称,所述将各所述待查信息摘要在eTMF系统的数据库中进行检索,若存在相同的信息摘要,则将所述信息摘要对应的重复信息添加到在所述待查文件的重复信息列表中的步骤包括:获取所述待查文件对应的分类号,依据所述分类号确定数据库分组;将所述文本信息列表中的各待查信息摘要依次在所述数据库分组中进行检索;当检索到与所述待查信息摘要匹配的信息摘要时,将所述信息摘要对应的部分文本信息、文件序号以及文件名称添加到所述重复信息列表中。5.如权利要求1所述eTMF系统查重方法,其特征在于,所述重复信息包括各信息摘要分别对应的部分文本信息、文件序号以及文件名称,所述将各所述待查信息摘要在eTMF系统的数据库中进行检索,若存在相同的信息摘要,则将所述信息摘要对应...

【专利技术属性】
技术研发人员:覃龙吴卫平苏泉宇林显东陈世兵包敏
申请(专利权)人:一临云深圳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1