电子文件的自动归档方法、装置、电子设备及存储介质制造方法及图纸

技术编号:42865709 阅读:39 留言:0更新日期:2024-09-27 17:28
本发明专利技术公开了一种电子文件的自动归档方法,应用于文件归档系统,涉及计算机技术领域,所述自动归档方法包括:获取电子文件的文件名和文本数据,提取文件名关键词并对文本数据进行总结得文档总结;提炼文档关键词,并对文档关键词进行分类,并将文件名和分类后的文档关键词作为文档元数据保存;对文本数据进行段落分割得文本段落集,并对文本段落集嵌入高维度向量得段落向量集;创建字典集,并将文本段落集、段落向量集以及文档元数据保存至字典集,以构建文档信息包,且将文档信息包保存至文档数据库中。本发明专利技术的有益效果:既提高了电子文件归档的效率,又保证了电子文档归档的准确性。

【技术实现步骤摘要】

本专利技术涉及计算机,更具体的说,涉及一种电子文件的自动归档方法、装置、电子设备及存储介质


技术介绍

1、对于大型企业和组织,常年累积的各类电子文件构成了数量庞大、结构混乱、内容不一的数据库。该数据库中具有大量有价值的信息,但是因为其混乱性难以被检索和使用。为此,存在一种快速高效整理该类数据库并对电子文件分类归档的需求。

2、现有技术中的解决方案主要包括:人工手动进行文件的分类保存和标签化;使用特定程序根据文件名称和格式进行分类;通过训练一般人工智能模型识别文件类型并分类。其中,通过人工手动分类文件,对文件数量较大的数据库需要很长的时间,工作量很大,因此工作效率低;通过程序根据文件类型和名称进行分类,分类的限制较大且分类的精度较低。


技术实现思路

1、为了克服现有技术的不足,本专利技术提供一种电子文件的自动归档方法、装置、电子设备及存储介质,解决当前电子文件归档效率低、精度低的问题,从而既提高了电子文件归档的效率,又保证了电子文档归档的准确性。

2、本专利技术解决其技术问题所采用的技本文档来自技高网...

【技术保护点】

1.一种电子文件的自动归档方法,应用于文件归档系统,所述文件归档系统至少包括语言大模型、文档数据库、文档解析器、文档分割器以及文档嵌入模型,其特征在于,所述电子文件的自动归档方法包括以下步骤:

2.根据权利要求1所述的一种电子文件的自动归档方法,其特征在于,所述语言大模型从文件名中提取文件名关键词的具体方法为:文件归档系统记录有所有电子文件的存储路径,且预设有有效字段,当文件归档系统需要获取某个电子文件的文件名关键词时,只需先直接读取存储路径中的文件名,再通过语言大模型对文件名进行解析,以提取与有效字段相关的文件名关键词,其中,所述文件名关键词至少包括时间、地点、事件以及主体...

【技术特征摘要】

1.一种电子文件的自动归档方法,应用于文件归档系统,所述文件归档系统至少包括语言大模型、文档数据库、文档解析器、文档分割器以及文档嵌入模型,其特征在于,所述电子文件的自动归档方法包括以下步骤:

2.根据权利要求1所述的一种电子文件的自动归档方法,其特征在于,所述语言大模型从文件名中提取文件名关键词的具体方法为:文件归档系统记录有所有电子文件的存储路径,且预设有有效字段,当文件归档系统需要获取某个电子文件的文件名关键词时,只需先直接读取存储路径中的文件名,再通过语言大模型对文件名进行解析,以提取与有效字段相关的文件名关键词,其中,所述文件名关键词至少包括时间、地点、事件以及主体。

3.根据权利要求2所述的一种电子文件的自动归档方法,其特征在于,所述文档总结的具体获取方式为:首先,文档解析器解析电子文件的文本内容,以得到文本数据,然后,语言大模型对文本数据进行分析,并总结为不超过三句话的段落,且段落内容包含若干有效字段。

4.根据权利要求3所述的一种电子文件的自动归档方法,其特征在于,所述文档关键词的提炼方式为:语言大模型综合文件名关键词和文档总结的内容,总结并提取文档总结中与有效字段相关的内容,即为文档关键词。

5.根据权利要求4所述的一种电子文件的自动归档方法,其特征在于,所述文档关键词的分类方式为:首先...

【专利技术属性】
技术研发人员:刘禹宏蔡忠鹏何宜兵张神力林志坤
申请(专利权)人:深圳天海宸光科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1