【技术实现步骤摘要】
一种文件处理方法及装置、存储介质及电子设备
[0001]本申请涉及计算机应用
,尤其涉及一种文件处理方法及装置、存储介质及电子设备。
技术介绍
[0002]在研究类机构工作中,需要阅读处理大量研究报告、资讯期刊、主题评论、通讯文稿等具有固定格式的电子文件,此类文件通常以PDF形式发布在数据源网站中,并以“期刊名+日期”的格式命名,文件中附有目录小标题,用于阐述本文件涉及的资讯新闻内容。
[0003]现有技术中,通过数据源网站获取PDF形式的文件后,直接将文件进行存储,导致后续查询文件只能依次手动打开查看各文件内容并识别,存在工作量繁复,导致需要耗费大量的人力、物力,以及效率低的问题。
技术实现思路
[0004]本申请提供了一种文件处理方法及装置、存储介质及电子设备,目的在于解决现有技术中存在的工作量繁复,导致需要耗费大量的人力、物力,以及效率低的问题
[0005]为了实现上述目的,本申请提供了以下技术方案:
[0006]一种文件处理方法,应用于处理系统,包括:
[0007 ...
【技术保护点】
【技术特征摘要】
1.一种文件处理方法,其特征在于,应用于处理系统,包括:按预设周期,从数据源网站中获取多个目标文件;对各个目标文件进行解析,得到每个目标文件的标题和目录结构数据;针对每个目标文件,基于所述目标文件的标题和目录结构数据,判断预设的增量表中是否存在与所述目标文件的标题和目录结构数据均匹配的数据,若不存在,则按照所述目录结构数据,将所述目标文件存储至所述处理系统的结构化数据库中,并将所述目标文件的标题和目录结构数据写入至所述增量表中;其中,所述结构化数据库预先链接至所述处理系统的前端页面;接收通过所述前端页面输入的查询请求;所述查询请求中包括至少一个关键词;基于所述查询请求中包括的关键词,从所述结构数据库中筛选满足所述关键词的目标文件;对所筛选出的目标文件进行可视化显示。2.根据权利要求1所述的方法,其特征在于,所述从数据源网站中获取多个目标文件,包括:基于数据源网站的统一资源定位符,定位所述数据资源网站;基于网站认证信息和检索配置信息,从所述数据源网站中获取满足所述检索配置信息的多个目标文件。3.根据权利要求1所述的方法,其特征在于,所述对各个目标文件进行解析,得到每个目标文件的标题和目录结构数据,包括:获取每个目标文件所属期刊的期刊类型;针对每个目标文件,基于所述目标文件所属期刊的期刊类型,从预设的解析策略中确定与所述期刊类型对应的解析策略,并基于与所述期刊类型对应的解析策略,对所述目标文件进行解析,得到所述目标文件的标题和目录结构数据。4.根据权利要求3所述的方法,其特征在于,所述按照所述目录结构数据,将所述目标文件存储至所述处理系统的结构化数据库中,包括:基于所述目标文件所属期刊的期刊类型,从预设的目录存储模板中确定目标目录存储模板;将所述目标文件的目录结构数据写入至目标目录存储模板,并将写入目录结构数据的目标目录模板和所述目标文件存储至所述处理系统的结构化数据库中。5.一种文件处理装置,其特征在于,应用于处理系统,包括:获取单元,用于按预设周期,从数据源网站中获取多个目标文件;解析单元,用于对各个目标文件进行解析,得到每个目标文件的标题和目录结构数据;判断单元,用于针对每个目标...
【专利技术属性】
技术研发人员:鲁士琦,
申请(专利权)人:中银金融科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。