文件处理方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:42779512 阅读:25 留言:0更新日期:2024-09-21 00:40
本公开提供了一种文件处理方法、装置、电子设备及存储介质,该方法包括:获取多种文件格式下的各个候选文件;利用预设标签集对多种文件格式下的各个候选文件进行标题筛选处理,将不属于预设标签集的标题所对应的候选文件确定为第一文件;针对每个第一文件,根据第一文件的文件格式解析出第一文件的目标文本内容,并在目标文本内容包含预设词库中的至少一个关键词的情况下,将第一文件确定为目标文件;预设词库中的每个关键词用于表征对不同行业的支持意愿;针对每个目标文件,基于目标文件的目标文本内容提取惠企信息,并将惠企信息作为目标文件的惠企标签,惠企标签用于查找目标文件。这样便于用户查找惠企相关文件,有利于提升查找效率。

【技术实现步骤摘要】

本公开涉及数据处理,具体而言,涉及一种文件处理方法、装置、电子设备以及存储介质


技术介绍

1、目前,相关职能网站会定期发布针对不同行业的惠企政策文件。其中,惠企政策文件是指对企业有优惠政策扶持的相关文件。然而,该类文件通常没有标注信息,且由于网站发布的各类文件较多,分布较散,导致用户难以及时获取到相关文件。


技术实现思路

1、本公开实施例至少提供一种文件处理方法、装置、电子设备以及存储介质,便于用户查找惠企相关文件,有利于提升查找效率。

2、第一方面,本公开实施例提供了一种文件处理方法,该方法包括:

3、获取多种文件格式下的各个候选文件;

4、利用预设标签集对所述多种文件格式下的各个候选文件进行标题筛选处理,将不属于所述预设标签集的标题所对应的候选文件确定为第一文件;

5、针对每个所述第一文件,根据所述第一文件的文件格式解析出所述第一文件的目标文本内容,并在所述目标文本内容包含预设词库中的至少一个关键词的情况下,将所述第一文件确定为目标文件;所述预设词库中的每本文档来自技高网...

【技术保护点】

1.一种文件处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述惠企信息包括惠企资源信息以及惠企时间信息;所述基于所述目标文件的文本内容提取惠企信息,并将所述惠企信息作为所述目标文件的惠企标签,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述惠企资源信息的第一提取格式,从所述目标文件的目标文本内容中提取目标惠企资源信息,包括:

4.根据权利要求2或3所述的方法,其特征在于,所述惠企资源信息包括惠企关键词以及惠企资源数量,所述惠企资源信息的第一提取格式包括所述惠企关键词与所述惠企资源数量之间的相对位置关系。<...

【技术特征摘要】

1.一种文件处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述惠企信息包括惠企资源信息以及惠企时间信息;所述基于所述目标文件的文本内容提取惠企信息,并将所述惠企信息作为所述目标文件的惠企标签,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述惠企资源信息的第一提取格式,从所述目标文件的目标文本内容中提取目标惠企资源信息,包括:

4.根据权利要求2或3所述的方法,其特征在于,所述惠企资源信息包括惠企关键词以及惠企资源数量,所述惠企资源信息的第一提取格式包括所述惠企关键词与所述惠企资源数量之间的相对位置关系。

5.根据权利要求2所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1所述的方法,其特征在...

【专利技术属性】
技术研发人员:廖政邵强
申请(专利权)人:北京拓普丰联信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1