标签添加方法、设备、存储介质及装置制造方法及图纸

技术编号:38823781 阅读:14 留言:0更新日期:2023-09-15 20:03
本发明专利技术涉及文件处理技术领域,公开了一种标签添加方法、设备、存储介质及装置,该方法包括:将目标网站页面的页面内容导出为预设第一格式的页面文件,将目标网站页面的网页标题导出为标签文件,根据标签文件为页面文件添加标签,获得目标文件;由于本发明专利技术中能够将目标网站页面的页面内容和页面标题分别导出为页面文件和标签文件,并基于标签文件自动为页面文件添加标签,从而实现了标签自动添加,进而提高了文件处理效率和用户体验。高了文件处理效率和用户体验。高了文件处理效率和用户体验。

【技术实现步骤摘要】
标签添加方法、设备、存储介质及装置


[0001]本专利技术涉及文件处理
,尤其涉及一种标签添加方法、设备、存储介质及装置。

技术介绍

[0002]目前,用户在将网站页面的页面内容导出为可携带文档格式(Portable Document Format,PDF)文件时,需要用户手动添加标签,费时费力,用户体验较差。
[0003]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0004]本专利技术的主要目的在于提供一种标签添加方法、设备、存储介质及装置,旨在解决现有技术中在将网站页面的页面内容导出为PDF文件时,需要用户手动添加标签,费时费力,用户体验较差的技术问题。
[0005]为实现上述目的,本专利技术提供一种标签添加方法,所述标签添加方法包括以下步骤:
[0006]将目标网站页面的页面内容导出为预设第一格式的页面文件;
[0007]将所述目标网站页面的网页标题导出为标签文件;
[0008]根据所述标签文件为所述页面文件添加标签,获得目标文件。
[0009]可选地,所述根据所述标签文件为所述页面文件添加标签,获得目标文件的步骤,包括:
[0010]根据所述标签文件通过预设书签编辑脚本为所述页面文件添加标签,获得目标文件。
[0011]可选地,所述将所述目标网站页面的网页标题导出为标签文件的步骤,包括:
[0012]通过预设爬取脚本将所述目标网站页面的网页标题导出为预设第二格式的标签文件,所述预设第二格式为预设书签编辑脚本能够识别的格式。
[0013]可选地,所述将目标网站页面的页面内容导出为预设第一格式的页面文件的步骤,包括:
[0014]通过预设爬取脚本将目标网站页面的页面内容导出为预设第一格式的页面文件。
[0015]可选地,所述通过预设爬取脚本将目标网站页面的页面内容导出为预设第一格式的页面文件的步骤之前,还包括:
[0016]获取终端运行环境,并验证所述终端运行环境是否满足预设爬取脚本的运行环境;
[0017]相应地,所述通过预设爬取脚本将目标网站页面的页面内容导出为预设第一格式的页面文件的步骤,包括:
[0018]若是,则通过预设爬取脚本将目标网站页面的页面内容导出为预设第一格式的页
面文件。
[0019]可选地,所述根据所述标签文件为所述页面文件添加标签,获得目标文件的步骤之前,还包括:
[0020]获取所述标签文件的文件格式;
[0021]根据所述文件格式对所述标签文件进行校验;
[0022]相应地,所述根据所述标签文件为所述页面文件添加标签,获得目标文件的步骤,包括:
[0023]在校验通过后,根据所述标签文件为所述页面文件添加标签,获得目标文件。
[0024]可选地,所述根据所述文件格式对所述标签文件进行校验的步骤,包括:
[0025]获取所述标签文件的文件内容,并将所述文件内容进行分析;
[0026]根据分析结果和所述文件格式对所述标签文件进行校验。
[0027]可选地,所述根据所述标签文件为所述页面文件添加标签,获得目标文件的步骤之后,还包括:
[0028]接收用户根据所述目标文件反馈的标签调整信息;
[0029]根据所述标签调整信息对所述目标文件进行调整。
[0030]可选地,所述将目标网站页面的页面内容导出为预设第一格式的页面文件的步骤,包括:
[0031]对目标网站页面的页面内容进行筛选,获得待导出内容;
[0032]将所述待导出内容导出为预设第一格式的页面文件。
[0033]可选地,所述对目标网站页面的页面内容进行筛选,获得待导出内容的步骤,包括:
[0034]获取用户信息,并根据所述用户信息生成用户画像;
[0035]基于所述用户画像对目标网站页面的页面内容进行筛选,获得待导出内容。
[0036]可选地,所述将目标网站页面的页面内容导出为预设第一格式的页面文件的步骤,包括:
[0037]获取所述目标网站页面的页面信息,并根据所述页面信息确定目标爬取脚本;
[0038]通过所述目标爬取脚本将目标网站页面的页面内容导出为预设第一格式的页面文件。
[0039]此外,为实现上述目的,本专利技术还提出一种标签添加设备,所述标签添加设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的标签添加程序,所述标签添加程序配置为实现如上文所述的标签添加方法。
[0040]此外,为实现上述目的,本专利技术还提出一种存储介质,所述存储介质上存储有标签添加程序,所述标签添加程序被处理器执行时实现如上文所述的标签添加方法。
[0041]此外,为实现上述目的,本专利技术还提出一种标签添加装置,所述标签添加装置包括:内容导出模块、标题导出模块以及标签添加模块;
[0042]所述内容导出模块,用于将目标网站页面的页面内容导出为预设第一格式的页面文件;
[0043]所述标题导出模块,用于将所述目标网站页面的网页标题导出为标签文件;
[0044]所述标签添加模块,用于根据所述标签文件为所述页面文件添加标签,获得目标
文件。
[0045]可选地,所述标签添加模块,还用于根据所述标签文件通过预设书签编辑脚本为所述页面文件添加标签,获得目标文件。
[0046]可选地,所述标题导出模块,还用于通过预设爬取脚本将所述目标网站页面的网页标题导出为预设第二格式的标签文件,所述预设第二格式为预设书签编辑脚本能够识别的格式。
[0047]可选地,所述内容导出模块,还用于通过预设爬取脚本将目标网站页面的页面内容导出为预设第一格式的页面文件。
[0048]可选地,所述标签添加装置还包括:环境检测模块;
[0049]所述环境检测模块,用于获取终端运行环境,并验证所述终端运行环境是否满足预设爬取脚本的运行环境;
[0050]相应地,所述内容导出模块,还用于若是,则通过预设爬取脚本将目标网站页面的页面内容导出为预设第一格式的页面文件。
[0051]可选地,所述标签添加装置还包括:文件校验模块;
[0052]所述文件校验模块,用于获取所述标签文件的文件格式;
[0053]所述文件校验模块,还用于根据所述文件格式对所述标签文件进行校验;
[0054]相应地,所述标签添加模块,还用于在校验通过后,根据所述标签文件为所述页面文件添加标签,获得目标文件。
[0055]可选地,所述文件校验模块,还用于获取所述标签文件的文件内容,并将所述文件内容进行分析;
[0056]所述文件校验模块,还用于根据分析结果和所述文件格式对所述标签文件进行校验。
[0057]在本专利技术中,公开了将目标网站页面的页面内容导出为预设第一格式的页面文件,将目标网站页面的网页标题导出为标签文件,根据标签文件为页面文件添加标签,获得目标文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标签添加方法,其特征在于,所述标签添加方法包括以下步骤:将目标网站页面的页面内容导出为预设第一格式的页面文件;将所述目标网站页面的网页标题导出为标签文件;根据所述标签文件为所述页面文件添加标签,获得目标文件。2.如权利要求1所述的标签添加方法,其特征在于,所述根据所述标签文件为所述页面文件添加标签,获得目标文件的步骤,包括:根据所述标签文件通过预设书签编辑脚本为所述页面文件添加标签,获得目标文件。3.如权利要求1所述的标签添加方法,其特征在于,所述将所述目标网站页面的网页标题导出为标签文件的步骤,包括:通过预设爬取脚本将所述目标网站页面的网页标题导出为预设第二格式的标签文件,所述预设第二格式为预设书签编辑脚本能够识别的格式。4.如权利要求1所述的标签添加方法,其特征在于,所述将目标网站页面的页面内容导出为预设第一格式的页面文件的步骤,包括:通过预设爬取脚本将目标网站页面的页面内容导出为预设第一格式的页面文件。5.如权利要求4所述的标签添加方法,其特征在于,所述通过预设爬取脚本将目标网站页面的页面内容导出为预设第一格式的页面文件的步骤之前,还包括:获取终端运行环境,并验证所述终端运行环境是否满足预设爬取脚本的运行环境;相应地,所述通过预设爬取脚本将目标网站页面的页面内容导出为预设第一格式的页面文件的步骤,包括:若是,则通过预设爬取脚本将目标网站页面的页面内容导出为预设第一格式的页面文件。6.如权利要求1...

【专利技术属性】
技术研发人员:崔丽
申请(专利权)人:三六零科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1