【技术实现步骤摘要】
一种网页数据标记方法、装置、设备及存储介质
[0001]本专利技术涉及信息处理
,尤其涉及一种网页数据标记方法、装置、设备及存储介质。
技术介绍
[0002]随着信息技术的快速发展,人们获取数据的方式越来越多,例如从网页上获取需要的数据,这种获取数据的方式大大减少了人们日常工作的负荷。
[0003]系统会根据创建任务的关键词、搜索引擎、媒体平台等配置,单次或周期性的爬取数据,爬取得到源代码文件。但是,对于用户来说,源代码文件无法直观的看到数据的内容,用户在源代码中只能看到数据的来源地址等信息,而无法知晓网页上每次的搜索结果与搜索关键词之间的关系,导致数据的量虽然越来越多,但是数据都比较难被应用到日常工作中。
技术实现思路
[0004]为了解决现有技术存在的问题,本专利技术的至少一个实施例提供了一种网页数据标记方法、装置、设备及存储介质。
[0005]第一方面,本专利技术实施例提供了一种网页数据标记方法,所述标记方法包括:
[0006]获取预设关键词对应的网页数据,并获取所述网页数 ...
【技术保护点】
【技术特征摘要】
1.一种网页数据标记方法,其特征在于,所述标记方法包括:获取预设关键词对应的网页数据,并获取所述网页数据对应的源代码文件;从所述源代码文件中,分别获取对应所述网页数据中各个搜索结果的符合预设解析规则的代码块,并在所述源代码文件中分别对应所述代码块添加位置属性;根据所述代码块,得到对应的搜索结果与所述预设关键词的相关度,并得到相关度判断结果;根据所述位置属性,在所述网页数据上的每个所述搜索结果上添加所述相关度判断结果,得到标记完成的网页数据。2.根据权利要求1所述的网页数据标记方法,其特征在于,所述位置属性包括:搜索结果属性和排名属性;其中,所述搜索结果属性用于表示所述代码块与所述搜索结果相对应;所述排名属性用于表示所述代码块对应的搜索结果在所述网页数据中的排名顺序。3.根据权利要求2所述的网页数据标记方法,其特征在于,所述根据所述位置属性,在所述网页数据上的每个所述搜索结果上添加所述相关度判断结果,得到标记完成的网页数据,包括:根据所述搜索结果属性,从所述源代码文件中确定代码块;根据所述排名属性,确定所述代码块的排名顺序;当每个所述搜索结果的排名顺序与对应的代码块的排名顺序一致时,分别对每个所述搜索结果添加对应的相关度判断结果,得到标记完成的网页数据。4.根据权利要求1所述的网页数据标记方法,其特征在于,所述根据所述代码块,得到对应的搜索结果与所述预设关键词的相关度,包括:针对每个所述搜索结果,分别进行以下步骤:获取所述搜索结果对应的代码块对应的描述文本数据;将所述预设关键词与所述搜索结果对应的所述描述文本数据进行匹配,得到与所述预设关键词相关联的参考语句;将所述参考语句进行分词、过滤,得到参考关键词;获取每个所述参考关键词在预设相关度表中对应的相关度;基于每个参考关键词在预设相关度表中对应的相关度,得到所述描述文本数据与所述预设关键词的相关度,作为所述搜索结果与所述预设关键词的相关度。5.根据权利要求4所述的网页数据标记方法,其特征在于,所述得到相关度判断结果,包括:将所述相关度与预设相关度区间进行比较;当所述相关度匹配所述预设相关度区间时,对应的所述搜索结果与所述预设关键词不相关;当所述相关度大于所述预设相关度区间的最大值时,对应的所述搜索结果与所述预设关键词正相关;当所述相关度小于所述预设相关度区间的最小值时,对应...
【专利技术属性】
技术研发人员:段秋华,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。