【技术实现步骤摘要】
网页内容的提取方法、装置、计算机设备和存储介质
[0001]本专利技术涉及人工智能领域,特别是涉及网页内容的提取方法、装置、计算机设备和存储介质。
技术介绍
[0002]随着互联网技术的快速发展,互联网上的信息每天都以惊人的速度增长。互联网也因此成为了当前社会的主要信息来源之一。如何从网页中快速准确地抽取出相应的内容,是业界的研究热点之一。现有技术的对网页内容进行提取的技术方案实现起来较为复杂,运营成本高,信息交互过程繁琐,流量消耗大,网页的显示速度慢,时间成本高,而且准确率不够高。
技术实现思路
[0003]基于此,有必要针对现有技术对网页内容进行提取的技术方案实现起来较为复杂,运营成本高,信息交互过程繁琐,流量消耗大,网页的显示速度慢,时间成本高,准确率不够高的问题,提供一种网页内容的提取方法、装置、计算机设备和存储介质。
[0004]一种网页内容的提取方法,包括:
[0005]基于接收的关键词,在预设的关联网页数据库中查找到与所述关键词相匹配的至少一个网页;
[0006]根据接收 ...
【技术保护点】
【技术特征摘要】
1.一种网页内容的提取方法,其特征在于,包括:基于接收的关键词,在预设的关联网页数据库中查找到与所述关键词相匹配的至少一个网页;根据接收的网页显示指令,获取待显示网页;所述待显示网页为所述至少一个网页中的一个;对所述待显示网页进行解析,获取网页脚本中标签的文档对象模型树;所述文档对象模型树包括多个模型树节点;从所述多个模型树节点中获取标签节点;判断所述标签节点所对应的组件标签是否为预设类型标签;若是,则提取并展示所述组件标签所对应的组件资源。2.如权利要求1所述的网页内容的提取方法,其特征在于,所述基于接收的关键词,在预设的关联网页数据库中查找到与所述关键词相匹配的至少一个网页,包括:将所述接收的关键词切分为一个序列;所述序列包括至少一个分词;在所述预设的关联网页数据库中查找对应于每个所述分词的统一资源定位器;根据各所述分词的词性,基于预设综合排序规则来确定所述序列中每一所述分词所对应的统一资源定位器在展示上的优先级;根据所述优先级对各所述统一资源定位器所对应的网页以列表形式进行显示。3.如权利要求1所述的网页内容的提取方法,其特征在于,所述根据所述接收的网页显示指令,获取待显示网页,包括:根据所述接收的网页显示指令,获取对应于所述网页显示指令的网页坐标;提取所述网页坐标所对应的网页内容。4.如权利要求1所述的网页内容的提取方法,其特征在于,所述对所述待显示网页进行解析,获取网页脚本中标签的文档对象模型树,包括:获取所述待显示网页的源代码;对所述源代码进行解析,获取网页脚本中标签的文档对象模型树。5.如权利要求4所述的网页内容的提取方法,其特征在于,所述对所述源代码进行解析,获取网页脚本中标签的文档对象模型树,包括:对所述源代码进行解析,获取网页脚本中标签的初始文档对象模型树;识别并删除所述初始文档对象模型树中的广告节点,得到文档对象模型树。6.如权利要求1所述的网页内容...
【专利技术属性】
技术研发人员:蓝煜鹏,
申请(专利权)人:平安国际智慧城市科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。