【技术实现步骤摘要】
一种网页信息抽取方法及装置
本专利技术实施例涉及互联网
,尤其涉及一种网页信息抽取方法及装置。
技术介绍
随着互联网中信息的飞速增长,互联网网页已成为人类获取知识和信息的最重要的途径。传统搜索引擎技术能够根据用户查询快速排序网页,提高信息检索的效率。然而,对于搜索引擎反馈的大量结果,还需要进行人工排查和筛选。随着信息的爆炸式增长,这种信息检索方式已经很难满足人们全面掌控信息资源的需要,知识图谱技术的出现为解决信息检索问题提供了新的思路。知识图谱技术以图形的方式向用户返回加工和推荐的知识,是实现智能化语义检索的基础和桥梁。而知识图谱的构建需从海量的数据源中提取出实体(概念)、属性以及实体间的相互关系,并在此基础上形成本体化的知识表达。如何构建一个高精度、高自动化的数据信息抽取系统成为了一个亟待解决的技术难题。现有的技术中,一般利用文档对象模型(DocumentObjectModel,简称DOM)树对网页信息进行定位,实现对应位置数据的抽取。在基于网页DOM树的匹配规则来实现网页信息的抽取时,主要过程为:首先,通过网页超级文本标记语言(HyperTextMark ...
【技术保护点】
1.一种网页信息抽取方法,其特征在于,包括:获取网页的文档对象模型DOM树和所述网页的展示页面截图;根据所述网页的DOM树确定所述网页的候选元素以及候选元素的文本信息;根据所述网页的展示页面截图确定所述网页的候选位置信息;根据各候选位置信息、各候选元素的文本信息确定所述网页的各候选元素作为目标抽取元素的第一概率;根据各候选位置信息确定所述网页的各候选位置作为目标抽取元素对应的目标抽取位置的第二概率;根据所述第一概率和所述第二概率从各候选元素和各候选位置中确定目标抽取元素和所述目标抽取元素对应的目标抽取位置;根据确定为目标抽取元素的候选元素和确定为所述目标抽取元素对应的目标抽 ...
【技术特征摘要】
1.一种网页信息抽取方法,其特征在于,包括:获取网页的文档对象模型DOM树和所述网页的展示页面截图;根据所述网页的DOM树确定所述网页的候选元素以及候选元素的文本信息;根据所述网页的展示页面截图确定所述网页的候选位置信息;根据各候选位置信息、各候选元素的文本信息确定所述网页的各候选元素作为目标抽取元素的第一概率;根据各候选位置信息确定所述网页的各候选位置作为目标抽取元素对应的目标抽取位置的第二概率;根据所述第一概率和所述第二概率从各候选元素和各候选位置中确定目标抽取元素和所述目标抽取元素对应的目标抽取位置;根据确定为目标抽取元素的候选元素和确定为所述目标抽取元素对应的目标抽取位置的候选位置对所述网页进行信息抽取。2.如权利要求1所述的方法,其特征在于,所述根据各候选位置信息、各候选元素的文本信息确定所述网页的各候选元素作为目标抽取元素的第一概率,包括:将各候选位置信息、各候选元素的文本信息输入神经网络模型;通过所述神经网络模型预测输出各候选元素作为目标抽取元素的第一概率。3.如权利要求1所述的方法,其特征在于,所述根据各候选位置信息确定所述网页的各候选位置作为目标抽取元素对应的目标抽取位置的第二概率,包括:将各候选位置信息输入目标抽取元素对应的空间概率分布模型;通过所述空间概率分布模型预测输出各候选位置作为目标抽取元素对应的目标抽取位置的第二概率。4.如权利要求1所述的方法,其特征在于,所述根据所述第一概率和所述第二概率从各候选元素和各候选位置中确定目标抽取元素和所述目标抽取元素对应的目标抽取位置,包括:将各候选元素中第一概率满足第一预设条件的候选元素确定为所述目标抽取元素;将各候选位置中第二概率满足第二预设条件的候选位置确定为所述目标抽取元素对应的目标抽取位置。5.如权利要求1所述的方法,其特征在于,所述根据所述第一概率和所述第二概率从各候选元素和各候选位置中确定目标抽取元素和所述目标抽取元素对应的目标抽取位置,包括:根据所述第一概率和所述第二概率确定各候选元素和各候选位置的关联概率;将满足第三预设条件的关联概率对应的候选元素和候选位置确定为目标抽取元素和所述目标抽取元素对应的目标抽取位置。6.如权利要求1所述的方法,其特征在于,所述根据所述网页的DOM树确定所述网页的候选元素以及候选元素的文本信息,包括:将所述DOM树中叶节点的上一层节点确定为所述网页的候选元素;针对任意一个候选元素,根据所述候选元素在DOM树中位置对所述候选元素的内容进行文本编码,...
【专利技术属性】
技术研发人员:梁俊,蒋忠强,全兵,胡小克,巴伟,
申请(专利权)人:中移苏州软件技术有限公司,中国移动通信集团公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。