网页信息提取方法和装置制造方法及图纸

技术编号:20363433 阅读:24 留言:0更新日期:2019-02-16 16:46
公开了一种网页信息提取方法和装置。所述方法包括:拆分目标网页块中的文本以获取粗分类的键‑值对;利用自学习模型对所述粗分类的键‑值对进行修正;以及从经修正的键‑值对中获取所述网页的目标提取信息。由此,通过两轮调整提取准确分类的键‑值对信息。本发明专利技术的无监督的网页结构化信息抽取方案能够通过使用自学习模型,在不依赖任何人工标注数据的情况下从网页块中找到结构化信息的“键‑值”对,从而适应网页排版的变化,与传统模板配置方案相比,在性能和稳定性具有显著提升。

【技术实现步骤摘要】
网页信息提取方法和装置
本专利技术涉及互联网技术,尤其涉及一种网页信息提取方法和装置。
技术介绍
随着互联网技术的快速发展,能够访问的网页数量呈指数级增长。网页中的信息,分为结构化、半结构化和非结构化三种,其中结构化信息对人们最为有用,例如:商户网页中的地址电话信息,商品页面中的商品名称和价格,小说网页中的作者,更新时间,字数等信息。利用算法抽取出网页的结构化信息,能够降低用户在海量数据中筛选信息的成本,因此,结构化信息抽取在搜索引擎,地理信息系统,数据挖掘以及情报分析系统中都有着重要的作用。图1为网页中结构化信息的一个例子。如图所示,百科网页的表格中包含关于主题词条“煎饼馃子”的结构化信息。传统的结构化信息抽取方法一般基于页面模版,模版可以由人工配置,也可以由算法生成。人工配置的模版准确性高,但只能抽取特定网页的结构化信息;算法生成的模版准确率稍差,能够抽取的网页比人工配置更多,但算法需要大量的人工标注集合进行训练,才能生成较好的模版。如果网页的排版发生变化,无论是人工还是算法生成的模版,都面临着失效的风险,稳定性较差。为此,需要一种改进的网页信息提取方案。
技术实现思路
为了解决如上至少一个问题,本专利技术提出了一种无监督的网页结构化信息抽取方案,能够通过使用自学习模型,在不依赖任何人工标注数据的情况下从网页块中找到结构化信息的“键-值”对,从而适应网页排版的变化,与传统模板配置方案相比,在性能和稳定性具有显著提升。根据本专利技术的一个方面,提出了一种网页信息提取方法,包括:拆分目标网页块中的文本以获取粗分类的键-值对;利用自学习模型对所述粗分类的键-值对进行修正;以及从经修正的键-值对中获取所述网页的目标提取信息。由此,通过两轮调整提取准确分类的键-值对信息。优选地,拆分目标网页块中的文本以获取粗分类的键-值对可以包括:将目标网页块中的所有文本节点按顺序拆分为文本片段;以及基于粗分类规则将所述文本片段划分为所述粗分类的键-值对。所述粗分类规则可以包括如下至少一项:文本片段是否在冒号前;文本片段是否包括键关键词;以及文本片段在两列结构中的位置。由此,能够通过相对简单但设置灵活的规则套用,来获取总体准确性较高的粗分类结果。进一步地,利用自学习模型对所述粗分类的键-值对进行修正可以包括:通过针对修正特征的自学习模型对所述粗分类的键-值对进行修正,所述修正特征则可包括如下至少一项:网页样式特征、键关键词特征、树结构特征和/或历史分类特征。优选地,利用自学习模型对所述粗分类的键-值对进行修正可以包括:建立修正特征与键-值对分类之间的概率模型;以及利用所述粗分类的键-值对,对所述概率模型的概率分布进行自学习。利用所述粗分类的键-值对,对所述概率模型的概率分布进行自学习可以包括:通过键和值在粗分类中的占比,得到键和值的先验概率;通过键和值针对每个修正特征的频率,得到键和值针对该修正特征的后验概率;以及基于所述先验概率和所述后验概率确定是否要对所述粗分类的键-值对进行修正。针对所述粗分类的键-值对中的每个文本片段,可以根据下式求取其是键或值的概率:其中,fi为第i个修正特征,P(K)为文本片段为“键”的概率,P(V)为文本片段为“值”的概率,P(K|f1,f2...fn)和P(V|f1,f2...fn)为特征f1至fn出现时,文本片段为“键”或“值”的概率,先验概率P(V)和P(K)表示“键”和“值”在粗分类中的占比,并且,将R大于1的文本片段设为“键”,小于1的设为“值”。优选地,本专利技术的网页信息提取方法还可以包括:从所述网页的源代码中选取用于提取键-值对的目标网页块。由此能够选取重要的网页块进行信息提取,从而提升网页整体的处理效率。从网页的代码中选取用于提取键-值对的目标网页块包括如下至少一项:选取网页中包含表格结构的网页块作为所述目标网页块;选取网页中包含两列结构的网页块作为所述目标网页块;以及选取网页中包含键关键词的网页块作为所述目标网页块。优选地,可以将包含表格结构、两列结构和/或键关键词大于各自预定阈值的网页块作为所述目标网页块。从经修正的键-值对中获取所述网页的目标提取信息包括:至少基于多个目标网页块所包含的所述经修正的键-值对,从多个目标网页块中确定最终目标网页块;以及使用最终目标网页块所包含的经修正的键-值对作为所述网页的目标提取信息。由此,能够最终选取重要网页块所包含的结构化信息。至少基于多个目标网页块所包含的所述经修正的键-值对,从所述多个目标网页块中确定最终目标网页块包括:基于每个目标网页块所包含的所述经修正的键-值对以及每个目标网页块在所述网页中的位置,确定最终目标网页块。由此,能够基于内容和位置两者更为准确地选定目标结构化网页块。基于每个目标网页块所包含的所述经修正的键-值对以及每个目标网页块在所述网页中的位置,确定最终目标网页块包括:使用每个目标网页块所包含的所述经修正的键-值对的数量,并且使用目标网页块与页面标题的距离、目标网页块与页面导航栏的距离以及目标网页块在页面中的水平相对位置中的至少一项,选出最为重要的目标网页块作为所述最终目标网页块。优选地,网页信息提取方法还可以包括:基于所述目标提取信息,选择经修正的键值作为初始键关键值。由此实现对关键值的快速自动获取。根据本专利技术另一个方面,提出了一种网页信息提取装置,包括:粗分类单元,用于拆分目标网页块中的文本以获取粗分类的键-值对;自学习修正单元,利用自学习模型对所述粗分类的键-值对进行修正;以及信息提取单元,用于从经修正的键-值对中获取所述网页的目标提取信息。优选地,粗分类单元还可以包括文本拆分单元,用于将目标网页块中的所有文本节点按顺序拆分为文本片段。相应地,粗分类单元可以基于粗分类规则将所述文本片段划分为所述粗分类的键-值对。在一个实施例中,粗分类规则包括如下至少一项:文本片段是否在冒号前;文本片段是否包括键关键词;以及文本片段在两列结构中的位置。优选地,自学习修正单元可以进一步用于:通过针对修正特征的自学习模型对所述粗分类的键-值对进行修正,所述修正特征包括如下至少一项:网页样式特征、键关键词特征、树结构特征和/或历史分类特征。自学习修正单元可以进一步用于:建立修正特征与键-值对分类之间的概率模型;以及利用所述粗分类的键-值对,对所述概率模型的概率分布进行自学习。优选地,利用所述粗分类的键-值对,对所述概率模型的概率分布进行自学习可以包括:通过键和值在粗分类中的占比,得到键和值的先验概率;通过键和值针对每个修正特征的频率,得到键和值针对该修正特征的后验概率;以及基于所述先验概率和所述后验概率确定是否要对所述粗分类的键-值对进行修正。自学习修正单元可以针对粗分类的键-值对中的每个文本片段,根据下式求取其是键或值的概率:其中,fi为第i个修正特征,P(K)为文本片段为“键”的概率,P(V)为文本片段为“值”的概率,P(K|f1,f2...fn)和P(V|f1,f2...fn)为特征f1至fn出现时,文本片段为“键”或“值”的概率,先验概率P(V)和P(K)表示“键”和“值”在粗分类中的占比,并且,将R大于1的文本片段设为“键”,小于1的设为“值”。在一个实施例中,提取装置还可以包括:网页块选取单元,用于从所述网页的源代码中选取用本文档来自技高网...

【技术保护点】
1.一种网页信息提取方法,包括:拆分目标网页块中的文本以获取粗分类的键‑值对;利用自学习模型对所述粗分类的键‑值对进行修正;以及从经修正的键‑值对中获取所述网页的目标提取信息。

【技术特征摘要】
1.一种网页信息提取方法,包括:拆分目标网页块中的文本以获取粗分类的键-值对;利用自学习模型对所述粗分类的键-值对进行修正;以及从经修正的键-值对中获取所述网页的目标提取信息。2.如权利要求1所述的方法,还包括:从所述网页的源代码中选取用于提取键-值对的目标网页块。3.如权利要求2所述的方法,其中,从所述网页的源代码中选取用于提取键-值对的目标网页块包括如下至少一项:选取网页中包含表格结构的网页块作为所述目标网页块;选取网页中包含两列结构的网页块作为所述目标网页块;以及选取网页中包含键关键词的网页块作为所述目标网页块。4.如权利要求3所述的方法,其中,将包含表格结构、两列结构和/或键关键词大于各自预定阈值的网页块作为所述目标网页块。5.如权利要求1所述的方法,其中,从经修正的键-值对中获取所述网页的目标提取信息包括:至少基于多个目标网页块所包含的所述经修正的键-值对,从所述多个目标网页块中确定最终目标网页块;以及使用所述最终目标网页块所包含的经修正的键-值对作为所述网页的目标提取信息。6.如权利要求5所述的方法,其中,至少基于多个目标网页块所包含的所述经修正的键-值对,从所述多个目标网页块中确定最终目标网页块包括:基于每个目标网页块所包含的所述经修正的键-值对以及每个目标网页块在所述网页中的位置,确定最终目标网页块。7.如权利要求6所述的方法,其中,基于每个目标网页块所包含的所述经修正的键-值对以及每个目标网页块在所述网页中的位置,确定最终目标网页块包括:使用每个目标网页块所包含的所述经修正的键-值对的数量,并且使用目标网页块与页面标题的距离、目标网页块与页面导航栏的距离以及目标网页块在页面中的水平相对位置中的至少一项,选出最为重要的目标网页块作为所述最终目标网页块。8.如权利要求1所述的方法,其中,拆分目标网页块中的文本以获取粗分类的键-值对包括:将目标网页块中的所有文本节点按顺序拆分为文本片段;以及基于粗分类规则将所述文本片段划分为所述粗分类的键-值对。9.如权利要求8所述的方法,其中,所述粗分类规则包括如下至少一项:文本片段是否在冒号前;文本片段是否包括键关键词;文本片段在两列结构中的位置。10.如权利要求1所述的方法,其中,利用自学习模型对所述粗分类的键-值对进行修正包括:通过针对修正特征的自学习模型对所述粗分类的键-值对进行修正,所述修正特征包括如下至少一项:网页样式特征、键关键词特征、树结构特征和/或历史分类特征。11.如权利要求1所述的方法,其中,利用自学习模型对所述粗分类的键-值对进行修正包括:建立修正特征与键-值对分类之间的概率模型;利用所述粗分类的键-值对,对所述概率模型的概率分布进行自学习。12.如权利要求11所述的方法,其中,利用所述粗分类的键-值对,对所述概率模型的概率分布进行自学习包括:通过键和值在粗分类中的占比,得到键和值的先验概率;通过键和值针对每个修正特征的频率,得到键和值针对该修正特征的后验概率;以及基于所述先验概率和所述后验概率确定是否要对所述粗分类的键-值对进行修正。13.如权利要求12所述的方法,其中,针对所述粗分类的键-值对中的每个文本片段,根据下式求取其是键或值的概率:其中,fi为第i个修正特征,P(K)为文本片段为“键”的概率,P(V)为文本片段为“值”的概率,P(K|f1,f2...fn)和P(V|f1,f2...fn)为特征f1至fn出现时,文本片段为“键”或“值”的概率,先验概率P(V)和P(K)表示“键”和“值”在粗分类中的占比,并且,将R大于1的文本片段设为“键”,小于1的设为“值”。14.如权利要求1所述的方法,还包括:基于所述目标提取信息,选择经修正的键值作为初始键关键值。15.一种网页信息提取装置,包括:粗分类单元,用于拆分目标网页块中的文本以获取粗分类的键-值对;自学习修正单元,利用自学习模型对...

【专利技术属性】
技术研发人员:何磊杨智杰杨锋
申请(专利权)人:广州神马移动信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1