网页目标信息的提取方法、装置及存储介质制造方法及图纸

技术编号:19122250 阅读:28 留言:0更新日期:2018-10-10 05:17
本发明专利技术提供了一种网页目标信息的提取方法,该方法包括:接收从目标网页中提取目标信息的请求,获取所述目标网页的网页源码,对网页源码进行分词处理得到所述目标网页的可用词集合;将根据可用词集合计算的词向量输入分类模型,以确定所述目标网页所属的主题类别;将所述目标网页的网页源码输入预先确定的位置预测模型,预测所述目标信息出现在不同位置的位置信息列表;从所述位置信息列表中筛选出预设数量的所述目标信息出现概率最高的位置,并从筛选出的位置提取信息作为目标信息。本发明专利技术还提供一种电子装置及计算机存储介质。利用本发明专利技术,可以提高从目标网页提取目标信息的准确性。

【技术实现步骤摘要】
网页目标信息的提取方法、装置及存储介质
本专利技术涉及数据处理
,尤其涉及一种网页目标信息的提取方法、电子装置及计算机可读存储介质。
技术介绍
随着互联网技术和Web技术的高速发展,互联网上网页的数量正在不断的增加。网络信息的增加大大方便了人们获取信息,但是过大的信息量也给人们处理信息带来了很多的困难。在这一背景下,传统靠人工的信息处理方式已经无法适应大量数据处理的要求。如何在海量的信息中将用户感兴趣的信息类型提取出来逐渐成为大家所关注的研究点。中文网页种类繁多,如何对网页进行自动分类,并准确获取网页中的目标信息,是组织和管理网络资源的关键。
技术实现思路
鉴于以上内容,本专利技术提供一种网页目标信息的提取方法、服务器及计算机可读存储介质,其主要目的在于提高从目标网页提取目标信息的准确性。为实现上述目的,本专利技术提供一种网页目标信息的提取方法,该方法包括:分词步骤:接收从目标网页中提取目标信息的请求,获取所述目标网页的网页源码,对获取到的网页源码进行分词处理得到所述目标网页的可用词集合;主题分类步骤:根据所述目标网页的可用词集合计算所述目标网页的词向量,将计算得到的词向量输入预先确定的各主题类别对应的分类模型,识别出所述目标网页所属的主题类别;位置预测步骤:确定所述目标信息对应的第一标签,将所述目标网页的网页源码输入识别出的主题类别中所述第一标签对应的位置预测模型中,预测所述目标信息出现在不同位置的位置信息列表;及信息提取步骤:从所述位置信息列表中筛选出预设数量的概率最高的位置,并从筛选出的位置提取信息作为目标信息。此外,本专利技术还提供一种电子装置,其特征在于,该装置包括:存储器、处理器,所述存储器上存储有可在所述处理器上运行的网页目标信息的提取程序,所述网页目标信息的提取程序被所述处理器执行时,可实现如下步骤:分词步骤:接收从目标网页中提取目标信息的请求,获取所述目标网页的网页源码,对获取到的网页源码进行分词处理得到所述目标网页的可用词集合;主题分类步骤:根据所述目标网页的可用词集合计算所述目标网页的词向量,将计算得到的词向量输入预先确定的各主题类别对应的分类模型,识别出所述目标网页所属的主题类别;位置预测步骤:确定所述目标信息对应的第一标签,将所述目标网页的网页源码输入识别出的主题类别中所述第一标签对应的位置预测模型中,预测所述目标信息出现在不同位置的位置信息列表;及信息提取步骤:从所述位置信息列表中筛选出预设数量的概率最高的位置,并从筛选出的位置提取信息作为目标信息。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中包括网页目标信息的提取程序,所述网页目标信息的提取程序被处理器执行时,可实现如上所述网页目标信息的提取方法中的任意步骤。本专利技术提出的网页目标信息的提取方法、电子装置及计算机可读存储介质,通过为不同的主题类别的网页构建不同的分类模型,利用不同主题类别对应的分类模型对目标网页进行分类,提高了目标网页主题分类的准确性;通过为不同主题类别的不同信息类别构建不同的位置预测模型,利用不同主题类别下不同信息类别对应的位置预测模型,预测目标网页中目标信息所在的位置的位置信息列表,提高了预测目标信息所在位置的准确性;选择位置信息列表中概率排序靠前且概率大于概率阈值的位置,从该位置提取信息作为目标信息,提高了目标信息提取的准确性。附图说明图1为本专利技术网页目标信息的提取方法较佳实施例的流程图;图2为本专利技术电子装置较佳实施例的示意图;图3为图2中网页目标信息的提取程序的程序模块示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种网页目标信息的提取方法。参照图1所示,为本专利技术网页目标信息的提取方法较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。在本实施例中,网页目标信息的提取方法包括步骤S1-S4:S1、接收从目标网页中提取目标信息的请求,获取所述目标网页的网页源码,对获取到的网页源码进行分词处理得到所述目标网页的可用词集合;信息提取请求中携带目标网页信息及待提取的目标信息,根据待提取的目标信息确定目标信息对应的标签。利用爬虫工具爬取该目标网页的网页源码,并对目标网页的网页源码进行分词处理。具体地,提取目标网页的网页源码的原始数据,利用正则表达式去除原始数据中的无关数据,例如,Javascript脚本代码、CSS样式代码和HTML标签数据等。对保留的数据通过分词工具进行分词,生成以空格分隔的初始词汇集合,按照预设的停用词词表,对初始词汇集合进行去停用词处理确定可用词集合,将可用词集合用于表征目标网页的内容。S2、根据所述目标网页的可用词集合计算所述目标网页的词向量,将计算得到的词向量输入预先确定的各主题类别对应的分类模型,识别出所述目标网页所属的主题类别;具体地,根据词频-逆文档频率指数(TF-IDF)算法计算目标网页的可用词集合中各个词汇的重要程度,根据重要程度由高到低的顺序对目标网页的可用词集合中各个词汇进行排序。选择目标网页的可用词集合中的排序靠前的N个词汇作为目标网页的关键词,其中,N>0,且N为整数。另外,基于中文维基百科语料库生成中文语料的词向量模型(Word2vec模型),通过该Word2vec模型分别计算目标网页的可用词集合中的N个关键词的词向量,并利用上述步骤得到的N个关键词的词向量计算目标网页的词向量。确定目标网页的词向量后,将目标网页的词向量依次输入预先训练好的不同主题类别对应的分类模型中,例如,旅游类对应的分类模型、经济类对应的分类模型、体育类对应的分类模型、政治类对应的分类模型、娱乐类对应的分类模型等,然后根据模型输出结果确定所述目标网页所属的主题类别。需要说明的是,不同主题类别对应的分类模型的模型输出结果表示目标网页所属的主题类别为各主题类别的概率。因此,从不同主题类别对应的分类模型的输出结果中,选择概率最大值对应的主题类别,作为目标网页所属的主题类别。可以理解的是,为了提高目标网页主题分类的准确性,预先设置一个预设阈值(例如,0.5),选择各分类模型的输出结果中概率最大值与预设阈值进行比对,当概率最大值大于或等于预设阈值时,将概率最大值对应的主题类别,作为目标网页所属的主题类别。相反,当概率最大值小于预设阈值时,接收用户对目标网页所属主题类别的分类指令,根据分类指令中包含的主题类别确定目标网页所属的主题类别。作为一种实施方式,所述预先确定的分类模型的训练步骤包括:获取指定网页的网页源码,分别对每个指定网页的网页源码进行分词,得到每个指定网页的可用词集合,从可用词集合中提取关键词,并生成每个指定网页的词向量;分别为每个指定网页标注第二标签,将所述词向量划分至不同第二标签对应的集合中,作为不同主题类别的样本数据;及将所述集合中的样本数据划分为训练集及验证集,利用训练集对神经网络模型进行训练,利用验证集对神经网络模型进行验证,当验证结果满足第一预设条件时,确定所述不同主题类型对应的分类模型。具体地,不同的第二标签表示网页所属的不同主题类别,例如,旅游类、经济类、体育类、政治类、及娱乐类等。分别将不同主本文档来自技高网...
网页目标信息的提取方法、装置及存储介质

【技术保护点】
1.一种网页目标信息的提取方法,应用于电子装置,其特征在于,所述方法包括:分词步骤:接收从目标网页中提取目标信息的请求,获取所述目标网页的网页源码,对获取到的网页源码进行分词处理得到所述目标网页的可用词集合;主题分类步骤:根据所述目标网页的可用词集合计算所述目标网页的词向量,将计算得到的词向量输入预先确定的各主题类别对应的分类模型,识别出所述目标网页所属的主题类别;位置预测步骤:确定所述目标信息对应的第一标签,将所述目标网页的网页源码输入识别出的主题类别中所述第一标签对应的位置预测模型中,预测所述目标信息出现在不同位置的位置信息列表;及信息提取步骤:从所述位置信息列表中筛选出预设数量的概率最高的位置,并从筛选出的位置提取信息作为目标信息。

【技术特征摘要】
1.一种网页目标信息的提取方法,应用于电子装置,其特征在于,所述方法包括:分词步骤:接收从目标网页中提取目标信息的请求,获取所述目标网页的网页源码,对获取到的网页源码进行分词处理得到所述目标网页的可用词集合;主题分类步骤:根据所述目标网页的可用词集合计算所述目标网页的词向量,将计算得到的词向量输入预先确定的各主题类别对应的分类模型,识别出所述目标网页所属的主题类别;位置预测步骤:确定所述目标信息对应的第一标签,将所述目标网页的网页源码输入识别出的主题类别中所述第一标签对应的位置预测模型中,预测所述目标信息出现在不同位置的位置信息列表;及信息提取步骤:从所述位置信息列表中筛选出预设数量的概率最高的位置,并从筛选出的位置提取信息作为目标信息。2.根据权利要求1所述的网页目标信息的提取方法,其特征在于,所述分类模型的训练步骤包括:获取指定网页的网页源码,分别对每个指定网页的网页源码进行分词,得到每个指定网页的可用词集合,从可用词集合中提取关键词,并生成每个指定网页的词向量;分别为每个指定网页标注第二标签,将所述词向量划分至不同第二标签对应的集合中,作为不同主题类别的样本数据;及将所述集合中的样本数据划分为训练集及验证集,利用训练集对神经网络模型进行训练,利用验证集对神经网络模型进行验证,当验证结果满足第一预设条件时,确定所述不同主题类型对应的分类模型。3.根据权利要求2所述的网页目标信息的提取方法,其特征在于,所述位置预测模型的训练步骤包括:分别为每个指定网页标注所述第二标签,根据第二标签将所述指定网页的网页源码划分至不同主题类别对应的集合中;分别在每个指定网页的网页源码中标注不同的第一标签,分别将每个集合中的网页源码划分至各第一标签对应的子集合中,作为各主题类别下不同第一标签对应的样本数据;及将所述子集合中的样本数据划分为训练集及验证集,利用训练集对循环神经网络模型进行训练,利用验证集对循环神经网络模型进行验证,当验证结果满足第二预设条件时,确定各主题类别下不同第一标签对应的位置预测模型。4.根据权利要求1至3中任意一项所述的网页目标信息的提取方法,其特征在于,所述“识别出所述目标网页所属的主题类别”的步骤包括:选择所述分类模型的输出结果中概率最高值对应的主题类别,作为所述目标网页所属的主题类别。5.根据权利要求4所述的网页目标信息的提取方法...

【专利技术属性】
技术研发人员:吴壮伟
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1