一种基于多角度特征学习的主题网页信息抽取方法技术

技术编号:36161323 阅读:58 留言:0更新日期:2022-12-31 20:09
本发明专利技术涉及网页信息抽取技术领域,具体公开了一种基于多角度特征学习的主题网页信息抽取方法,且公开了本发明专利技术使用网页爬虫,获取页面的HTML源码,可以对页面的内容特征进行提取,包括标题、域名、IP归属地等。对于网页标题和网页内容中的特征,采用相应字符串匹配和识别算法来实现提取特征;对于域名信息、IP归属地、搜索引擎等数据,则借助相应的接口,完成信息提取和特征获取,基于多角度特征学习的主题网页信息抽取方法比关键词法的F值提高了4%以上,验证了该方法的有效性;关键词法相比SVM法,F值降低了10%;相比本文法,F值降低了17%,可见该方法在算法可行性和效果上均优于其他方法。其他方法。其他方法。

【技术实现步骤摘要】
一种基于多角度特征学习的主题网页信息抽取方法


[0001]本专利技术涉及网页信息抽取
,具体为一种基于多角度特征学习的主题网页信息抽取方法。

技术介绍

[0002]如何从纷繁的网络信息快速提炼主题信息,不仅关系网络生态治理,还关系及时掌握网民认知的舆论动向。特定主题信息倒灌传播,对民众产生错误认知的负面影响。
[0003]当前网页信息发现存在发现难、发现慢以及发现不准的问题,文献《基于深度学习的社交网络舆情信息抽取方法综述》提出基于深度学习的社交网络舆情信息抽取方法,但是适用的场景有限;文献《基于人工智能的大数据信息快速抽取算法》提出基于人工智能的大数据信息快速抽取算,但是对数据标准化没有较为量化准确的刻画,因此,准确抽取网页主题信息抽取尤为必要。

技术实现思路

[0004]本专利技术的目的在于提供一种基于多角度特征学习的主题网页信息抽取方法,以解决上述
技术介绍
中提出的问题。
[0005]技术方案
[0006]本专利技术提供如下技术方案:一种基于多角度特征学习的主题网页信息抽取方法,包括主题网页抽取与爬虫抽取原理。
[0007]一种基于多角度特征学习的主题网页信息抽取方法,包含以下步骤:
[0008]1、主题网页抽取;
[0009]2、爬虫抽取原理。
[0010](1)主题网页抽取
[0011]网页抽取(Web Extraction)是从网页中抽取出有意义的信息。常用方法是利用网页的结构信息、文字信息或者领域信息,判断出哪一部分内容更重要。
[0012]结构信息包括文字的前后关系、DOM树上节点间的层次关系、网页元素在视觉上的位置关系等。文字信息包括文本块间的聚合度等语言学上的一些特性。领域信息是相对于特定的应用而言。本文研究的是面向主题的网页信息抽取。主题是围绕目标需求的信息。
[0013](2)爬虫抽取原理
[0014]网络主题文本过滤需要分析页面,利用网络爬虫执行。网络爬虫从互联网中按照一定规则自动抓取网页,根据获取的初始URL爬取页面,进而获得新的URL,下载网页并解析,判断内容是否重复,过滤、去重URL,将新的URL放到URL队列中,循环直到满足设置的停止条件时,爬虫停止爬取。
[0015]一种基于多角度特征学习的主题网页信息抽取方法,包括以下步骤:
[0016]一、文本分词
[0017]二、多角度特征分析
[0018]从网页标题、网页内容、域名信息、IP归属地等角度选取7个特征。通过提取网页的主题特征,对其量化处理,生成特征向量进行分析;
[0019]将网页标题和网页内容分开分析,为各自特征赋予对应的权重,具体过程如下:
[0020]使用特征函数Fi来分别刻画其对应的身份特征,定义某一网页的身份特征向量:
[0021]F={F1,F2,F3,F4,F5,F6,F7}
ꢀꢀꢀ
(1)
[0022]其中F1为网页标题是否包含主题重点词,F2为网页标题是否命中主题衍生词,F3为网页内容是否包含主题重点词,F4为网页内容是否命中主题衍生词,F5为域名注册商是否为境外公司,F6为IP归属地是否为境外,F7为网页标题在搜索引擎是否有返回结果;
[0023]每个特征函数的输出为实数值,表示网页中对应的身份特征状态,具体定义如下:
[0024]F1:网页标题是否包含主题重点词,为突出重点,网页往往会拟定夺人眼球的网页标题吸引读者,此类标题往往包含主题重点词;
[0025]F1的定义如下:
[0026][0027]F2:网页标题是否命中主题衍生词;
[0028]F2的定义如下:
[0029][0030]F3:网页内容是否包含主题重点词;
[0031]F3的定义如下:
[0032][0033]F4:网页内容是否命中特定敏感词;
[0034]F4的定义如下:
[0035][0036]F5:域名注册商是否为境外公司;
[0037]F5的定义如下:
[0038][0039]F6:IP归属地是否为境外;
[0040]F6的定义如下:
[0041][0042]F7:网页标题在搜索引擎的返回结果;
[0043]F7的定义如下:
[0044][0045]三、模型深度学习训练
[0046]将上述F1、F2

Fi的敏感特征经过独立的循环神经网络后,再经过全连接神经网络,进行后期融合,使得每个独立的循环神经网络都能学习到,模型准确率较高。
[0047]具体是根据上述特征,判断一个网站是否为主题网页时,使用线性分类器进行处理,线性分类函数如式(2):
[0048]S=f(∑F
i
×
w
i
);0<i≤8
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0050]式(2)中,Fi表示网页敏感身份特征的取值,Fi=1时,判断该网站为主题网站;Fi=

1时,则表示页面正常,该网站为正常网站,式(2)中,wi为7个敏感特征分量的权值,其相应的计算公式如式(3):
[0051][0052]而上式中ei的计算公式为式(4):
[0053][0054]式(4)中,TFi和FFi分别为单独使用敏感特征Fi检测页面时的正确率和误判率;
[0055]使用此种方式,得出的S值将在区间[

1,1]中,当S接近于

1时,则认为此网页为非主题网页,当S值更接近于1时,则认为此网页为主题网页。
[0056]优选的,所述使用网页爬虫,获取页面的HTML源码,可以对页面的内容特征进行提取,包括标题、域名、IP归属地等。对于网页标题和网页内容中的特征,采用相应字符串匹配和识别算法来实现提取特征;对于域名信息、IP归属地、搜索引擎等数据,则借助相应的接
口,完成信息提取和特征获取。
[0057]优选的,所述式(2)是一个线性函数,具有7个元,即7个影响因素,这7个因素分别对应着7个特征的取值,同时权重系数的引入,是对每个特征影响效用的比重的量化处理,权重系数越大,说明在此线性函数中,此种特征对结果的影响效用越大。
[0058]有益效果
[0059]与现有技术相比,本专利技术提供了一种基于多角度特征学习的主题网页信息抽取方法,具备以下有益效果:
[0060]1、该基于多角度特征学习的主题网页信息抽取方法,基于多角度特征学习的主题网页信息抽取方法比关键词法的F值提高了4%以上,验证了该方法的有效性;关键词法相比SVM法,F值降低了10%;相比本文法,F值降低了17%,可见该方法在算法可行性和效果上均优于其他方法。
附图说明
[0061]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多角度特征学习的主题网页信息抽取方法,其特征在于:包括主题网页抽取与爬虫抽取原理。一种基于多角度特征学习的主题网页信息抽取方法,包含以下步骤:一、文本分词二、多角度特征分析从网页标题、网页内容、域名信息、IP归属地等角度选取7个特征。通过提取网页的主题特征,对其量化处理,生成特征向量进行分析;将网页标题和网页内容分开分析,为各自特征赋予对应的权重,具体过程如下:使用特征函数Fi来分别刻画其对应的身份特征,定义某一网页的身份特征向量:F={F1,F2,F3,F4,F5,F6,F7}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中F1为网页标题是否包含主题重点词,F2为网页标题是否命中主题衍生词,F3为网页内容是否包含主题重点词,F4为网页内容是否命中主题衍生词,F5为域名注册商是否为境外公司,F6为IP归属地是否为境外,F7为网页标题在搜索引擎是否有返回结果;每个特征函数的输出为实数值,表示网页中对应的身份特征状态,具体定义如下:F1:网页标题是否包含主题重点词,为突出重点,网页往往会拟定夺人眼球的网页标题吸引读者,此类标题往往包含主题重点词;F1的定义如下:F2:网页标题是否命中主题衍生词;F2的定义如下:F3:网页内容是否包含主题重点词;F3的定义如下:F4:网页内容是否命中特定敏感词;F4的定义如下:
F5:域名注册商是否为境外公司;F5的定义如下:F6:IP归属地是否为境外;F6的定义如下:F7:网页标题在搜索引擎的返回结果;F7的定义如下:三、模型深度学习训练将上述F1、F2

Fi的敏感特征经过独立的循环神经网络后,再经过全连接神经网络,进行后期融合,使得...

【专利技术属性】
技术研发人员:刘丽娟闵宗茹巨星海黄勃南池淏张明金杜俊丽
申请(专利权)人:上海瀛数信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1