一种基于多角度特征学习的主题网页信息抽取方法技术

技术编号:36161323 阅读:84 留言:0更新日期:2022-12-31 20:09
本发明专利技术涉及网页信息抽取技术领域,具体公开了一种基于多角度特征学习的主题网页信息抽取方法,且公开了本发明专利技术使用网页爬虫,获取页面的HTML源码,可以对页面的内容特征进行提取,包括标题、域名、IP归属地等。对于网页标题和网页内容中的特征,采用相应字符串匹配和识别算法来实现提取特征;对于域名信息、IP归属地、搜索引擎等数据,则借助相应的接口,完成信息提取和特征获取,基于多角度特征学习的主题网页信息抽取方法比关键词法的F值提高了4%以上,验证了该方法的有效性;关键词法相比SVM法,F值降低了10%;相比本文法,F值降低了17%,可见该方法在算法可行性和效果上均优于其他方法。其他方法。其他方法。

【技术实现步骤摘要】
一种基于多角度特征学习的主题网页信息抽取方法


[0001]本专利技术涉及网页信息抽取
,具体为一种基于多角度特征学习的主题网页信息抽取方法。

技术介绍

[0002]如何从纷繁的网络信息快速提炼主题信息,不仅关系网络生态治理,还关系及时掌握网民认知的舆论动向。特定主题信息倒灌传播,对民众产生错误认知的负面影响。
[0003]当前网页信息发现存在发现难、发现慢以及发现不准的问题,文献《基于深度学习的社交网络舆情信息抽取方法综述》提出基于深度学习的社交网络舆情信息抽取方法,但是适用的场景有限;文献《基于人工智能的大数据信息快速抽取算法》提出基于人工智能的大数据信息快速抽取算,但是对数据标准化没有较为量化准确的刻画,因此,准确抽取网页主题信息抽取尤为必要。

技术实现思路

[0004]本专利技术的目的在于提供一种基于多角度特征学习的主题网页信息抽取方法,以解决上述
技术介绍
中提出的问题。
[0005]技术方案
[0006]本专利技术提供如下技术方案:一种基于多角度特征学习的主题网页信息抽取方法,包括主题网页抽取本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多角度特征学习的主题网页信息抽取方法,其特征在于:包括主题网页抽取与爬虫抽取原理。一种基于多角度特征学习的主题网页信息抽取方法,包含以下步骤:一、文本分词二、多角度特征分析从网页标题、网页内容、域名信息、IP归属地等角度选取7个特征。通过提取网页的主题特征,对其量化处理,生成特征向量进行分析;将网页标题和网页内容分开分析,为各自特征赋予对应的权重,具体过程如下:使用特征函数Fi来分别刻画其对应的身份特征,定义某一网页的身份特征向量:F={F1,F2,F3,F4,F5,F6,F7}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中F1为网页标题是否包含主题重点词,F2为网页标题是否命中主题衍生词,F3为网页内容是否包含主题重点词,F4为网页内容是否命中主题衍生词,F5为域名注册商是否为境外公司,F6为IP归属地是否为境外,F7为网页标题在搜索引擎是否有返回结果;每个特征函数的输出为实数值,表示网页中对应的身份特征状态,具体定义如下:F1:网页标题是否包含主题重点词,为突出重点,网页往往会拟定夺人眼球的网页标题吸引读者,此类标题往往包含主题重点词;F1的定义如下:F2:网页标题是否命中主题衍生词;F2的定义如下:F3:网页内容是否包含主题重点词;F3的定义如下:F4:网页内容是否命中特定敏感词;F4的定义如下:
F5:域名注册商是否为境外公司;F5的定义如下:F6:IP归属地是否为境外;F6的定义如下:F7:网页标题在搜索引擎的返回结果;F7的定义如下:三、模型深度学习训练将上述F1、F2

Fi的敏感特征经过独立的循环神经网络后,再经过全连接神经网络,进行后期融合,使得...

【专利技术属性】
技术研发人员:刘丽娟闵宗茹巨星海黄勃南池淏张明金杜俊丽
申请(专利权)人:上海瀛数信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1