一种网页利益相关方名称提取方法及装置制造方法及图纸

技术编号:37876880 阅读:18 留言:0更新日期:2023-06-15 21:05
本发明专利技术公开一种网页利益相关方名称提取方法及装置,涉及数据提取技术领域,包括:从用户设置的消息源中获取需要进行利益相关方提取的网页源代码;根据HTML本身半结构化特性,处理以及转换获取到的网页源代码到DOM节点树;过滤网页DOM节点树中非必要/不相关节点,提升后续分类分词速度;使用分词工具,处理网页DOM节点树的存储内容;使用利益相关方名称预先训练机器学习模型,利用训练好的机器学习模型处理步骤S4的分词结果,得到利益相关方名称。本发明专利技术可以高效提取网页中指定的利益相关方名称,还可以提取其他种类的关键词,可以用于舆情系统,站内导航等功能。站内导航等功能。站内导航等功能。

【技术实现步骤摘要】
一种网页利益相关方名称提取方法及装置


[0001]本专利技术涉及数据提取
,具体的说是一种网页利益相关方名称提取方法及装置。

技术介绍

[0002]随着技术的发展,数据等同于财富。通常情况下,普通用户可以从网页上获得他们想要的数据;然而,当研究人员和数据分析师想要获得大量的数据用于研究目的时,研究人员在浩如烟海的网页数据中获取包含特定关键词的数据是相当困难的。为了解决这个问题,去验证文章/报道/博客中存在的利益相关方或特定关键词,是一种较好的数据清洗方法;与此同时,社会舆论对于企业的发展至关重要:企业需要快速判断互联网中是否存在与自身休戚相关的报道,以快速反应和应对社会舆论;对个人而言,在个人需要判断自身信誉状况或者个人评价时,从互联网之中筛选与自身相关的信息无疑是一种慢而难的事。
[0003]现有的技术中对利益相关人信息提取存在以下痛点:
[0004](1)基准确度不高。由于目前对于利益相关人的信息提取主要基于数据库全匹配,如果表现为企业缩写,那么全匹配工具则无法奏效;同样的痛点对于个人名称更是如此。
[0005](2)费时费力.企业或者个人名称数据库需要长时间的维护,这将是一笔极高的时间以及经济成本。
[0006](3)提取支持较少。目前的利益相关方提取方式主要从正文之中提取,而对于可能存在于非正文的元素没有进行提取。

技术实现思路

[0007]本专利技术针对目前技术发展的需求和不足之处,提供一种网页利益相关方名称提取方法及装置。
[0008]首先,本专利技术的一种网页利益相关方名称提取方法,解决上述技术问题采用的技术方案如下:
[0009]一种网页利益相关方名称提取方法,包括如下步骤:
[0010]S1、从用户设置的消息源中获取需要进行利益相关方提取的网页源代码;
[0011]S2、根据HTML本身半结构化特性,处理以及转换获取到的网页源代码到DOM节点树;
[0012]S3、过滤网页DOM节点树中非必要/不相关节点,提升后续分类分词速度;
[0013]S4、使用分词工具,处理网页DOM节点树的存储内容;
[0014]S5、使用利益相关方名称预先训练机器学习模型,利用训练好的机器学习模型处理步骤S4的分词结果,得到利益相关方名称。
[0015]可选的,步骤S1从用户设置的消息源中获取需要进行利益相关方提取的网页源代码,进一步包括:
[0016]从服务器或者本地机器中获取网页源代码;
[0017]根据网页源代码的信息特征,识别出所需网页类型入口网址;
[0018]甄别网页本身编码方式,并根据网页的编码方式读取网页源代码。
[0019]可选的,步骤S2根据HTML本身半结构化特性,处理以及转换获取到的网页源代码到DOM节点树,进一步包括:
[0020]将网页源代码转换为DOM节点树的形式;
[0021]封装并提供数据处理方法,以对DOM节点树的数据进行处理。
[0022]可选的,步骤S3过滤网页DOM节点树中非必要/不相关节点,提升后续分类分词速度,进一步包括:
[0023]通过DOM节点树的节点内含信息,删除DOM节点树中的非必要/不相关节点,具体包括垃圾信息、导航栏、正文内广告、空节点;
[0024]删除DOM节点树中的文字加粗节点、下划线节点,并将删除节点中的内容和父节点进行整合;
[0025]整理/合并/转换DOM节点树中的多个同类型tag,方便后续进行数据处理;
[0026]对待提取网页中存在语法错误的节点进行纠错,以获取修正后的DOM节点树。
[0027]可选的,步骤S4中使用分词工具jieba2,处理网页DOM节点树的存储内容,进一步包括:
[0028]定制分词工具jieba2所使用的分词数据集,以切分DOM节点树内容为词组;
[0029]设置分词工具jieba2的切分粒度,以确保利益相关方名称不被拆分理解。
[0030]可选的,步骤S5使用利益相关方名称预先训练机器学习模型,利用训练好的机器学习模型处理步骤S4的分词结果,得到利益相关方名称,进一步包括:
[0031]从互联网数据中提取利益相关方名称,组成数据集;
[0032]使用指定的编码方式,将数据集的利益相关方名称编码为可以被机器学习模型理解的数据类型;
[0033]使用编码后的数据训练机器学习模型;
[0034]使用K

Fold方式,计算验证机器学习模型的准确率、召回率、精确度和F1

Score,在验证结果超出设定阈值后,输出机器学习模型;
[0035]使用机器学习模型从步骤S4的分词结果中提取利益相关方名称,将提取内容以指定的编码导出到文本文档或存储介质中。
[0036]其次,本专利技术的一种网页利益相关方名称提取装置,解决上述技术问题采用的技术方案如下:
[0037]一种网页利益相关方名称提取装置,包括:
[0038]代码读取模块,用于从用户设置的消息源中获取需要进行利益相关方提取的网页源代码;
[0039]处理转换模块,用于根据HTML本身半结构化特性,处理以及转换获取到的网页源代码到DOM节点树;
[0040]节点过滤模块,用于过滤网页DOM节点树中非必要/不相关节点,提升后续分类分词速度;
[0041]分词处理模块,用于使用分词工具,处理网页DOM节点树的存储内容;
[0042]训练模块,用于使用利益相关方名称预先训练机器学习模型,训练好的机器学习
模型处理分词处理模块输出的分词结果,得到利益相关方名称。
[0043]可选的,用户设置的消息源包括在线网页和本地网页;
[0044]代码读取模块基于消息源的类型识别出所需网页类型入口网址,随后甄别网页本身编码方式,并根据网页的编码方式读取网页源代码;
[0045]处理转换模块根据HTML本身半结构化特性,首先将代码读取模块读取的网页源代码转换为DOM节点树形式,随后封装并提供数据处理方法,以对DOM节点树的数据进行处理。
[0046]可选的,节点过滤模块过滤网页DOM节点树中非必要/不相关节点,提升后续分类分词速度,具体包括:
[0047]节点过滤子模块,用于基于DOM节点树的节点内含信息,删除DOM节点树中的非必要/不相关节点,具体包括垃圾信息、导航栏、正文内广告、空节点;
[0048]节点删除子模块,用于删除DOM节点树中的文字加粗节点、下划线节点,并将删除节点中的内容和父节点进行整合;
[0049]节点转换归类子模块,用于整理/合并/转换DOM节点树中的多个同类型tag,方便后续进行数据处理;
[0050]节点树纠错子模块,用于对待提取网页中存在语法错误的节点进行纠错,以获取修正后的DOM节点树。
[0051]可选的,分词处理模块首先定制分词工具jieba2使用的分词数据集,以切分D本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页利益相关方名称提取方法,其特征在于,包括如下步骤:S1、从用户设置的消息源中获取需要进行利益相关方提取的网页源代码;S2、根据HTML本身半结构化特性,处理以及转换获取到的网页源代码到DOM节点树;S3、过滤网页DOM节点树中非必要/不相关节点,提升后续分类分词速度;S4、使用分词工具,处理网页DOM节点树的存储内容;S5、使用利益相关方名称预先训练机器学习模型,利用训练好的机器学习模型处理步骤S4的分词结果,得到利益相关方名称。2.根据权利要求1所述的一种网页利益相关方名称提取方法,其特征在于,步骤S1从用户设置的消息源中获取需要进行利益相关方提取的网页源代码,进一步包括:从服务器或者本地机器中获取网页源代码;根据网页源代码的信息特征,识别出所需网页类型入口网址;甄别网页本身编码方式,并根据网页的编码方式读取网页源代码。3.根据权利要求2所述的一种网页利益相关方名称提取方法,其特征在于,步骤S2根据HTML本身半结构化特性,处理以及转换获取到的网页源代码到DOM节点树,进一步包括:将网页源代码转换为DOM节点树的形式;封装并提供数据处理方法,以对DOM节点树的数据进行处理。4.根据权利要求3所述的一种网页利益相关方名称提取方法,其特征在于,步骤S3过滤网页DOM节点树中非必要/不相关节点,提升后续分类分词速度,进一步包括:通过DOM节点树的节点内含信息,删除DOM节点树中的非必要/不相关节点,具体包括垃圾信息、导航栏、正文内广告、空节点;删除DOM节点树中的文字加粗节点、下划线节点,并将删除节点中的内容和父节点进行整合;整理/合并/转换DOM节点树中的多个同类型tag,方便后续进行数据处理;对待提取网页中存在语法错误的节点进行纠错,以获取修正后的DOM节点树。5.根据权利要求4所述的一种网页利益相关方名称提取方法,其特征在于,步骤S4中使用分词工具jieba2,处理网页DOM节点树的存储内容,进一步包括:定制分词工具jieba2所使用的分词数据集,以切分DOM节点树内容为词组;设置分词工具jieba2的切分粒度,以确保利益相关方名称不被拆分理解。6.根据权利要求5所述的一种网页利益相关方名称提取方法,其特征在于,步骤S5使用利益相关方名称预先训练机器学习模型,利用训练好的机器学习模型处理步骤S4的分词结果,得到利益相关方名称,进一步包括:从互联网数据中提取利益相关方名称,组成数据集;使用指定的编码方式,将数据集的利益相关方名称编码为可以被机器学习模型理解的数据类型;使用编码后的数据训练机器学习模型;使用K

Fold方式,计算验证机器学习模型的准确率、召回率、精确度和F1

Score,在验证结果超出设定阈值后,输出机器学...

【专利技术属性】
技术研发人员:王亚斌刘长升魏子重李锐
申请(专利权)人:山东浪潮科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1