一种基于语义的开放域网页知识抽取方法及系统技术方案

技术编号:39574121 阅读:8 留言:0更新日期:2023-12-03 19:26
本发明专利技术提出一种基于语义的开放域网页知识抽取方法,包括:获取开放域网页的骨架树,对该骨架树的骨架节点进行分裂,得到该骨架节点的骨架子节点,生成骨架子节点序列;对该骨架子节点和该骨架节点标注分类标签,根据该分类标签对该骨架树进行关系抽取,获得抽取任务的关系子节点序列,并生成关系片段;基于该关系片段对该骨架树进行客体抽取,以抽取到的骨架子节点序列为客体片段;以该关系片段和其对应的客体片段为该抽取任务的抽取结果

【技术实现步骤摘要】
一种基于语义的开放域网页知识抽取方法及系统


[0001]本专利技术属于网络信息
,特别涉及一种开放域网页知识抽取方法及系统


技术介绍

[0002]知识抽取
(Knowledge Extraction

KE)
主要是从自然语言文本中抽取事实,事实以
<
主体

关系

客体
>
三元组形式表示

知识抽取是知识图谱构建不可或缺的一环,且广泛地应用于问答系统

自动摘要中

以知识图谱构建为例,目前大多数实体

关系抽取方法都是为自由文本设计的,不能很好地处理半结构化的网页内容

而半结构化的网页中往往存在着大量自由文本中没有的知识,尤其是一些长尾实体的知识,抽取这些知识可以丰富和补充长尾实体知识图谱

网页知识抽取
(Web Knowledge Extraction

WKE)
主要针对详情页进行
<
主体

关系

客体
>
事实三元组抽取

根据关系类型是否在相应知识图谱中出现,网页知识抽取分为限定域网页知识抽取
(ClosedIE)
和开放域网页知识抽取
(OpenIE)。
开放域网页知识抽取的关系类型则并未定义,输入给定主体的详情页面,输出该主体对应的所有
<
关系

客体
>


[0003]网页有三种表现形式:序列化的
HTML
源码形式

网络化的
DOM
树形式

图像化形式

这三种表现形式分别提供了三种不同的特征:文本特征

结构特征和视觉特征

现有的方法或基于或结合这三种特征进行网页知识抽取

[0004]基于文本特征的方法往往对
HTML
原始序列或删除标记符号后的纯文本做标注,并采用自由文本的自然语言处理模型进行抽取

然而,布局信息的丢失是此类方法的一个致命缺点:在
DOM
树形式中,网页具有关于内容组织的语义意义,而大多数自然语言处理模型只处理一维输入,因此会丢失网页的布局信息

同时,在网页的
HTML
源码形式中,页面包含标记语言,网页句子通常也比自然语言句子长,且句子会被标记截断,导致语义不连贯,这阻碍了预训练语言模型的使用

从而针对自由文本设计的知识抽取方法无法在半结构化的网页中得到很好的利用

[0005]基于结构特征的方法在
DOM
树上对节点进行特征统计和分类,或通过归纳同类网页的结构特点以生成抽取模板进行抽取

然而这种方法需要手动标注大量特征,且局限在相似结构类型的网站中

此外,这种方法还存在抽取粒度粗的问题,无法对单个节点中的不同语义进行区分

[0006]基于视觉特征的方法在抽取时会丢失语义信息

此类方法往往需要将网页转换成图像,并引入额外的
OCR
步骤,导致引入误差

并且网页通常超过模型的最大输入长度,而对网页快照进行切分可能会导致
<
关系

客体
>
对分离到多个图像中

此外,此类方法假设网页编写者会把语义相似的内容集中在同一个区域,从而根据网页中元素之间的分离程度进行分块,而非从语义联系紧密度进行分块

[0007]单独基于一种特征表示无法进行很好的抽取,因此需要结合以上三种特征表示进行抽取

此类方法一般先对
DOM
节点进行文本表示

布局表示和视觉表示,拼接这三种表示进行节点分类,依旧无法对节点语义进行细粒度的表示和进行细粒度的抽取

[0008]单独基于一种特征表示进行抽取无法对网页多维表示,从而导致抽取准确率低,抽取结果存在噪声;融合网页特征进行抽取的抽取方式仍旧是对节点对进行抽取,无法分离节点中的不同语义

开放域网页知识抽取中,关系谓词和客体片段具有明显的位置关系,现有的方法为了利用这些位置关系,直接对网页进行截图获取网页快照,以图像直观的方式获取这些元素的坐标,这种方法在建模时比较符合人的视觉直观体验,但存在一些问题:一方面渲染图像

定位文本片段并获取坐标需要花费大量时间;另一方面文本片段定位存在误差,导致位置关系特征在一开始输入模型时就不够准确,从而导致进一步的计算误差累积


技术实现思路

[0009]针对上述问题,本专利技术提出一种开放域网页知识抽取方法,包括:获取开放域网页的骨架树,对该骨架树的骨架节点进行分裂,得到该骨架节点的骨架子节点,生成骨架子节点序列;对该骨架子节点和该骨架节点标注分类标签,根据该分类标签对该骨架树进行关系抽取,获得抽取任务的关系子节点序列,并生成关系片段;基于该关系片段对该骨架树进行客体抽取,以抽取到的骨架子节点序列为客体片段;以该关系片段和其对应的客体片段为该抽取任务的抽取结果

[0010]本专利技术所述的开放域网页知识抽取方法,其中对该骨架子节点标注分类标签的步骤包括:以标注模型将该骨架子节点标注为关系片段的开始词汇,或关系片段的非开始词汇,或非关系片段词汇;对该骨架节点标注分类标签的步骤包括:以投票方式,对于每个骨架节点汇总其骨架子节点的分类结果,选择数量最多的类别标签作为该骨架节点的分类标签

[0011]本专利技术所述的开放域网页知识抽取方法,其中该标注模型以长文本预训练模型为编码层,并后接前馈神经网络为输出层

[0012]本专利技术所述的开放域网页知识抽取方法,其中进行该关系抽取的步骤还包括:对于任一层的骨架节点,寻找该层所有骨架节点的最近公共父节点,从以该最近公共父节点为根的子树中,选取与该骨架节点的关系片段路径类型相同的骨架节点作为该骨架节点的扩充节点,将该扩充节点的关系片段作为该骨架节点的关系片段

[0013]本专利技术所述的开放域网页知识抽取方法,其中进行该客体抽取的步骤包括:通过抽取模型,以该关系片段为问题,以该客体片段为答案,进行问答式客体抽取,以预测该客体片段在该骨架子节点序列中的开始位置和结束位置

[0014]本专利技术所述的开放域网页知识抽取方法,其中该抽取模型以长文本预训练模型为编码层,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于语义的开放域网页知识抽取方法,其特征在于,包括:获取开放域网页的骨架树,对该骨架树的骨架节点进行分裂,得到该骨架节点的骨架子节点,生成骨架子节点序列;对该骨架子节点和该骨架节点标注分类标签,根据该分类标签对该骨架树进行关系抽取,获得抽取任务的关系子节点序列,并生成关系片段;基于该关系片段对该骨架树进行客体抽取,以抽取到的骨架子节点序列为客体片段;以该关系片段和其对应的客体片段为该抽取任务的抽取结果
。2.
如权利要求1所述的开放域网页知识抽取方法,其特征在于,对该骨架子节点标注分类标签的步骤包括:以标注模型将该骨架子节点标注为关系片段的开始词汇,或关系片段的非开始词汇,或非关系片段词汇;对该骨架节点标注分类标签的步骤包括:以投票方式,对于每个骨架节点汇总其骨架子节点的分类结果,选择数量最多的类别标签作为该骨架节点的分类标签
。3.
如权利要求2所述的开放域网页知识抽取方法,其特征在于,该标注模型以长文本预训练模型为编码层,并后接前馈神经网络为输出层
。4.
如权利要求1所述的开放域网页知识抽取方法,其特征在于,进行该关系抽取的步骤还包括:对于任一层的骨架节点,寻找该层所有骨架节点的最近公共父节点,从以该最近公共父节点为根的子树中,选取与该骨架节点的关系片段路径类型相同的骨架节点作为该骨架节点的扩充节点,将该扩充节点的关系片段作为该骨架节点的关系片段
。5.
如权利要求1所述的开放域网页知识抽取方法,其特征在于,进行该客体抽取的步骤包括:通过抽取模型,以该关系片段为问题,以该客体片段为答案,进行问答式客体抽取,以预测该客体片段在该骨架子节点序列中的开始位置和结束位置
。6.
如权利要求5所述的开放域网页知识抽取方法,其特征在于,该抽取模型以长文本预训练模型为编码层,并后接线性层为输出层;该抽取模型进行预训练时,采用交叉熵损失函数分别计算开始位置向量的损失和结束位置向量的损失,并以该开始位置向量的损失和该结束位置向量的损失的平均值作为该抽取模型的损失;进行该客体抽取时,以该开始位置向量中得分最高的位置作为该开始位置,并以该结束位置向量中得分最高的位置作为该结束位置
。7.
如权利要求1所述的开放域网页知识抽取方法,其特征在于,获取该开放域网页...

【专利技术属性】
技术研发人员:郭岩王之威刘悦沈华伟程学旗
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1