【技术实现步骤摘要】
一种基于语义的开放域网页知识抽取方法及系统
[0001]本专利技术属于网络信息
,特别涉及一种开放域网页知识抽取方法及系统
。
技术介绍
[0002]知识抽取
(Knowledge Extraction
,
KE)
主要是从自然语言文本中抽取事实,事实以
<
主体
、
关系
、
客体
>
三元组形式表示
。
知识抽取是知识图谱构建不可或缺的一环,且广泛地应用于问答系统
、
自动摘要中
。
以知识图谱构建为例,目前大多数实体
、
关系抽取方法都是为自由文本设计的,不能很好地处理半结构化的网页内容
。
而半结构化的网页中往往存在着大量自由文本中没有的知识,尤其是一些长尾实体的知识,抽取这些知识可以丰富和补充长尾实体知识图谱
。
网页知识抽取
(Web Knowledge Extraction
,
WKE)
主要针对详情页进行
<
主体
、
关系
、
客体
>
事实三元组抽取
。
根据关系类型是否在相应知识图谱中出现,网页知识抽取分为限定域网页知识抽取
(ClosedIE)
和开放域网页知识抽取
(OpenIE)。
开放域网 ...
【技术保护点】
【技术特征摘要】
1.
一种基于语义的开放域网页知识抽取方法,其特征在于,包括:获取开放域网页的骨架树,对该骨架树的骨架节点进行分裂,得到该骨架节点的骨架子节点,生成骨架子节点序列;对该骨架子节点和该骨架节点标注分类标签,根据该分类标签对该骨架树进行关系抽取,获得抽取任务的关系子节点序列,并生成关系片段;基于该关系片段对该骨架树进行客体抽取,以抽取到的骨架子节点序列为客体片段;以该关系片段和其对应的客体片段为该抽取任务的抽取结果
。2.
如权利要求1所述的开放域网页知识抽取方法,其特征在于,对该骨架子节点标注分类标签的步骤包括:以标注模型将该骨架子节点标注为关系片段的开始词汇,或关系片段的非开始词汇,或非关系片段词汇;对该骨架节点标注分类标签的步骤包括:以投票方式,对于每个骨架节点汇总其骨架子节点的分类结果,选择数量最多的类别标签作为该骨架节点的分类标签
。3.
如权利要求2所述的开放域网页知识抽取方法,其特征在于,该标注模型以长文本预训练模型为编码层,并后接前馈神经网络为输出层
。4.
如权利要求1所述的开放域网页知识抽取方法,其特征在于,进行该关系抽取的步骤还包括:对于任一层的骨架节点,寻找该层所有骨架节点的最近公共父节点,从以该最近公共父节点为根的子树中,选取与该骨架节点的关系片段路径类型相同的骨架节点作为该骨架节点的扩充节点,将该扩充节点的关系片段作为该骨架节点的关系片段
。5.
如权利要求1所述的开放域网页知识抽取方法,其特征在于,进行该客体抽取的步骤包括:通过抽取模型,以该关系片段为问题,以该客体片段为答案,进行问答式客体抽取,以预测该客体片段在该骨架子节点序列中的开始位置和结束位置
。6.
如权利要求5所述的开放域网页知识抽取方法,其特征在于,该抽取模型以长文本预训练模型为编码层,并后接线性层为输出层;该抽取模型进行预训练时,采用交叉熵损失函数分别计算开始位置向量的损失和结束位置向量的损失,并以该开始位置向量的损失和该结束位置向量的损失的平均值作为该抽取模型的损失;进行该客体抽取时,以该开始位置向量中得分最高的位置作为该开始位置,并以该结束位置向量中得分最高的位置作为该结束位置
。7.
如权利要求1所述的开放域网页知识抽取方法,其特征在于,获取该开放域网页...
【专利技术属性】
技术研发人员:郭岩,王之威,刘悦,沈华伟,程学旗,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。