当前位置: 首页 > 专利查询>北京大学专利>正文

一种同时面向封闭域与开放域的联合属性抽取方法和装置制造方法及图纸

技术编号:39331744 阅读:16 留言:0更新日期:2023-11-12 16:07
本发明专利技术涉及一种同时面向封闭域与开放域的联合属性抽取方法和装置。该方法包括:对待抽取属性的文本进行分词,得到由一系列词构成的序列集合;利用神经网络模型对分词得到的序列集合进行编码,得到文本向量;构建属性树,利用神经网络模型对编码后的文本向量进行解码,得到属性值与属性名,并将属性值与属性名复制到属性树对应的层级,得到属性树;将属性树的各个分支展开为头实体、属性值、属性名三元组,完成属性抽取。本发明专利技术可以实现对封闭域和开放域文本属性名、属性值的统一抽取,抽取形式统一,抽取效果好,使用时占用资源少,编码解码速度快。度快。度快。

【技术实现步骤摘要】
一种同时面向封闭域与开放域的联合属性抽取方法和装置


[0001]本专利技术提供一种同时从非结构化文本抽取封闭域与开放域属性的方法和装置,具体涉及一种数据结构和神经网络设计,属于数据挖掘


技术介绍

[0002]属性一般由属性名和属性值构成,用于表达对应实体的特征与性状,是知识图谱中重要的一部分,在电商系统、搜索引擎、推荐系统等应用中发挥着重要作用。属性抽取致力于从半结构或非结构化文本中识别属性名和属性值,是知识图谱构建中的一个重要任务。
[0003]传统的属性抽取方法可根据抽取的属性名是否给定可选集合分为两种范式:(1)封闭世界假设下的属性抽取,即封闭域属性抽取,该范式下可以将属性名限定在预先定义好的本体中,可以通过将属性名抽取建模为分类任务处理,再针对不同属性名类型使用相应的规则模板或训练神经网络模型提取属性值;(2)开放世界假设下的属性抽取,即开放域属性抽取,该范式下属性名和属性值的取值都不预先给定限定本体,需要利用一些开放抽取技术从文本中获得,如序列标注方法和问答模型被广泛应用。
[0004]但是,单独的封闭世界和开放世界假设都不足以应对真实世界中复杂的属性抽取场景。一方面,现实世界中新类型的产品和属性在源源不断地出现,局限于预定义本体的封闭域属性抽取大大限制了模型的泛化能力和适应性;另一方面,与关系抽取不同的是,属性名并不总是显式出现在文本中,如“小明18岁”一句反映了小明的年龄属性,但文本中并没有“年龄”这样的显式提及,无法通过开放抽取的方法得到这一标注。如何针对真实世界的非结构化文本同时抽取封闭域与开放域的属性名与属性值,是尚待解决的难题。

技术实现思路

[0005]本专利技术的目的是提供一种同时面向封闭域与开放域的联合属性抽取方法和装置,采用基于深度学习技术的从文本生成属性树的生成式模型,用以解决真实世界场景下无法兼顾封闭域与开放域属性抽取的问题。
[0006]本专利技术设计了一种名为属性树的数据结构,用于同时表达封闭世界假设和开放世界假设下的属性抽取结果,并基于深度学习技术,设计结构化生成模型,从文本中复制符合语义的字符作为属性树的节点,从而得到封闭域与开放域下联合属性抽取的结果。
[0007]本专利技术的一种同时面向封闭域与开放域的联合属性抽取方法,包括如下步骤:
[0008]对待抽取属性的文本进行分词,得到由一系列词构成的序列集合;
[0009]利用神经网络模型对分词得到的序列集合进行编码,得到文本向量;
[0010]构建属性树,利用神经网络模型对编码后的文本向量进行解码,得到属性值与属性名,并将属性值与属性名复制到属性树对应的层级,得到属性树;
[0011]将属性树的各个分支展开为头实体、属性值、属性名三元组,完成属性抽取。
[0012]进一步地,在所述分词之前,对待抽取属性的文本进行预处理,所述预处理包括去
除特殊符号、垃圾信息、不正确编码等。
[0013]进一步地,所述利用神经网络模型对分词得到的的序列集合进行编码,其中神经网络模型为LSTM

CNN(长短时记忆神经网络与卷积神经网络构成的联合深度学习模型)等。
[0014]进一步地,所述利用神经网络模型对编码后的文本向量进行解码,其中神经网络模型为LSTM模型等。
[0015]进一步地,所述利用神经网络模型对编码得到的文本向量进行解码,包括:
[0016]构建一颗空的属性树,开始对上述编码后的文本向量进行解码:
[0017]对文本中可能存在的属性值使用神经网络模型进行解码,无论该属性值是属于开放域还是属于封闭域都统一进行解码,并将解码后的子串(即属性值)复制到属性树的第一层;
[0018]对属性树的第一层属性值进行循环遍历,同时与原文本的编码合并,使用神经网络模型进行联合解码,解码出对应属性值的属性名,将解码后的子串(即属性名)复制到属性树第二层。
[0019]进一步地,所述将属性树的各个分支展开为头实体、属性值、属性名三元组,包括:将属性树进行拆分,将全部路径取出,展开为<头实体,属性值,属性名>的三元组结构化信息。
[0020]本专利技术还提供一种同时面向封闭域与开放域的联合属性抽取装置,其包括:
[0021]预处理模块,用于对待抽取属性的文本进行预处理;
[0022]分词模块,用于对预处理后的文本进行分词,得到由一系列词构成的序列集合;
[0023]编码模块,用于利用神经网络模型对分词得到的序列集合进行编码,得到文本向量;
[0024]解码模块,用于构建属性树,利用神经网络模型对编码后的文本向量进行解码,得到属性值与属性名,并将属性值与属性名复制到属性树对应的层级,得到属性树;
[0025]拆分模块,用于将属性树的各个分支展开为头实体、属性值、属性名三元组,完成属性抽取。
[0026]通过本专利技术所提供的基于编码、解码方式构建属性树的方法,可以实现对封闭域、开放域文本属性名、属性值的统一抽取,其优点和积极效果在于:
[0027]1.抽取形式统一,在一次抽取过程中可以同时完成对封闭域属性名和开放域属性名的抽取,而传统方法必须分别处理;
[0028]2.抽取效果好,本方法首先对模式较为明显的属性值实施抽取,再借助抽取出的属性值来联合解码属性名,可以有效降低传统方法中联合抽取产生的级联误差;
[0029]3.模型设计简单,本方法使用的LSTM

CNN编码器与LSTM模型解码器均为轻量级模型,使用时占用资源少,编码解码速度快。
附图说明
[0030]图1是本专利技术方法的总体属性抽取流程图。
[0031]图2是属性树构建流程图。
[0032]图3是属性树原型示意图。
[0033]图4是属性树抽取示例示意图。
具体实施方式
[0034]下面通过具体实施例和附图,对本专利技术做进一步详细说明。
[0035]本专利技术提供的可以同时从非结构化文本抽取封闭域与开放域属性的方法,是基于深度学习技术的从文本生成属性树的生成式模型。该方法的总体流程如图1所示,包含五个步骤:
[0036]第一步是对待抽取文本进行预处理,去除特殊符号、垃圾信息、不正确编码等;
[0037]第二步是对预处理后的文本进行分词,得到词构成的序列集合;
[0038]第三步是使用LSTM

CNN(长短时记忆神经网络与卷积神经网络构成的联合深度学习模型)进行编码,将上述序列集合中的词转换为向量;
[0039]第四步是使用LSTM(长短时记忆神经网络)对得到的向量进行迭代解码,包括两次解码:使用LSTM模型解码属性值,以及使用LSTM模型解码属性名;在两次分别解码中得到所需要的属性值与属性名,并将解码得到的上述子串(属性值与属性名)复制到属性树对应的层级去,得到属性树;
[0040]第五步是对使用上述步骤构建得到的属性树进行拆分,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种同时面向封闭域与开放域的联合属性抽取方法,其特征在于,包括以下步骤:对待抽取属性的文本进行分词,得到由一系列词构成的序列集合;利用神经网络模型对分词得到的序列集合进行编码,得到文本向量;构建属性树,利用神经网络模型对编码后的文本向量进行解码,得到属性值与属性名,并将属性值与属性名复制到属性树对应的层级,得到属性树;将属性树的各个分支展开为头实体、属性值、属性名三元组,完成属性抽取。2.根据权利要求1所述的方法,其特征在于,在所述分词之前,对待抽取属性的文本进行预处理,所述预处理包括去除特殊符号、垃圾信息、不正确编码。3.根据权利要求1所述的方法,其特征在于,所述利用神经网络模型对分词得到的的序列集合进行编码,其中神经网络模型为LSTM

CNN模型。4.根据权利要求1所述的方法,其特征在于,所述利用神经网络模型对编码后的文本向量进行解码,其中神经网络模型为LSTM模型。5.根据权利要求1所述的方法,其特征在于,所述利用神经网络模型对编码得到的文本向量进行解码,包括:构建一颗空的属性树,开始对上述编码后的文本向量进行解码:对文本中可能存在的属性值使用神经网络模型进行解码,无论该属性值是属于开放域还是属于封闭域都统一进行解码,并将解码后的属性值复制到属性树的第一层;对属性树的第一层属性值进行循环遍历,同时与原文本的编码合并,使用神经网络模型进行联合解码,解码出对应属性值的属性名,将解码后的即属性名复制到属...

【专利技术属性】
技术研发人员:邹磊李彦增
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1