基于远程监督和提示学习的实体属性生成方法及系统技术方案

技术编号:37116934 阅读:15 留言:0更新日期:2023-04-01 05:12
本发明专利技术公开了基于远程监督和提示学习的实体属性生成方法及系统,涉及知识图谱领域,方法包括S1构建知识图谱;S2实体e、e的a

【技术实现步骤摘要】
基于远程监督和提示学习的实体属性生成方法及系统


[0001]本专利技术涉及知识图谱领域,尤其涉及一种基于远程监督和提示学习的实体属性生成方法及系统。

技术介绍

[0002]知识构建技术是整个知识图谱技术的基石,知识构建包括从结构化的数据中导入知识和非结构化的文档中抽取知识。互联网的开放世界中存在大量的非结构化数据,研究如何从非结构化的文档中构建知识十分必要,从非结构化文档中抽取知识需要抽取出文档中的实体、属性、关系和事件等知识要素。其中属性抽取作为知识抽取的重要手段,引起许多研究者的关注,现有的方法通常将属性抽取视为关系抽取任务,关系抽取任务常基于分类的方法,首先识别出文本中的各个实体,再将文本的语义表示特征输入分类器中,对文本中两两实体的关系进行分类,将基于分类的方法用于属性抽取,主要存在以下两个问题:
[0003]1.属性抽取不同于关系抽取,需要抽取的属性值可能不是严格意义的实体类型,而是一个自由文本片段,而基于分类器的关系抽取方法只能抽取两个已知实体之间的关系。
[0004]2.基于分类的方法利用预训练模型进行关系抽取时需要精心设计分类器,工作十分繁琐。

技术实现思路

[0005]本专利技术的目的就在于为了解决上述问题设计了一种基于远程监督和提示学习的实体属性生成方法及系统。
[0006]本专利技术通过以下技术方案来实现上述目的:
[0007]基于远程监督和提示学习的实体属性生成方法,包括:
[0008]S1、构建知识图谱G={E,R,A},其中E为知识图谱中各个实体的集合,R为知识图谱中各个关系的集合,A={a}为知识图谱中各个属性组成的集合,a是一个包含属性名a
k
和属性值a
v
的二元组;
[0009]S2、利用远程监督方法,将图谱中的实体e∈E、实体e的属性名a
ke
、及其属性名a
ke
对应的属性值a
ve
组成的三元组(e,a
ke
,a
ve
)作为种子,通过实体e和属性值a
ve
到开放文档库D中去检索,召回同时包含实体e和属性值a
ve
的文本集合D
e
={d
e
};
[0010]S3、将文本集合D
e
中能够正确表达属性类型a
ke
的文本d
e
标注为正例s
e
∈S
e
,定义集合C={(e,a
ke
,a
ve
,s
e
)}为知识图谱中所有种子三元组(e,a
ke
,a
ve
)召回的正例文本s
e
组成的四元组集合;
[0011]S4、获取待生成实体属性的文本x;
[0012]S5、利用实体识别模型识别文本x中每个实体e,并抽取实体e的属性名a
ke

[0013]S6、通过f
p香omp香
(x,e,a
ke
)将文本x、实体e、属性名a
ke
转化成提示学习任务的输入形式x
p香omp香

[0014]S7、将x
p香omp香
作为预训练语言模型BERT的输入,获得文本x中实体的属性值。
[0015]基于远程监督和提示学习的实体属性生成系统,包括:
[0016]知识图谱;知识图谱中存储实体,关系,属性等三元组信息,
[0017]开放文档数据库;
[0018]提示学习模板引擎;提示学习模板引擎用于将文本输入转化为可以进行提示学习的文本格式,用于提示与训练语言模型微调下游的实体属性抽取任务;
[0019]预训练语言模块;预训练语言模块对语料进行预训练,然后将提示学习模板引擎生成的提示学习形式文本作为样本,微调下游的任务;
[0020]用于在线业务数据实体抽取的实体识别模块。
[0021]本专利技术的有益效果在于:本方法将提示学习用于实体属性抽取中,以有效解决了传统分类器存在的问题。一方面传统的分类器通常基于预训练语言模型进行模型参数的调和,随着技术的发展预训练语言模型越来越大,训练的成本也随之越来越高。而提示学习不需要对原有的预训练模型的参数进行调整,优化了下游任务的训练方式。另一方面,通过将提示学习用于属性生成,增加了属性抽取的灵活性,不仅仅能抽取特定实体类型的属性,还可以从文章中抽取自由的文本片段作为属性值。
附图说明
[0022]图1是本专利技术基于远程监督和提示学习的实体属性生成方法的系统结构图;
[0023]图2是本专利技术基于远程监督和提示学习的实体属性生成方法的流程示意图。
具体实施方式
[0024]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。
[0025]因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0027]在本专利技术的描述中,需要理解的是,术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该专利技术产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0028]此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0029]在本专利技术的描述中,还需要说明的是,除非另有明确的规定和限定,“设置”、“连
接”等术语应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本专利技术中的具体含义。
[0030]下面结合附图,对本专利技术的具体实施方式进行详细说明。
[0031]基于远程监督和提示学习的实体属性生成方法,包括:
[0032]S1、构建知识图谱G={E,R,A},其中E为知识图谱中各个实体的集合,R为知识图谱中各个关系本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于远程监督和提示学习的实体属性生成方法,其特征在于,包括:S1、构建知识图谱G={E,R,A},其中E为知识图谱中各个实体的集合,R为知识图谱中各个关系的集合,A={a}为知识图谱中各个属性组成的集合,a是一个包含属性名a
k
和属性值a
v
的二元组;S2、利用远程监督方法,将知识图谱中的实体e∈E、实体e的属性名a
ke
、及其属性名a
ke
对应的属性值a
ve
组成的三元组(e,a
ke
,a
ve
)作为种子,通过实体e和属性值a
ve
到开放文档库D中去检索,召回同时包含实体e和属性值a
ve
的文本集合D
e
={d
e
};S3、将文本集合D
e
中能够正确表达属性类型a
ke
的文本d
e
标注为正例文本s
e
∈S
e
,定义集合C={(e,a
ke
,a
ve
,s
e
)}为知识图谱中所有种子三元组(e,a
ke
,a
ve
)召回的正例文本s
e
组成的四元组集合;S4、获取待生成实体属性的文本x;S5、利用实体识别模型识别文本x中每个实体e,并抽取实体e的属性名a
ke
;S6、通过f
prompt
(x,e,a
ke
)将文本x、实体e、属性名a
ke
转化成提示学习任务的输入形式x
prompt
;S7、将x
prompt
作为预训练语言模型BERT的输入,获得文本x中实体的属性值。2.根据权利要求1所述的基于远程监督和提示学习的实体属性生成方法,其特征在于,f
prompt
(x,e,a
ke
)包括以下步骤:1)、定义模板t表示为:[x];属性抽取:【实体】...

【专利技术属性】
技术研发人员:曾山松张磊余安东胡佳
申请(专利权)人:电信科学技术第五研究所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1