【技术实现步骤摘要】
基于远程监督和提示学习的实体属性生成方法及系统
[0001]本专利技术涉及知识图谱领域,尤其涉及一种基于远程监督和提示学习的实体属性生成方法及系统。
技术介绍
[0002]知识构建技术是整个知识图谱技术的基石,知识构建包括从结构化的数据中导入知识和非结构化的文档中抽取知识。互联网的开放世界中存在大量的非结构化数据,研究如何从非结构化的文档中构建知识十分必要,从非结构化文档中抽取知识需要抽取出文档中的实体、属性、关系和事件等知识要素。其中属性抽取作为知识抽取的重要手段,引起许多研究者的关注,现有的方法通常将属性抽取视为关系抽取任务,关系抽取任务常基于分类的方法,首先识别出文本中的各个实体,再将文本的语义表示特征输入分类器中,对文本中两两实体的关系进行分类,将基于分类的方法用于属性抽取,主要存在以下两个问题:
[0003]1.属性抽取不同于关系抽取,需要抽取的属性值可能不是严格意义的实体类型,而是一个自由文本片段,而基于分类器的关系抽取方法只能抽取两个已知实体之间的关系。
[0004]2.基于分类的方法利用预训练模型进行关系抽取时需要精心设计分类器,工作十分繁琐。
技术实现思路
[0005]本专利技术的目的就在于为了解决上述问题设计了一种基于远程监督和提示学习的实体属性生成方法及系统。
[0006]本专利技术通过以下技术方案来实现上述目的:
[0007]基于远程监督和提示学习的实体属性生成方法,包括:
[0008]S1、构建知识图谱G={E,R,A},其中E为知识图 ...
【技术保护点】
【技术特征摘要】
1.基于远程监督和提示学习的实体属性生成方法,其特征在于,包括:S1、构建知识图谱G={E,R,A},其中E为知识图谱中各个实体的集合,R为知识图谱中各个关系的集合,A={a}为知识图谱中各个属性组成的集合,a是一个包含属性名a
k
和属性值a
v
的二元组;S2、利用远程监督方法,将知识图谱中的实体e∈E、实体e的属性名a
ke
、及其属性名a
ke
对应的属性值a
ve
组成的三元组(e,a
ke
,a
ve
)作为种子,通过实体e和属性值a
ve
到开放文档库D中去检索,召回同时包含实体e和属性值a
ve
的文本集合D
e
={d
e
};S3、将文本集合D
e
中能够正确表达属性类型a
ke
的文本d
e
标注为正例文本s
e
∈S
e
,定义集合C={(e,a
ke
,a
ve
,s
e
)}为知识图谱中所有种子三元组(e,a
ke
,a
ve
)召回的正例文本s
e
组成的四元组集合;S4、获取待生成实体属性的文本x;S5、利用实体识别模型识别文本x中每个实体e,并抽取实体e的属性名a
ke
;S6、通过f
prompt
(x,e,a
ke
)将文本x、实体e、属性名a
ke
转化成提示学习任务的输入形式x
prompt
;S7、将x
prompt
作为预训练语言模型BERT的输入,获得文本x中实体的属性值。2.根据权利要求1所述的基于远程监督和提示学习的实体属性生成方法,其特征在于,f
prompt
(x,e,a
ke
)包括以下步骤:1)、定义模板t表示为:[x];属性抽取:【实体】...
【专利技术属性】
技术研发人员:曾山松,张磊,余安东,胡佳,
申请(专利权)人:电信科学技术第五研究所有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。