一种基于远程监督的关系抽取方法及装置制造方法及图纸

技术编号:31716033 阅读:29 留言:0更新日期:2022-01-01 11:21
本申请提供一种基于远程监督的关系抽取方法及装置,在获取到语料库数据后;根据预设海量特征模型对所述语料库数据进行信息抽取,确定所述语料库数据中每个命名实体对共现句子的特征,生成海量特征向量;根据所述海量特征向量检测和识别所述语料库数据中实体之间的语义关系,并将表示同一语义关系的提及链接起来,以实现关系抽取。本申请中的海量特征训练模型通过外部知识库代替人对语料进行标注,从而可以低成本地获取大量有标注数据,进而通过分类方法进行关系抽取。过分类方法进行关系抽取。过分类方法进行关系抽取。

【技术实现步骤摘要】
一种基于远程监督的关系抽取方法及装置


[0001]本申请涉及自然语言处理
,特别的,尤其涉及一种基于远程监督的关系抽取方法及装置。

技术介绍

[0002]目前,自然语言处理技术的两大关键点就是大规模语料数据的建设,以及语义分析的进一步完善。主流的自然语言处理技术是以统计机器学习为基础的,这就需要大规模的语料库。然而在很多任务中,这些语料库是需要人工构建的,这是非常费力的工作;另外,任何语料库无论大小类型,都难以囊括某个领域的全部案例;而且,语料库的标注体系往往难以把握,类别划分过粗,则无法全面、细致地描述语言,类别划分过细,则标注信息过于庞大、降低标注效率,统计数据的稀疏问题严重,训练出来的模型健壮性差;更进一步的,由于人工标注的语料库毕竟是费时费力的工作,基于统计学的方法则过多地依赖于大规模语料库的支持,性能依赖语料库的优劣,易受数据稀疏和数据噪声的干扰。因此,对于本领域技术人员来说,需要从模型和算法方面去研究如何利用大量的无人工标注或部分标注的数据,来实现关系抽取。

技术实现思路

[0003]鉴于上述内容中的问题,本申本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于远程监督的关系抽取方法,其特征在于,包括:获取语料库数据;根据预设海量特征模型对所述语料库数据进行信息抽取,确定所述语料库数据中每个命名实体对共现句子的特征,生成海量特征向量;根据所述海量特征向量检测和识别所述语料库数据中实体之间的语义关系,并将表示同一语义关系的提及链接起来,以实现关系抽取。2.根据权利要求1所述的方法,其特征在于,所述预设海量特征模型的构建方法,包括:获取样本数据,所述样本数据为多个语料库的相关数据;从所述样本数据中获取每个命名实体对共现句子的特征,并生成海量特征向量;以所述海量特征向量为输入,使用海量特征训练算法进行模型训练,得到所述预设海量特征模型。3.根据权利要求2所述的方法,其特征在于,所述预设海量特征模型为卷积神经网络模型,则所述预设海量特征模型的构建方法,包括:使用所述卷积神经网络对实体的描述信息进行特征提取,将得到的特征向量作为实体的特征表示;通过多实例学习的方法选取每个包中置信度大于预设值的样例作为正样例进行训练,得到所述预设海量特征模型,所述卷积神经网络模型的训练目标是使得实体的词向量表示和从描述信息得到的实体特征表示保持一致。4.根据权利要求2所述的方法,其特征在于,所述预设海量特征模型为卷积神经网络模型,则所述预设海量特征模型的构建方法,包括:通过word2vec的Skip

gram模型将词表示成向量形式,并与位置向量进行拼接,得到拼接向量,所述位置向量为各词与两个实体的相对位置;以所述拼接向量为输入,通过卷积层使用海量特征训练算法进行模型训练,得到所述预设海量特征模型。5.一种基于远程监督的关系抽取装置,其特征在于,包括:第一处理单元,用于获取语料库数据;第二处理单元,用于根据预设海量特征模型对所述语料库数据进行信息抽取,确定所述语料库数据中每个命名实体对共现句子的特...

【专利技术属性】
技术研发人员:周晶郭兴科孙喜民王帅王明达贾江凯
申请(专利权)人:国网电商科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1