一种文本特征抽取方法及知识图谱构建方法技术

技术编号:30829169 阅读:31 留言:0更新日期:2021-11-18 12:37
本发明专利技术公开一种文本特征抽取方法及知识图谱构建方法,其文本特征抽取方法以标注好的实体和关系为正样本作为基础构建负样本:实体负样本,关系负样本和指代消歧负样本;对正样本和负样本进行映射表征,得到实体表征,实体对表征和指代消歧实体对表征构成的向量集;对向量集进行分析,获取实体特征、指代消歧特征以及关系特征;对实体特征、指代消歧特征以及关系特征进行分类;设置损失函数,对分类结果进行评价,本发明专利技术以实体为中心,并辅以指代消歧,解决了因为指代词非实体造成的实体丢失情况,提升了模型整体的准确性,并融合关系特征,进一步提升关系识别的准确率。进一步提升关系识别的准确率。进一步提升关系识别的准确率。

【技术实现步骤摘要】
一种文本特征抽取方法及知识图谱构建方法


[0001]本专利技术涉及自然语言处理领域,尤其涉及一种文本特征抽取方法及知识图谱构建方法。

技术介绍

[0002]知识图谱是一种语义网络,以图数据结构的形式来将信息以及关系表示出来,从而用来进一步挖掘信息中隐藏的信息和信息之间的关系。
[0003]知识图谱中的图,由节点和边组成,其中的节点用以表示概念和实体,边表示事物的关系和属性。如何对输入或者现有的信息进行知识抽取(包括实体抽取、关系抽取以及属性抽取),从而获得知识表示,是下一步构建知识图谱的基础和前提。
[0004]现有技术中,知识抽取主要有两种方法,第一种是两步走算法,也就是需要用两个模型,第一个模型是命名实体识别模型,用它来抽取句子中的实体。然后再用一个模型对抽取的实体进行关系分类。
[0005]第二种是一步走算法,也就是用一个联合模型,采用多任务学习框架,把实体识别和关系分类两个任务融合在一个框架。
[0006]一步走算法的模型利用特征之间共享,在准确率和整体速度方面,更具有优势。但是,现有一步走算法的关系抽取本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本特征抽取方法,其特征是,包括如下步骤:以标注好的实体和关系为正样本作为基础构建负样本:实体负样本,关系负样本和指代消歧负样本;对正样本和负样本进行映射表征,得到实体表征,实体对表征和指代消歧实体对表征构成的向量集;对向量集进行分析,获取实体特征、指代消歧特征以及关系特征;对实体特征、指代消歧特征以及关系特征进行分类;设置损失函数,对分类结果进行评价。2.如权利要求1所述的文本特征抽取方法,其特征是,所述构建实体负样本为基于人工标注的实体,构建得到的子实体,所述的子实体被原实体包含,子实体字数少于原实体。3.如权利要求1所述的文本特征抽取方法,其特征是,所述构建实体负样本为基于人工标注的实体,构建得到的扩展实体,所述的扩展实体包含原实体,但字数大于原实体。4.如权利要求1所述的文本特征抽取方法,其特征是,所述构建关系负样本为随机使用未在人工标注有关系的实体对来构建。5.如权利要求1所述的文本特征抽取方法,其特征是,所述构建关系负样本为在人工标注的实体对中,随机改变关系的类型,使得实体关系的整体和原来不一样。6.如权利要求1所述的文本特征抽取方法,其特征是,所述构建指代消歧负样本为在同一个段落中,选取在不同句子中,没有关系的实体对作为负样本。7.如权利要求1所述的文本特征抽取方法,其特征是,对正样本和负样本进行映射表征,得到实体表征,实体对表征和指代消歧实体对表征构成的向量集,具体为:实体表征通过采用bert标注和随机初始化表征相融合获得;实体对表征通过把实体对中包含的字,去RE中索引出来对应的字特征,再把字特征放入一个多层的神经网络,把特征映射到统一空间,随机初始化语义向量获得;指代消歧实体对表征采...

【专利技术属性】
技术研发人员:曾祥云朱姬渊
申请(专利权)人:上海大参林医疗健康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1