【技术实现步骤摘要】
一种基于文本的实体关系抽取方法及装置
本专利技术涉及自然语言处理
,特别是涉及一种基于文本的实体关系抽取方法及装置。
技术介绍
知识图谱在许多自然语言处理任务中承担着越来越重要的角色,例如自动问答和对话生成。然而,现有的知识图谱还不够完善,造成从原始文本中抽取实体间的语义关系时的准确率较低,可见,文本中实体间关系抽取的重要性。现有技术提出一种实体关系抽取方法,该方法为通过辅助信息学习文本的向量表示,得到待处理文本的向量表示,并将得到的向量表示输入至预设的分类器中,得到待处理文本中实体间的关系表示。由上可见,该方法将实体看作是独立的和没有意义的独热向量,从而损失了实体间关系的潜在信息,从而造成该方法在对待处理文本进行分类时存在准确率低的问题。
技术实现思路
本专利技术实施例的目的在于提供一种基于文本的实体关系抽取方法及装置,以提高对文本进行分类的准确率。具体技术方案如下:第一方面,本专利技术实施例提供了一种基于文本的实体关系抽取方法,所述方法包括:对待处理文本进 ...
【技术保护点】
1.一种基于文本的实体关系抽取方法,其特征在于,所述方法包括:/n对待处理文本进行命名实体识别,获得待处理实体;/n从预设的语料库中确定待处理实体所属描述文本中的词作为待处理词;/n根据所述待处理实体和所述待处理词分别与所述待处理文本的所属关系,得到待处理文本的文本向量表示;/n将所述文本向量表示输入至预设的关系分类模型,得到待处理实体间的关系表示;其中,所述关系分类模型为:预先采用样本文本向量表示对预设的卷积神经网络进行训练得到的、用于预测文本的关系表示模型,所述样本文本向量表示为根据样本实体和样本词分别与第一样本文本的所属关系得到的第一样本文本的向量表示,所述样本实体为 ...
【技术特征摘要】
1.一种基于文本的实体关系抽取方法,其特征在于,所述方法包括:
对待处理文本进行命名实体识别,获得待处理实体;
从预设的语料库中确定待处理实体所属描述文本中的词作为待处理词;
根据所述待处理实体和所述待处理词分别与所述待处理文本的所属关系,得到待处理文本的文本向量表示;
将所述文本向量表示输入至预设的关系分类模型,得到待处理实体间的关系表示;其中,所述关系分类模型为:预先采用样本文本向量表示对预设的卷积神经网络进行训练得到的、用于预测文本的关系表示模型,所述样本文本向量表示为根据样本实体和样本词分别与第一样本文本的所属关系得到的第一样本文本的向量表示,所述样本实体为对所述第一样本文本进行命名实体识别获得的实体,所述样本文本为从语料库中确定的所述样本实体所属描述文本中的词。
2.如权利要求1所述的方法,其特征在于,所述根据所述待处理实体和所述待处理词分别与所述待处理文本的所属关系,得到待处理文本的文本向量表示,包括:
将所述待处理实体和所述待处理文本输入至预设的向量表示模型,得到所述待处理实体的实体向量表示和待处理文本的初始向量表示,其中,所述实体向量表示模型为预先采用第二样本文本对预设的卷积层神经网络进行训练得到的、用于预测文本的初始向量表示和文本中实体的实体向量表示的模型;
将所确定的待处理词输入至预设的词向量表示模型,得到所述待处理词的词向量表示,其中,所述词向量表示模型为预先采用样本描述文本对预设的卷积神经网络进行训练得到的、用于预测文本中实体所属描述文本中词的向量表示的模型;所述样本描述文本为从语料库中获取的包括样本实体的文本;所述样本实体为对第三样本文本进行命名实体识别获得的实体;
采用注意力机制,计算所述实体向量表示和所述词向量表示之间的注意力权重,并基于所述注意力权重对所获得的词向量表示进行加权融合,得到所述待处理实体所属描述文本的描述文本向量表示;
将所述描述文本向量表示与所述初始文本向量表示进行拼接,得到融合描述文本的待处理文本的文本向量表示。
3.如权利要求2所述的方法,其特征在于,在所述将所述文本向量表示输入至预设的关系分类模型,得到待处理实体间的关系表示之前,所述方法还包括:
基于所述待处理实体与预设的目标知识图谱的映射关系,对所述待处理实体间进行平移变换,得到平移变换后的待处理变换实体关系表示,其中,所述目标知识图谱为根据所述待处理文本构建的知识图谱;
将所述待处理变换实体关系表示输入至预设的关系向量表示模型,得到所述待处理实体间的关系向量表示,其中,所述关系向量表示模型为预先采用样本变换实体关系表示对预设的卷积层神经网络进行训练得到的、用于预测文本中实体间的向量表示的模型,所述样本变换实体关系表示为基于第四样本实体与样本知识图谱的映射关系,对第四样本文本中的第四样本实体间进行平移变换得到的关系表示,所述样本知识图谱为根据所述第四样本文本构建的知识图谱;
对所述文本向量表示和所述关系向量表示进行融合,得到融合后的文本向量表示。
4.如权利要求2所述的方法,其特征在于,在所述对待处理文本进行命名实体识别之前,所述方法还包括:
获取包括同一待处理实体的多个文本构成的待处理文本集;
确定所述待处理文本集中是否存在未被选取的文本;
若存在,从所述待处理文本集中选取一个未被选取的文本作为待处理文本,执行所述对待处理文本进行命名实体识别,获得待处理实体的步骤。
5.如权利要求1~4中任一项所述的方法,其特征在于,在所述得到待处理实体间的关系表示之后,所述方法还包括:
利用所得到的关系表示和所述待处理实体,得到用于构建知识图谱...
【专利技术属性】
技术研发人员:胡琳梅,石川,张路浩,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。