一种远程监督的Dual-Attention关系分类方法及系统技术方案

技术编号:19480040 阅读:49 留言:0更新日期:2018-11-17 10:32
本发明专利技术涉及一种远程监督的Dual‑Attention关系分类方法及系统,包括:通过远程监督将知识库中的实体对对齐到新闻语料,构建实体对句子集合;基于词级别注意力机制的Bi‑LSTM模型将所述句子进行词级别的向量编码,得到所述句子的语义特征编码向量;基于句子级别注意力机制的Bi‑LSTM模型将所述句子的语义特征进行编码与去噪,得到句子集特征编码向量;将所述句子集特征编码向量与实体对翻译向量进行打包,对得到的包特征进行实体对的关系分类。本发明专利技术提供的技术方案降低了模型训练的噪声数据,避免人工标注数据及其造成的错误传递。运用开放域文本与大规模知识库进行实体对齐,有效解决了关系抽取的标注数据规模问题。

【技术实现步骤摘要】
一种远程监督的Dual-Attention关系分类方法及系统
本专利技术属于关系分类领域,尤其涉及一种远程监督的Dual-Attention关系分类方法及系统。
技术介绍
随着互联网技术的发展,万维网上大量的文本信息飞速增长,从文本信息中自动抽取知识的技术越来越受到关注,并成为当下的热点。目前主流的关系抽取方法是基于神经网络学习的关系分类方法,主要面临三大问题:语义特征的表示与挖掘的困难、人工标注造成的错误传递、模型训练的噪声影响。目前,基于神经网络学习的关系分类方法中,取得最优效果的关系分类方法出现在有监督学习和远程监督两种方法中。以这两种学习方法为途径,针对三大问题出现了相应的改进模型,其中主要包括:有监督学习关系抽取双向长短记忆网络(Bi-LSTM)方法;卷积神经网络(CNN)的远程监督关系分类方法;基于卷积网络(CNN)的句子集级别注意力机制的关系分类方法。面对关系分类的三大问题,上述主流的神经网络关系分类方法,在某一特定问题上都做出了比较好的改进效果。但都存在一定的问题,比较依赖于特定领域知识,模型的鲁棒性和应用场景比较局限。首先,单独通过Bi-LSTM进行关系分类方法,虽本文档来自技高网...

【技术保护点】
1.一种远程监督的Dual‑Attention关系分类方法,其特征在于,包括:通过远程监督将知识库中的实体对对齐到新闻语料,构建实体对句子集合;基于词级别注意力机制的Bi‑LSTM模型将所述句子进行词级别的向量编码,得到所述句子的语义特征编码向量;基于句子级别注意力机制的Bi‑LSTM模型将所述句子的语义特征进行编码与去噪,得到句子集特征编码向量;将所述句子集特征编码向量与实体对翻译向量进行打包,对得到的包特征进行实体对的关系分类。

【技术特征摘要】
1.一种远程监督的Dual-Attention关系分类方法,其特征在于,包括:通过远程监督将知识库中的实体对对齐到新闻语料,构建实体对句子集合;基于词级别注意力机制的Bi-LSTM模型将所述句子进行词级别的向量编码,得到所述句子的语义特征编码向量;基于句子级别注意力机制的Bi-LSTM模型将所述句子的语义特征进行编码与去噪,得到句子集特征编码向量;将所述句子集特征编码向量与实体对翻译向量进行打包,对得到的包特征进行实体对的关系分类。2.根据权利要求1所述的一种远程监督的Dual-Attention关系分类方法,其特征在于,基于词级别注意力机制的Bi-LSTM模型将所述句子进行词级别的向量编码,得到所述句子的语义特征编码向量,包括:对所述句子采用文本深度表示模型进行处理,得到句子中每个词的词向量;将所述词向量输入到Bi-LSTM模型中,得到所述词向量的编码向量;将词级别注意力机制加入到所述词向量的编码向量中,得到每个句子的语义特征编码向量。3.根据权利要求2所述的一种远程监督的Dual-Attention关系分类方法,其特征在于,将所述词向量输入到Bi-LSTM模型中,得到所述词向量的编码向量,包括:将所述词向量输入到Bi-LSTM模型中;所述模型的正向LSTM获取所述词向量的上文特征信息,所述模型的反向LSTM获取所述词向量的下文特征信息;最后得到所述词向量的上下文编码向量。4.根据权利要求2所述的一种远程监督的Dual-Attention关系分类方法,其特征在于,将词级别注意力机制加入到所述词向量的编码向量中,得到每个句子的语义特征编码向量,包括:所述将词级别注意力机制加入到所述编码向量中;通过计算注意力概率分布,将LSTM中的每个时间节点通过权重向量联结起来;得到每个句子的语义特征编码向量。5.根据权利要求1所述的一种远程监督的Dual-Attention关系分类方法,其特征在于,基于句子级别注意力机制的Bi-LSTM模型将所述句子的语义特征进行编码与去噪,得到句子集特征编码向量,包括:将所述句子的语义特征编码向量输入到Bi-LS...

【专利技术属性】
技术研发人员:贺敏毛乾任王丽宏李晨
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1