一种基于深度学习的可评判文本内容与实体相关性的实体抽取方法技术

技术编号：24010683 阅读：34 留言：0更新日期：2020-05-02 01:38

本发明专利技术涉及实体抽取技术领域，具体地说，涉及一种基于深度学习的可评判文本内容与实体相关性的实体抽取方法。其步骤为：指出文本由n个单词组成，含有m个实体；使用LSTM表示文本字面语义；拼接文本字面语义表示和平均化除待确定相关性实体外的其他实体表示，最终生成文本语义context；使待确定相关性实体对文本语义context进行注意力机制运算，得到注意力向量；根据注意力向量计算文本语义的进一步表示。该发明专利技术的设计使用端到端的深度学习模型避免大量繁杂规则的编写，提高了模型通用性。避免了机器学习大量特征工程的处理，提高了模型的迭代速度，且易于转换。

An entity extraction method based on deep learning to evaluate the relevance between text content and entity

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的可评判文本内容与实体相关性的实体抽取方法
本专利技术涉及实体抽取
，具体地说，涉及一种基于深度学习的可评判文本内容与实体相关性的实体抽取方法。
技术介绍
实体又称作“专名”，是指文本中具有特定意义的实体，主要包括人物、地点、机构等。命名实体识别旨在识别出文中出现的实体及实体的类型，目前该技术已经发展成熟。但是命名实体识别并没有指出文中出现的实体和文章的相关性程度是怎样的。实体相关性是指实体与文章的相关性强弱的表示，一般一篇文章会出现很多个实体，但是并非所有实体都跟文章强相关。在实际使用过程中，我们往往只需要关心和文章强相关的实体，所以找判断实体与文章的相关性强弱变得非常重要。现阶段关于实体与文章相关性的研究很少，仅有的研究也都是基于规则和机器学习的。本专利技术提出一种深度学习网络结构可以端到端的解决实体和文章的相关性强弱问题，避免规则带来的通用性差的问题，且可以自动进行特征筛选，从而减少机器学习大量特征工程的处理工作，提高模型迭代速度。
技术实现思路
本专利技术的目的在于提...

【技术保护点】
1.一种基于深度学习的可评判文本内容与实体相关性的实体抽取方法，其方法包括如下步骤：/n步骤一：指出文本由n个单词

【技术特征摘要】
1.一种基于深度学习的可评判文本内容与实体相关性的实体抽取方法，其方法包括如下步骤：
步骤一：指出文本由n个单词组成，含有m个实体[E1，E2，E3，...，Em]；
步骤二：使用LSTM表示步骤一中的文本字面语义；
步骤三：拼接文本字面语义表示和平均化除待确定相关性实体外的其他实体表示，最终生成文本语义context；
步骤四：使待确定相关性实体对文本语义context进行注意力机制运算，得到注意力向量；
步骤五：根据步骤四中的注意力向量计算文本语义的进一步表示，注意力向量分别与context的元素相乘，然后相加，得到针对实体注意力的文本语义表示：

步骤六：将步骤五中的基于实体注意力的文本语义表示Cr和待确定相关性实体表示Em拼接成向量d，并送入分类器，最终得到实体与文本相关性强弱的概率。

2.根据权利要求1所述的基于深度学习的可评判文本内容与实体相关性的实体抽取方法，其特征在于：所述步骤一中，w为对应词的word2vec向量，E表示对应实体的TransH表示。

3.根据权利要求1所述的基于深度学习的可评判文本内容与实体相关性的实体抽取方法，其特征在于：所述步骤二中，LSTM算法定义为：给定词向量wk，先前的cell状态为ck-1，先前的隐藏层状态hk-1，当前cell状...

【专利技术属性】
技术研发人员：李举，刘方然，李金波，徐常亮，
申请(专利权)人：新华智云科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人