基于深度学习的不规则实体识别方法技术

技术编号:17939551 阅读:54 留言:0更新日期:2018-05-15 19:59
本发明专利技术提供一种基于深度学习的不规则实体识别方法,包括如下步骤:步骤一、使用双向长短时记忆循环神经网络和条件随机场模型,为句子中的每个词打标签,分别是B、I、O、HB、HI、DB、DI;步骤二、使用B、I、O三种标签进行规则实体的识别;步骤三、使用HB、HI、DB、DI标签进行不规则实体组件的识别;步骤四、对于任意一对不规则实体组件,使用双向长短时记忆循环神经网络和softmax判断它们是否应该被组合;步骤五、根据步骤三四的结果构建关系图,图的每个顶点对应一个组件,图的每条边表示两个组件的组合关系;步骤六、在图中找到所有完全子图。本发明专利技术具有使用关系图自动识别不规则实体、减少人工设计的规则干预、提升模型表示能力的有益效果。

An irregular entity recognition method based on depth learning

The present invention provides an irregular entity recognition method based on depth learning, including steps 1: Step 1, using two way length and short memory recurrent neural network and conditional random field model to label each word in the sentence, B, I, O, HB, HI, DB, DI; step two, using B, I, O three labels. Identification of regular entities; step three, use HB, HI, DB, DI tags to identify irregular entity components; step four, for any pair of irregular entity components, use two-way memory recurrent neural network and softmax to determine whether they should be combined; step five, build the result according to the results of step three or four. A graph, each vertex of a graph corresponds to a component. Each edge of the graph represents the combination relation of the two components; step six, find all the complete subgraphs in the graph. The invention has the advantages of automatically identifying irregular entities by using relation diagrams, reducing the manual design of rules intervention and improving the ability of model representation.

【技术实现步骤摘要】
基于深度学习的不规则实体识别方法
本专利技术涉及自然语言处理领域,具体涉及一种基于深度学习的不规则实体识别方法。
技术介绍
命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向语义网的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。目前互联网中的主要文本挖掘技术常用的方法主要是基于特征或基于核函数的模型。基于特征的模型往往需要设计大量的词法,句法和语义的特征,然后放到像支持向量机(SVM)这样的分类器当中进行分类,其中基于特征的方法最大的问题是要花费大量的时间和精力去构造特征。而另一种基于核函数的方式,虽然不用去建造庞大的特征工程,但如何设计和选择合适的核函数非常困难。最近,深度学习已被广泛的应用到实体识别当中,这些方法使用很少的特征工程且能获得良好的性能提升。比如目前最先进的实体识别模型采用双向长短时记忆循环神经网络和条件随机场,不需要特征工程,只使用词向量作为特征,便可以达到很好的效果。但是本文档来自技高网...
基于深度学习的不规则实体识别方法

【技术保护点】
一种基于深度学习的不规则实体识别方法,其特征在于,包括如下步骤:步骤一、使用双向长短时记忆循环神经网络和条件随机场模型,为输入句子中的每一个词打上标签,标签一共有7种,分别是B、I、O、HB、HI、DB、DI;步骤二、使用B、I、O三种标签进行规则实体的识别;步骤三、使用HB、HI、DB、DI标签进行不规则实体组件的识别;步骤四、对于任意一对所述不规则实体组件,使用双向长短时记忆循环神经网络和softmax判断它们是否应该被组合;步骤五、根据步骤三和步骤四的结果构建关系图,其中所述关系图的每个顶点对应一个不规则实体组件,所述关系图的每条边表示两个不规则实体组件之间的组合关系;步骤六、在所述关系...

【技术特征摘要】
1.一种基于深度学习的不规则实体识别方法,其特征在于,包括如下步骤:步骤一、使用双向长短时记忆循环神经网络和条件随机场模型,为输入句子中的每一个词打上标签,标签一共有7种,分别是B、I、O、HB、HI、DB、DI;步骤二、使用B、I、O三种标签进行规则实体的识别;步骤三、使用HB、HI、DB、DI标签进行不规则实体组件的识别;步骤四、对于任意一对所述不规则实体组件,使用双向长短时记忆循环神经网络和softmax判断它们是否应该被组合;步骤五、根据步骤三和步骤四的结果构建关系图,其中所述关系图的每个顶点对应一个不规则实体组件,所述关系图的每条边表示两个不规则实体组件之间的组合关系;步骤六、在所述关系图中找到所有完全子图,每个完全子图的所有组件构成一个完整的不规则实体。2.根据权利要求1所述的基于深度学习的不规则实体识别方法,其特征在于,所述步骤一中给定的输入句子x=x1,x2,......,xn,双向长短时记忆循环神经网络模型首先为句子中的每一个词xi在查找表E中找到一个词向量ei。3.根据权利要求1所述的基于深度学习的不规则实体识别方法,其特征在于,所述双向长短时记忆循环神经网络模型中包含两个LSTM单元,对句子从...

【专利技术属性】
技术研发人员:王家彬李霏
申请(专利权)人:北京牡丹电子集团有限责任公司数字电视技术中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1