当前位置: 首页 > 专利查询>复旦大学专利>正文

基于深度学习的自然语言处理中的序列标注方法技术

技术编号:14902003 阅读:85 留言:0更新日期:2017-03-29 17:24
本发明专利技术属于计算机自然语言处理技术领域,具体为基于深度学习的自然语言处理中的序列标注方法。本发明专利技术可以用于包括中文分词、英文浅层句法分析、中英文词性标注和命名识别等各种自然语言的序列标注任务。采用深度学习技术,对于所输入的句子,通过计算机程序输出句子中各组成单元的标签类型。该序列标注方法的关键包括:基于深度学习的快速序列标注网络结构和学习算法、综合前向标签信息的网络结构和加速算法,以及这些关键技术的整合和集成方式。基于深度学习实现的系统具备参数规模小,使用速度快的优点,非常适合于计算资源有限的环境,可以部署在手机等计算资源相对有限的移动计算平台上,能够较大地提高系统响应速度和用户满意度。

Sequence annotation method based on deep learning in Natural Language Processing

The invention belongs to the technical field of computer Natural Language Processing, in particular to a sequence annotation method based on deep learning Natural Language Processing. The present invention can be used for sequence labeling tasks of various natural languages, such as Chinese word segmentation, shallow parsing in English, Chinese and English POS tagging and naming recognition. The depth of learning technology, the input of the sentence, through the computer program to output the syntax of each unit of the label type. The key of the sequence annotation methods include: rapid sequence annotation deep learning network structure and learning algorithm, to label information network structure and algorithm based on, and the integration of these key technologies and integrated mode. The system realized with deep learning parameters based on small scale, fast to use, very suitable for the limited computing resources can be deployed in mobile environment, mobile phone and other computing resources relatively limited computing platform, can greatly improve the system response speed and user satisfaction.

【技术实现步骤摘要】

本专利技术属于计算机自然语言处理
,具体涉及一种自然语言处理中序列标注方法。
技术介绍
深度学习是近期人工智能研究取得突破性的进展,它结束了人工智能长达十年未能有突破性进展的局面,并迅速在工业界产生影响。深度学习有别于仅可以完成特定任务的狭隘的人工智能系统(面向特定任务的功能模拟),作为通用的人工智能技术,可以应对各种情况和问题,已在图像识别、语音识别等领域得到极其成功的应用,在自然语言处理领域(主要是英文)也取得一定成效。深度学习是目前实现人工智能最有效、也是取得成效最大的实施方法。比较传统技术,基于深度学习实现的系统还具备参数规模小,使用速度快的优点,非常适合于计算资源有限的环境。在自然语言处理领域,针对序列标注,包括中文分词、英文浅层句法分析、中英文词性标注和命名识别等各种自然语言处理中的序列标注问题,虽然已有的基于深度网络的方法已经能够达到与传统方法相似的性能,但其模型包含的参数量依然较多,使用时间仍然较长,标注性能还有待进一步提高。针对上述问题,本专利技术提出了一种新的基于深度学习的快速序列标注方法,不仅较大幅度加快了网络标注所需的训练和使用时间,同时能够综合前向标本文档来自技高网...
基于深度学习的自然语言处理中的序列标注方法

【技术保护点】
一种基于深度学习的自然语言处理中的序列标注方法,是运用计算机对输入语句,根据任务定义的标签集合,为句子中的每一个组成单元即字或词按其出现顺序选择相应的标签类型;其特征在于,具体步骤为:(1)为相应语言的每一个组成单元对应一个向量表示,该向量表示可以随机生成或者采用无监督的方法进行预训练,训练以后,通过查找向量表的方式将每一个单元转换成相应的向量表示; (2)定义各种序列标注任务的标签集合,确定每种序列标注任务分别包括哪些标签; (3)准备中文分词、英文浅层句法分析、词性标注、命名识别等自然语言处理中序列标注任务的语料;(4)采用快速序列标注网络结构或综合前向标签信息的网络结构,采用Percep...

【技术特征摘要】
1.一种基于深度学习的自然语言处理中的序列标注方法,是运用计算机对输入语句,根据任务定义的标签集合,为句子中的每一个组成单元即字或词按其出现顺序选择相应的标签类型;其特征在于,具体步骤为:(1)为相应语言的每一个组成单元对应一个向量表示,该向量表示可以随机生成或者采用无监督的方法进行预训练,训练以后,通过查找向量表的方式将每一个单元转换成相应的向量表示;(2)定义各种序列标注任务的标签集合,确定每种序列标注任务分别包括哪些标签;(3)准备中文分词、英文浅层句法分析、词性标注、命名识别等自然语言处理中序列标注任务的语料;(4)采用快速序列标注网络结构或综合前向标签信息的网络结构,采用Perceptron-style算法或者Perceptron-style算法与Max-margin相结合算法对网络进行训练;如采用基于深度学习的快速序列标注网络结构和学习算法进行网络训练,其快速序列标注网络结构中,一个组成单元的标签与其周围单元相关,因而网络采用窗口模型,即在估计当前单元属于某个标签的可能性时,将这个单元以及周围的单元作为输入;如果窗口大小设置成5,则表示将这个单元及其左边和右边各两个单元作为输入窗口;如果左边和右边的字符数量不足于窗口规定的大小,则使用特殊的填充符代替;每一个输入句子中的单元通过查找向量表的方式转换成相应的向量表示;每一个单元的表示以随机生成或者采用无监督的方法进行预训练;存储在向量表中的参数也在训练中进行不断调整;之后将这些向量拼接成特征矩阵,特征矩阵的列数为窗口大小,每一列为对应单元的向量表示;然后对特征矩阵进行单维卷积运算,单维卷积是指对于特征矩阵每一行向量点积相应的参数向量即卷积核,不同行向量进行点积操作时使用不同的卷积核;在单维卷积的作用下,特征矩阵转换成与单元向量维度相同的向量,该向量表示某一窗口的特征表示,可以看成是当前单元在周围单元影响下所产生的语义特征表示;接着经过一个线性网络层之后,使用Sigmoid或hardTanh函数进行非线性的变换,最后再使用一个线性层,输出与任务标签数量相等的向量,向量每一元素表示对应标签的可能性;给定一个句子,随着窗口从左向右的滑动,网络输出一个矩阵,矩阵中的每一个元素fθ(t|i)表示句子中第i个单元属于标签t的可能性的估计,其中...

【专利技术属性】
技术研发人员:郑骁庆陈易林孟潇
申请(专利权)人:复旦大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1